当前位置: 首页 > news >正文

使用系统内NCCL环境重新编译Pytorch

intro:

     费了老大劲,来重新编译pytorch,中间报了无数错误。原生的编译好的pytorch是直接用的其自带NCCL库,并且从外部是不能进行插桩的,因为根本找不到libnccl.so文件。下面记录下重新编译pytorch的过程。指定USE_SYSTEM_NCCL=1。这里不知道为啥,用原生库进行编译的时候,总会爆nvlink相关的错误,如果有知道的大神,可以在评论区赐教,万分感谢。

相关环境配置

Ubuntu 22.04.5 LTS

cuda 11.8+ cudnn 8.9.7

python 3.11.10

torch V2.0.1+ nccl 2.21.5

NVIDIA GeForce RTX 4090 D 

gcc (Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0

cmake version 3.22.1

如果WSL和cuda以及cudnn不太会配的可以参考:Windows11 + WSL Ubuntu + Pycharm + Conda for deeplearning | 公孙启

        以下是查看一些环境使用的bash命令,可以根据本地配置的路径自行修改,关于系统内搭建NCCL环境的方法可以参考:手动配置NCCL环境_nccl 参数设置-CSDN博客。这里是实际上是使用了一个Anaconda的虚拟环境,以下工作都要在虚拟环境内进行:

conda create -n py_pi python=3.11
conda activate py_pi
python --verion
lsb_release -a
nvcc --version
cat /usr/local/cuda/include/cudnn_version.h | grep CUDNN_MAJOR -A 2
cat /usr/local/cuda/include/nccl.h | grep NCCL_MAJOR -A 2

        clone pytorch指令如下,如果速度慢或者失败,建议不要再WSL下进行,因为WSL似乎没法直接科学上网,可以在宿主机windows下直接科学上网clone即可,再打开WSL挂载到相应的目录下。或者可以更换镜像源

git clone --branch v2.0.1 --recursive https://github.com/pytorch/pytorch
pip install -r requirements.txt

pytorch源码的编译:

        完成以上步骤就可以开始源码编译了,这是一个非常耗时的工作,应该需要一个多小时的时间,具体时间CPU支持的MAX_JOBS的数量有关,我这里写好了一个bash脚本,直接保存运行即可(是在pytorch 的路径下)。这里建议把numpy降级为1.26.3:

pip install numpy==1.26.3
#!/bin/bash# 设置环境变量
export NCCL_ROOT=/usr/local/cuda
export NCCL_INCLUDE_DIR=$NCCL_ROOT/include
export NCCL_LIB_DIR=$NCCL_ROOT/targets/x86_64-linux/lib
export LD_LIBRARY_PATH=$NCCL_LIB_DIR:$LD_LIBRARY_PATH
export LIBRARY_PATH=$NCCL_LIB_DIR:$LIBRARY_PATH
export CPATH=$NCCL_INCLUDE_DIR:$CPATH
export MAX_JOBS=20
#这里的环境变量可以根据你的实际环境去改变,但是如果是按照我以上的流程去配的,使用这个应该没有问题。
#MAX_JOBS数量务必根据你的cpu情况去自行设定,设的太大了内存会报错。我这里是intel i7 14700k 设置为20的话绰绰有余。
# 清理之前的构建
make clean
python setup.py clean
rm -rf build# 编译 PyTorch
USE_GLOO=0 USE_SYSTEM_NCCL=1 NCCL_INCLUDE_DIR=$NCCL_INCLUDE_DIR NCCL_LIB_DIR=$NCCL_LIB_DIR python setup.py develop
#注意这里USE_GLOO=0,否则会报错,我也不知道为啥。

           编译过程中可能会有各种各样的问题,相当折磨,所以需要耐心一点。如果出现错误,找到相关的错误日志,然后可以问一下chatgpt或者找一下网上有没有类似的问题。我遇到的问题在上面已经避坑,补充一个可能遇到的问题,虽然我没遇到:解决 libstdc++.so.6: version ‘GLIBCXX_3.4.30‘ not found 问题

如果编译完成了,你可以使用以下的脚本来测试:


import torchprint("torch version",torch.__version__)
print(torch.cuda.is_available(), torch.distributed.is_nccl_available())
print("nccl version:",torch.cuda.nccl.version())
print("cuda version:", torch.version.cuda)       cudnn_version = torch.backends.cudnn.version()
print("cuDNN version:", cudnn_version)
print(torch.cuda.device_count(), torch.cuda.get_device_name(0))

输出类似于这样就可以了:

torch version 2.0.0a0+gite9ebda2
True True
nccl version: (2, 21, 5)
cuda version: 11.8
cuDNN version: 8907
1 NVIDIA GeForce RTX 4090 D

参考

2024 最新PyTorch源码编译流程和踩坑记录,PyTorch build from source

Docker内 Pytorch+NCCL源码编译

相关文章:

使用系统内NCCL环境重新编译Pytorch

intro: 费了老大劲,来重新编译pytorch,中间报了无数错误。原生的编译好的pytorch是直接用的其自带NCCL库,并且从外部是不能进行插桩的,因为根本找不到libnccl.so文件。下面记录下重新编译pytorch的过程。指定USE_SYSTEM_NCCL1。这…...

1. Klipper从安装到运行

本文记录Klipper固件从安装,配置到运行的详细过程 Klipper是3D打印机固件之一,它通常运行在linux系统(常使用Debian,其它的linux版本也可以)上,因此需要一个能运行Linux系统的硬件,比如电脑&am…...

docker 卸载与安装

卸载 查询之前安装的docker, 没有查到则不用卸载删除 yum list installed | grep docker 卸载安装包 yum remove docker-* -y 删除镜像、容器、默认挂载卷 rm -rf /var/lib/docker 安装 -ce 安装稳定版本 -y 当安装过程提示选择全部为 "yes" yum install d…...

跨部门文件共享安全:平衡协作与风险的关键策略

在现代企业中,跨部门协作已成为推动业务发展的关键因素。然而,随着信息的自由流动和共享,文件安全风险也随之增加。如何在促进跨部门协作的同时,确保文件共享的安全性,成为了一个亟待解决的问题。 一、明确文件分类与…...

基于单片机的智慧小区人脸识别门禁系统

本设计基于单片机的智慧小区人脸识别门禁系统。由STM32F103C8T6单片机核心板、显示模块、摄像头模块、舵机模块、按键模块和电源模块组成。可以通过摄像头模块对进入人员人脸数据进行采集,识别成功后,舵机模块动作,模拟门禁打开,门…...

【es6】原生js在页面上画矩形及删除的实现方法

画一个矩形,可以选中高亮,删除自己效果的实现,后期会丰富下细节,拖动及拖动调整矩形大小 实现效果 代码实现 class Draw {constructor() {this.x 0this.y 0this.disX 0this.disY 0this.startX 0this.startY 0this.mouseDo…...

【git实践】分享一个适用于敏捷开发的分支管理策略

文章目录 1. 背景2. 分支管理实践2.1. 敏捷开发中分支管理面临的问题2.2. 分支管理策略2.3. 还需要注意的一些问题 3.总结 1. 背景 在实际的开发工作中,我们往往会面临多任务并行研发,多个环境管理的情况,这种情况下,一个合适的分…...

Redis与MySQL如何保证数据一致性

Redis与MySQL如何保证数据一致性 简单来说 该场景主要发生在读写并发进行时,才会发生数据不一致。 主要流程就是要么先操作缓存,要么先操作Redis,操作也分修改和删除。 一般修改要执行一系列业务代码,所以一般直接删除成本较低…...

基于微信小程序的教室预约系统+LW示例参考

1.项目介绍 功能模块:管理员(学生管理、教师管理、申请管理、设备管理、报修管理等)、普通用户/学生(注册登录、申请预约、退订、报修等)技术选型:SSM、JSP、uniapp等测试环境:idea2024&#x…...

Linux 安装 Git 服务器

一、安装 Git 1. 在 CentOS/RHEL 中使用以下命令: sudo yum update -y # 或者 sudo dnf update -y (在较新的系统中) sudo yum install git -y验证安装:git --version 2. 配置 Git 用户 git config --global user.name "Your Name" git co…...

总结:Yarn资源管理

一、介绍 本文梳理下Yarn的资源分配计算逻辑。 二、配置 - 资源限制 1、配置NodeManager可分配的资源池的总量 <property><name>yarn.nodemanager.resource.memory-mb</name><value>4096</value> </property> 作用对象:节点管理器(No…...

Python学习34天

import random class Game: peo0 rob0 # # def __init__(self,peo,rob): # self.peopeo # self.robrob def Play(self): """ 石头剪刀布游戏&#xff0c;0代表石头&#xff0c;1代见到&#xff0c;2代表石头 …...

深入浅出 WebSocket:构建实时数据大屏的高级实践

简介 请参考下方&#xff0c;学习入门操作 基于 Flask 和 Socket.IO 的 WebSocket 实时数据更新实现 在当今数字化时代&#xff0c;实时性是衡量互联网应用的重要指标之一。无论是股票交易、在线游戏&#xff0c;还是实时监控大屏&#xff0c;WebSocket 已成为实现高效、双向…...

三开关VUE组件

一、使用效果 <template><QqThreeSwitch v-model"value" /><!-- <SqThreeSwitch v-model"value" :options"[test1, test2, test3]"><template #left-action><div style"display: flex"><IconMoon…...

SpringCloud+SpringCloudAlibaba学习笔记

SpringCloud 服务注册中心 eureka ap 高可用 分布式容错 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-netflix-eureka-server</artifactId> </dependency> <dependency><groupId…...

牛客小白月赛105(A~E)

文章目录 A lz的吃饭问题思路code B lz的数字问题思路code C lz的蛋挞问题思路code D lz的染色问题思路code E lz的括号问题思路code 总结 牛客小白月赛105 A lz的吃饭问题 思路 签到题&#xff0c;比较大小即可 code void solve(){int a,b,c,d;cin >> a >> b…...

OSPF协议整理

OSPF&#xff08;Open Shortest Path First&#xff09;即开放式最短路径优先协议&#xff0c;是一种广泛应用于大型网络中的链路状态路由协议。 OSPF 的基本概念 OSPF 是基于链路状态算法的内部网关协议&#xff08;IGP&#xff09;&#xff0c;用于在一个自治系统&#xff…...

Java中的多线程

文章目录 Java中的多线程一、引言二、多线程的创建和启动1、继承Thread类2、实现Runnable接口 三、线程的常用方法1、currentThread()和getName()2、sleep()和yield()3、join() 四、线程优先级五、使用示例六、总结 Java中的多线程 一、引言 在Java中&#xff0c;多线程编程是…...

什么是聚簇索引、非聚簇索引、回表查询

其实聚集索引也叫聚簇索引&#xff0c;二级索引也叫非聚簇索引&#xff0c;大家不要认为这是不同的两个知识点。 定义 先看一下数据库的索引介绍。 聚簇索引 1. 如果存在主键&#xff08;一般都存在&#xff09;&#xff0c;主键索引就是聚簇索引。 2. 如果不存在&#xff0c;…...

探索 Spring 框架核心组件:构建强大 Java 应用的基石

Spring框架作为Java企业级开发的首选框架之一&#xff0c;其强大的功能和灵活的架构深受开发者喜爱。Spring框架的核心组件共同构建了一个高效、可扩展的应用程序开发平台。本文将深入探讨Spring框架的核心组件&#xff0c;揭示它们如何在Spring框架中发挥关键作用。 一、Bean…...

Android 13 Aosp 默认允许应用动态权限

图库 frameworks/base/services/core/java/com/android/server/pm/permission/DefaultPermissionGrantPolicy.java 修改 public void grantDefaultPermissions(int userId) {DelayingPackageManagerCache pm new DelayingPackageManagerCache();grantPermissionsToSysCompon…...

【C++知识总结1】c++第一篇,简单了解一下命名空间是什么

一、C的由来 C语言是一种结构化和模块化的编程语言&#xff0c;它对于处理较小规模的程序非常适用。然而&#xff0c;当面临需要高度抽象和建模的复杂问题&#xff0c;以及规模较大的程序时&#xff0c;C语言就显得不那么合适了。为了应对这种挑战&#xff0c;并在解决软件危机…...

从0开始深度学习(32)——循环神经网络的从零开始实现

本章将从零开始&#xff0c;基于循环神经网络实现字符级语言模型&#xff08;不是单词级&#xff09; 首先我们把从0开始深度学习&#xff08;30&#xff09;——语言模型和数据集中的load_corpus_time_machine()函数进行引用&#xff0c;用于导入数据&#xff1a; train_iter…...

GitLab使用操作v1.0

1.前置条件 Gitlab 项目地址&#xff1a;http://******/req Gitlab账户信息&#xff1a;例如 001/******自己的分支名称&#xff1a;例如 001-master&#xff08;注&#xff1a;master只有项目创建者有权限更新&#xff0c;我们只能更新自己分支&#xff0c;然后创建合并请求&…...

cuda conda yolov11 环境搭建

优雅的 yolo v11 标注工具 AutoLabel Conda环境直接识别训练 nvidia-smi 检查CUDA版本 下载nvidia cudnn对应的版本 将cuDNN压缩包内对应的文件复制到本地bin、include、lib的文件夹中 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.6 miniConda快速开始-安装 执行…...

解决SpringBoot连接Websocket报:请求路径 404 No static resource websocket.

问题发现 最近在工作中用到了WebSocket进行前后端的消息通信&#xff0c;后端代码编写完后&#xff0c;测试一下是否连接成功&#xff0c;发现报No static resource websocket.&#xff0c;看这个错貌似将接口变成了静态资源来访问了&#xff0c;第一时间觉得是端点没有注册成…...

element-plus的组件数据配置化封装 - table

目录 一、封装的table、table-column组件以及相关ts类型的定义 1、ATable组件的封装 - index.ts 2、ATableColumn组件的封装 - ATableColumn.ts 3、ATable、ATableColumn类型 - interface.ts 二、ATable、ATableColumn组件的使用 三、相关属性、方法的使用以及相关说明 1. C…...

【二维动态规划:交错字符串】

介绍 编程语言&#xff1a;Java 本篇介绍一道比较经典的二维动态规划题。 交错字符串 主要说明几点&#xff1a; 为什么双指针解不了&#xff1f;为什么是二维动态规划&#xff1f;根据题意分析处转移方程。严格位置依赖和空间压缩优化。 题目介绍 题意有点抽象&#xff0c…...

goframe开发一个企业网站 MongoDB 完整工具包18

1. MongoDB 工具包完整实现 (mongodb.go) package mongodbimport ("context""fmt""time""github.com/gogf/gf/v2/frame/g""go.mongodb.org/mongo-driver/mongo""go.mongodb.org/mongo-driver/mongo/options" )va…...

在vue中,根据后端接口返回的文件流实现word文件弹窗预览

需求 弹窗预览word文件&#xff0c;因浏览器无法直接根据blob路径直接预览word文件&#xff0c;所以需要利用插件实现。 解决方案 利用docx-preview实现word文件弹窗预览&#xff0c;以node版本16.21.3和docx-preview版本0.1.8为例 具体实现步骤 1、安装docx-preview插件 …...

网站的图片滚动怎么做的/爱站网长尾关键词挖掘查询工具

针对每个测试需求设计测试用例&#xff0c;测试用例设计的遵守的原则&#xff1a; 1.每一个测试需求至少有一个测试用例与之对应&#xff1b; 2. 每个测试用例包含的测试步骤尽量不要超过10个&#xff1b;如果过多就进行拆分&#xff1b; 3. 每一步step只包含有一种情况&#x…...

南京较好的网站制作公司/网站域名在哪买

&#xfeff;&#xfeff;GitHub 指南原文地址&#xff1a;GitHub官网指南示例项目&#xff1a;Hello World十分钟轻松教学在学习计算机语言编程的过程中创建Hello World 项目是一个历史悠久的传统。当你接触一门新事物的时候可以用它来做一个简单的练习。让我们开始使用github…...

想接外包做网站/百度网站统计

在使用Spring框架时 报错 &#xff1a;java.lang.NoClassDefFoundError: org/springframework/aop/TargetSource 原因&#xff1a;为引入spring-aop-4.2.1.RELEASE.jar 包 解决方法&#xff1a;引入spring-aop-4.2.1.RELEASE.jar 包 即可解决转载于:https://www.cnblogs.com/…...

五道口网站建设/品牌公关公司

在做混合开发时发现&#xff0c;无论是APP内的字体大小&#xff0c;还是前端的字体大小&#xff0c;都会随着系统字体大小发生变化。当遇到老人字体&#xff08;特大号字体&#xff09;时&#xff0c;有些页面的布局就乱掉了。而玩过游戏的都知道&#xff0c;所有游戏APP的字体…...

苏州优化网站排名/网络营销服务公司

在keil中编程时&#xff0c;写了一行代码&#xff0c;然后就想知道&#xff0c;执行这句C代码需要多长时间。时钟周期在这就不解释了&#xff0c;频率的倒数。指令周期&#xff0c;个人理解就是cpu执行一条汇编指令所需要的时间。我们知道cm3使用的三级流水线&#xff0c;那么到…...

公司宣传片制作多少钱/seo专业培训班

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录前言一.W25Q32-Flash1.官方说明2.引脚排列3.特殊引脚说明1.串行数输入输出和IOS (DI DO和IO0, IO1,IO2,IO3)2.写保护&#xff08;/WP&#xff09;3.保持端&#xff0…...