nccl 03 记 回顾:从下载,编译到调试 nccl-test
1, 下载与编译
1.1 源码下载
$ git clone https://github.com/NVIDIA/nccl.git
1.2 编译
1.2.1 一般编译:
$ make -j src.build
1.2.2 特定架构gpu 编译
$ make -j src.build NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80"
A100系列的为 sm_80;
1.2.3 只 debug 编译Host C++代码
<1> 修改 nccl/makefiles/common.mk
$ git diff
diff --git a/makefiles/common.mk b/makefiles/common.mk
index a037cf3..5540099 100644
--- a/makefiles/common.mk
+++ b/makefiles/common.mk
@@ -80,7 +80,8 @@ NVLDFLAGS += ${GCOV_FLAGS:%=-Xcompiler %}ifeq ($(DEBUG), 0)NVCUFLAGS += -O3
-CXXFLAGS += -O3 -g
+#LL:: CXXFLAGS += -O3 -g
+CXXFLAGS += -g -ggdb3elseNVCUFLAGS += -O0 -G -gCXXFLAGS += -O0 -g -ggdb3
为了debug 主机代码,修改 makefile相关代码的截图效果:
<2> 编译如上
$ make -j src.build NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80"
1.2.4 全部编译为 debug 版本
$ make -j src.build NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80" DEBUG=1 VERBOSE=1
或
$ make -j src.build NVCC_GENCODE="-gencode=arch=compute_80,code=sm_80" DEBUG=1
1.3 正式安装
(为了开发nccl本身的话,也可以不安装)
ubuntu:
$ # Install tools to create debian packages
$ sudo apt install build-essential devscripts debhelper fakeroot
$ # Build NCCL deb package
$ make pkg.debian.build
$ ls build/pkg/deb/
{
然后可以跟安装一般的deb包一样安装:
sudo dpkg -i /path/to/package.deb
如果出现依赖缺少问题,使用这个修复:
sudo apt-get install -f
或者直接用apt来安装 deb 包:
sudo apt install ./path/to/package.deb
}
2,验证示例代码
2.1 下载测试
将 nccl-test/ 下载到与 nccl/ 并列
$ git clone --recursive https://github.com/NVIDIA/nccl-tests.git
$ ls
2.2 直接链接 nccl 编译 nccl-test
2.1 一般编译
$ cd nccl-test/
$ make NCCL_HOME=../nccl/build
运行示例:
设置环境变量:
export LD_LIBRARY_PATH=../../nccl/build/lib
此处存储了生成的 链接库:
运行:
2.2 Debug 编译 nccl-test
只debug 主机代码
2.2.1 修改Makefile信息
git diff 结果如下:
nccl-tests/src$ git diff
diff --git a/src/Makefile b/src/Makefile
index 393de8e..d704ccd 100644
--- a/src/Makefile
+++ b/src/Makefile
@@ -42,7 +42,8 @@ NVLDFLAGS := -L${CUDA_LIB} -l${CUDARTLIB} -lrtifeq ($(DEBUG), 0)NVCUFLAGS += -O3 -g
-CXXFLAGS += -O3 -g
+CXXFLAGS += -O0 -g -ggdb3
+#LL:: CXXFLAGS += -O3 -gelseNVCUFLAGS += -O0 -G -gCXXFLAGS += -O0 -g -ggdb3
2.2.2 编译
$ make -j
同样elf文件在 nccl-test/build/ 中:
$ gdb ./all_gather_perf
进入gdb debug中:
。
先回顾到这里吧,明天继续...
相关文章:
![](https://img-blog.csdnimg.cn/direct/8f17698c2e0442f7995f42c8e4479259.png)
nccl 03 记 回顾:从下载,编译到调试 nccl-test
1, 下载与编译 1.1 源码下载 $ git clone https://github.com/NVIDIA/nccl.git 1.2 编译 1.2.1 一般编译: $ make -j src.build 1.2.2 特定架构gpu 编译 $ make -j src.build NVCC_GENCODE"-gencodearchcompute_80,codesm_80" A10…...
![](https://img-blog.csdnimg.cn/img_convert/da762937bc1acfc02637545a96a6c735.png)
关于车规级功率器件热可靠性测试的分享
随着中国电动汽车市场的稳步快速发展和各大车企布局新能源的扩散,推动了车规级功率器件的快速增长。新能源汽车行业和消费电子都会用到半导体芯片,但车规级芯片对外部环境要求很高,涉及到的一致性和可靠性均要大于工业级产品要求,…...
![](https://www.ngui.cc/images/no-images.jpg)
内核学习——1、list_head
双向循环链表:list_head 头节点head是不使用的: struct list_head { struct list_head *next, *prev; }; 结构体中没有数据域,所以一般把list_head嵌入到其他结构中使用 struct file_node { char c; struct list_head node; }; 此时ÿ…...
![](https://www.ngui.cc/images/no-images.jpg)
JavaEE初阶--网络基本概念
目录 一、引言 二、网络基本概念 2.1 局域网LAN 2.2 广域网WAN 三、网络通信的基础 3.1 IP地址 3.2 端口号 3.3 协议 3.4 五元组 3.5 协议分层 3.6 OSI七层模型 3.7 TCP/IP五层模型 四、总结 一、引言 本篇博客将进入网络编程以及网络原理的学习,但网…...
![](https://img-blog.csdnimg.cn/direct/1f7a3e0eeb7b401cb9f10580a9c569ce.png)
gitlab-cicd-k8s
k8s已经准备好 kubectl get node 创建cicdYaml文件 kubectl create namespace gitlab-cicd --dry-runclient --outputyaml >> gitlab-cicd.yaml kubectl apply -f gitlab-cicd.yaml 服务器和仓库在一起可用专有地址 使用 GitLab Runner 可以自动执行 GitLab CI/CD 管道…...
![](https://img-blog.csdnimg.cn/img_convert/b71bf37bfc63e2182e899a5988d026f1.png)
盘点下常见 HDFS JournalNode 异常的问题原因和修复方法
盘点下常见 HDFS JournalNode 异常的问题原因和修复方法 最近在多个客户现场以及公司内部环境,都遇到了因为 JournalNode 异常导致 HDFS 服务不可用的问题,在此总结下相关知识。 1 HDFS HA 高可用和 JournalNode 概述 HDFS namenode 有 SPOF 单点故障…...
![](https://www.ngui.cc/images/no-images.jpg)
深入了解python生成器(generator)
生成器 生成器是 Python 中一种特殊类型的迭代器。生成器允许你定义一个函数来动态产生值,而不是一次性生成所有值并将它们存储在内存中。生成器使用 yield 关键字来逐个返回值。每次调用生成器函数时,函数会在 yield 语句暂停,并记住当前的…...
![](https://img-blog.csdnimg.cn/direct/4762546ba1584a6e8d8a17045692f48f.png)
【Linux】Xshell和Xftp简介_安装_VMware虚拟机使用
1、简介 Xshell简介 Xshell是一款强大的安全终端模拟软件支持SSH1、SSH2以及Microsoft Windows平台的TELNET协议。该软件通过互联网实现到远程主机的安全连接,并通过其创新性的设计和特色帮助用户在复杂的网络环境中高效工作。Xshell可以在Windows界面下访问远端不…...
![](https://www.ngui.cc/images/no-images.jpg)
【轮询负载均衡规则算法设计题】
一、题目描述 给定n台主机(编号1~n)和某批数据包,数据包格式为(抵达主机时刻,负载量)。这里数据每个时刻最多只有1条数据到达。负载量表示该主机处理此数据包总耗时。请计算轮询负载均衡规则下,…...
![](https://img-blog.csdnimg.cn/img_convert/605ee73ff1a500b10d7982e9793b3b0f.jpeg)
张一鸣的产品哲学:与巨头共舞,低调中寻求突破
一、引言 在当今互联网竞争激烈的格局下,与巨头企业打交道是每个新兴科技企业都需面对的挑战。字节跳动创始人张一鸣在多次访谈中分享了他与巨头企业打交道的经验:保持低调、补齐技术、产品和市场各方面的能力。本文将探讨这一策略背后的产品哲学&#…...
![](https://img-blog.csdnimg.cn/direct/cbeed1f0104c4f7380f37a309f3af1cb.png#pic_center)
【面试干货】throw 和 throws 的区别
【面试干货】throw 和 throws 的区别 1、throw1.1 示例 2、throws2.1 示例 3、总结 💖The Begin💖点点关注,收藏不迷路💖 在Java中,throw和throws都与异常处理紧密相关,但它们在使用和含义上有明显的区别。…...
![](https://csdnimg.cn/release/blog_editor_html/release2.3.6/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=N7T8)
安卓手机删除的照片怎么恢复?3个方法,小技巧大作用
你是否曾经不小心删除了手机里的珍贵照片,却不知道怎么恢复?别担心,今天我们就来分享几个简单的小技巧,帮助你轻松找回那些丢失的照片。这些技巧虽然简单,但却能发挥大作用,让你不再为丢失照片而烦恼。手机…...
![](https://img-blog.csdnimg.cn/direct/1366d6d8bb8c4d14a7cb8e5967fa2dd0.png)
Unity制作背包的格子
1.新建一个面板 2.点击面板并添加这个组件 3.点击UI创建一个原始图像,这样我们就会发现图像出现在了面板的左上角。 4.多复制几个并改变 Grid Layout Group的参数就可以实现下面的效果了...
![](https://www.ngui.cc/images/no-images.jpg)
道可云元宇宙每日资讯|厦门:运用元宇宙技术助力直播电商发展
道可云元宇宙每日简报(2024年6月20日)讯,今日元宇宙新鲜事有: 厦门:运用元宇宙技术助力直播电商发展 近日,厦门市商务局印发《厦门市促进直播电商高质量发展若干措施(2024年-2026年࿰…...
![](https://csdnimg.cn/release/blog_editor_html/release2.3.6/ckeditor/plugins/CsdnLink/icons/icon-default.png?t=N7T8)
电脑怎么卸载软件?多个方法合集(2024年新版)
在电脑的日常使用中,我们经常需要安装各种软件来满足不同的需求,但随着时间的推移,可能会出现一些软件不再需要或需要更换的情况。此时,及时从电脑上卸载这些不必要的软件是非常重要的。它不仅可以释放硬盘空间,还可以…...
![](https://img-blog.csdnimg.cn/direct/e8915cc0ae51405fa0e34014d8e34f06.png)
【深度学习基础】详解Pytorch搭建CNN卷积神经网络LeNet-5实现手写数字识别
目录 写在开头 一、CNN的原理 1. 概述 2. 卷积层 内参数(卷积核本身) 外参数(填充和步幅) 输入与输出的尺寸关系 3. 多通道问题 多通道输入 多通道输出 4. 池化层 平均汇聚 最大值汇聚 二、手写数字识别 1. 任务…...
![](https://www.ngui.cc/images/no-images.jpg)
面试技巧:正确回答JavaScript中Map和Object的选择问题
在JavaScript的面试中,对于何时使用Map和Object的选择问题,是一个常见的考察点。这两个数据结构都能存储键值对,但它们各有优势和适用场景。本文将深入探讨两者的区别,并通过实际代码示例来指导您如何选择。 基本概念 Map&#…...
![](https://www.ngui.cc/images/no-images.jpg)
sd StableDiffusion库学习笔记
目录 DeepSpeed realesrgan BasicSR超分辨率,去噪,去模糊,去 JPEG 压缩噪声 segment_anything mmengine controlnet_aux accelerate transfersformer pytorch_fid einops compel transfersformer 文本嵌入调整库 报错:…...
![](https://img-blog.csdnimg.cn/direct/863b0616c5564042b7034e9853bfd2da.png)
【单片机毕业设计选题24017】-基于STM32的禽舍环境监测控制系统(蓝牙版)
系统功能: 系统分为主机端和从机端,主机端主动向从机端发送信息和命令,从机端 收到主机端的信息后回复温湿度氨气浓度和光照强度等信息。 主要功能模块原理图: 电源时钟烧录接口: 单片机和按键输入电路: 主机部分电路: 从机部分电路: 资料获取地址 主…...
![](https://www.ngui.cc/images/no-images.jpg)
每天一个数据分析题(三百七十八)- 系统聚类
在系统聚类方法中,哪种系统聚类是直接利用了组内的离差平方和? A. 最长距离法 B. 重心法 C. Ward法 D. 类平均法 数据分析认证考试介绍:点击进入 题目来源于CDA模拟题库 点击此处获取答案 数据分析专项练习题库 内容涵盖Python&#…...
![](https://img-blog.csdnimg.cn/direct/80d911841e544a80b3a4d769e21bded6.png)
守护系统稳定性的关键技术之看门狗
目录 一、独立看门狗 二、窗口看门狗 三、总结 看门狗定时器(Watchdog Timer,WDT)是嵌入式系统中至关重要的组件,用于监控和维护系统的稳定性。主要是用来监测单片机运行状态和解决程序引起的故障的模块。在由单片机构成的微型…...
![](https://img-blog.csdnimg.cn/direct/b06967cc557e416caad16d84dc588b10.png)
【Linux】进程间通信上 (1.5万字详解)
目录 一.进程间通信介绍 1.1进程间通信的目的 1.2初步认识进程间通信 1.3进程间通信的种类 二.匿名管道 2.1何为管道 2.1实现原理 2.3进一步探寻匿名管道 2.4编码实现匿名管道通信 2.5管道读写特点 2.6基于管道的进程池设计 三.命名管道 3.1实现原理 3.2代码实现 四.…...
![](https://www.ngui.cc/images/no-images.jpg)
测试用例设计:提升测试覆盖率的策略与方法
测试用例设计:提升测试覆盖率的策略与方法 前言测试用例设计的原则提高测试覆盖率的方法测试类型的分析 测试用例设计的基本方法等价类划分边界值分析正交法判定表法因果图法 方法与策略方法策略 如何评价测试用例结论 前言 在软件开发过程中,测试用例设…...
![](https://img-blog.csdnimg.cn/img_convert/e8a1900b548619d3ba9f92ed7f862731.jpeg)
【微服务】什么是Hystrix?一文带你入门Hystrix
文章目录 强烈推荐引言主要功能实现容错应用场景1. 远程服务调用2. 防止级联故障3. 网络延迟和超时管理4. 资源隔离5. 高并发场景6. 熔断与自动恢复7. 故障检测与监控 示例应用场景使用实例1. 引入依赖2. 创建 Hystrix 命令类3. 使用 Hystrix 命令4. 配置 Hystrix5. 实时监控集…...
![](https://www.ngui.cc/images/no-images.jpg)
AI学习指南机器学习篇-支持向量机超参数调优
AI学习指南机器学习篇-支持向量机超参数调优 在机器学习领域中,支持向量机(Support Vector Machines,SVM)是一种非常常用的监督学习模型。它通过寻找一个最优的超平面来进行分类和回归任务。然而,在实际应用中&#x…...
![](https://www.ngui.cc/images/no-images.jpg)
掉电安全文件系统分析
掉电安全FS 掉电安全的文件系统(Power-Fail Safe File Systems)被设计为在电源故障或系统崩溃的情况下仍能保持数据一致性的文件系统。这样的文件系统通常通过使用日志(journaling)或写时复制(copy-on-writeÿ…...
![](https://img-blog.csdnimg.cn/direct/cb19bbc1fd68490cb52b9d9f16c781db.png)
React-Redux学习笔记(自用)
1. 环境搭建 插件安装:Redux Toolkit和react-redux npm i reduxjs/toolkit react-redux2、 store目录结构设计 集中状态管理的部分会单独创建一个store目录(在src下)应用通常会有很多个子模块,所以还会有个modules目录&#x…...
![](https://img-blog.csdnimg.cn/direct/e678d5c05144448f9c9233bf292616a1.gif)
【机器学习】:线性回归模型学习路线
Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…...
![](https://img-blog.csdnimg.cn/direct/19ff5136621a434fa3541f01878b6641.png)
C++设计模式——Flyweight享元模式
一,享元模式简介 享元模式是一种结构型设计模式,它将每个对象中各自保存一份数据的方式改为多个对象共享同一份数据,该模式可以有效减少应用程序的内存占用。 享元模式的核心思想是共享和复用,通过设置共享资源来避免创建过多的实…...
![](https://www.ngui.cc/images/no-images.jpg)
Github 2024-06-19 开源项目日报 Top10
根据Github Trendings的统计,今日(2024-06-19统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量TypeScript项目3Rust项目2Go项目2JavaScript项目1Python项目1Dart项目1非开发语言项目1Ruby项目1HTML项目1项目化学习 创建周期:2538 天协议类…...
![](http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-1005zhanggy/image002.jpg)
wordpress搜索频率/网站开发语言
我们知道,在 DB2 中,主要存在两种安全机制:用户身份认证及用户授权。身份认证是指哪些用户可以访问数据库系统,它通常是由操作系统或第三方认证工具来完成。授权是指数据库用户可以访问哪些数据库对象,用户授权完全由 …...
![](/images/no-images.jpg)
哪些域名适合营销型网站/苏州seo建站
centos 7 中没有iptables 和service iptables save 指令使用失败问题解决方案参考文章: (1)centos 7 中没有iptables 和service iptables save 指令使用失败问题解决方案 (2)https://www.cnblogs.com/AmbitiousMice/…...
![](/images/no-images.jpg)
我的世界皮肤网站做/国际新闻报道
参考:https://blog.csdn.net/qq_43328040/article/details/109169733 实际测试发现合并操作有错,参考其他资料修改下 准备:一个电影视频 1.avi 运行1,分拆,取前2000帧保存到img目录 import cv2 cap cv2.VideoCaptu…...
![](https://img-blog.csdnimg.cn/img_convert/56062b9704d5a5040a311672ddffa3d6.gif)
seo 网站太小/网站网络推广优化
天使的脸庞、魔鬼的声音是一种什么体验?声音和相貌不符的痛苦你不懂…01cedarwood_每次打电话都以为我是男人02鱼嘎尾我睡觉刚起来声音特别粗,有一次我爸打来立马发火问我哪个男人在????? 03哎我…...
![](/images/no-images.jpg)
做网站广告推广平台/深圳网络推广培训
前端代码规范 JavaScript代码编写规范 缩进 每一层级由4个空格组成,避免使用制表符(Tab)进行缩进。 行的长度 每行长度不应该超过80个字符,多于80个字符,应该在运算符后换行,下一行增加两级缩进(…...
![](/images/no-images.jpg)
专业做球赛旅游的网站/鞍山seo优化
在处理numpy数组,有这个需求,故写下此文:使用np.argwhere和np.all来查找索引。要使用np.delete删除它们。示例1import numpy as npa np.array([[1, 2, 0, 3, 0],[4, 5, 0, 6, 0],[7, 8, 0, 9, 0]])idx np.argwhere(np.all(a[..., :] 0, ax…...