当前位置：首页 > news >正文

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed模型训练

news 2026/2/8 13:05:41

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed（环境没搞起来）模型训练代码，并对比不同方法的训练速度以及GPU内存的使用

代码：pytorch_model_train

FairScale（你真的需要FSDP、DeepSpeed吗？）

在了解各种训练方式之前，先来看一下 FairScale 给出的一个模型训练方式选择的流程，选择适合自己的方式，就是最好的。

在这里插入图片描述

训练环境设置

模型：预训练的Resnet50
数据集：Cifar10
硬件资源：一台4卡Tesla P40
训练设置：5 epoch、128 batch size
观察指标：显存占用、GPU使用率、训练时长、模型训练结果

备注：

由于P40硬件限制，不支持半精度fp16的训练，在fp16条件下训练的速度会受到影
响
ResNet50模型较小，batch_size=1时单卡仅占用 0.34G显存，绝大部分显存都被输入数据，以及中间激活占用

测试基准（batch_size=1）

单卡显存占用：0.34 G
单卡GPU使用率峰值：60%

单卡单精度训练

代码文件：pytorch_SingleGPU.py
单卡显存占用：11.24 G
单卡GPU使用率峰值：100%
训练时长（5 epoch）：1979 s
训练结果：准确率85%左右

在这里插入图片描述

单卡半精度训练

代码文件：pytorch_half_precision.py
单卡显存占用：5.79 G
单卡GPU使用率峰值：100%
训练时长（5 epoch）：1946 s
训练结果：准确率75%左右

在这里插入图片描述

备注： 单卡半精度训练的准确率只有75%，单精度的准确率在85%左右

单卡混合精度训练

AUTOMATIC MIXED PRECISION PACKAGE - TORCH.AMP

CUDA AUTOMATIC MIXED PRECISION EXAMPLES

PyTorch 源码解读之 torch.cuda.amp: 自动混合精度详解

如何使用 PyTorch 进行半精度、混(合)精度训练

如何使用 PyTorch 进行半精度训练

pytorch模型训练之fp16、apm、多GPU模型、梯度检查点（gradient checkpointing）显存优化等

Working with Multiple GPUs

代码文件：pytorch_auto_mixed_precision.py
单卡显存占用：6.02 G
单卡GPU使用率峰值：100%
训练时长（5 epoch）：1546 s
训练结果：准确率85%左右

在这里插入图片描述

混合精度训练过程

在这里插入图片描述

混合精度训练基本流程

维护一个 FP32 数值精度模型的副本
在每个iteration
- 拷贝并且转换成 FP16 模型
- 前向传播（FP16 的模型参数）
- loss 乘 scale factor s
- 反向传播（FP16 的模型参数和参数梯度）
- 参数梯度乘 1/s
- 利用 FP16 的梯度更新 FP32 的模型参数

autocast结合GradScaler用法

# Creates model and optimizer in default precision
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), ...)# Creates a GradScaler once at the beginning of training.
scaler = GradScaler()for epoch in epochs:for input, target in data:optimizer.zero_grad()# Runs the forward pass with autocasting.with autocast(device_type='cuda', dtype=torch.float16):output = model(input)loss = loss_fn(output, target)# Scales loss.  Calls backward() on scaled loss to create scaled gradients.# Backward passes under autocast are not recommended.# Backward ops run in the same dtype autocast chose for corresponding forward ops.scaler.scale(loss).backward()# scaler.step() first unscales the gradients of the optimizer's assigned params.# If these gradients do not contain infs or NaNs, optimizer.step() is then called,# otherwise, optimizer.step() is skipped.scaler.step(optimizer)# Updates the scale for next iteration.scaler.update()

基于GradScaler进行梯度裁剪

scaler.scale(loss).backward()
scaler.unscale_(optimizer)
torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm)
scaler.step(optimizer)
scaler.update()

autocast用法

# Creates some tensors in default dtype (here assumed to be float32)
a_float32 = torch.rand((8, 8), device="cuda")
b_float32 = torch.rand((8, 8), device="cuda")
c_float32 = torch.rand((8, 8), device="cuda")
d_float32 = torch.rand((8, 8), device="cuda")with torch.autocast(device_type="cuda"):# torch.mm is on autocast's list of ops that should run in float16.# Inputs are float32, but the op runs in float16 and produces float16 output.# No manual casts are required.e_float16 = torch.mm(a_float32, b_float32)# Also handles mixed input typesf_float16 = torch.mm(d_float32, e_float16)# After exiting autocast, calls f_float16.float() to use with d_float32
g_float32 = torch.mm(d_float32, f_float16.float())

autocast嵌套使用

# Creates some tensors in default dtype (here assumed to be float32)
a_float32 = torch.rand((8, 8), device="cuda")
b_float32 = torch.rand((8, 8), device="cuda")
c_float32 = torch.rand((8, 8), device="cuda")
d_float32 = torch.rand((8, 8), device="cuda")with torch.autocast(device_type="cuda"):e_float16 = torch.mm(a_float32, b_float32)with torch.autocast(device_type="cuda", enabled=False):# Calls e_float16.float() to ensure float32 execution# (necessary because e_float16 was created in an autocasted region)f_float32 = torch.mm(c_float32, e_float16.float())# No manual casts are required when re-entering the autocast-enabled region.# torch.mm again runs in float16 and produces float16 output, regardless of input types.g_float16 = torch.mm(d_float32, f_float32)

4卡 DP（Data Parallel）

代码文件：pytorch_DP.py
单卡显存占用：3.08 G
单卡GPU使用率峰值：99%
训练时长（5 epoch）：742 s
训练结果：准确率85%左右

在这里插入图片描述

4卡 DDP（Distributed Data Parallel）

pytorch-multi-gpu-training
/ddp_train.py

DISTRIBUTED COMMUNICATION PACKAGE - TORCH.DISTRIBUTED

代码文件：pytorch_DDP.py
单卡显存占用：3.12 G
单卡GPU使用率峰值：99%
训练时长（5 epoch）：560 s
训练结果：准确率85%左右

在这里插入图片描述

代码启动命令（单机 4 GPU）

python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 pytorch_DDP.py

基于accelerate的 DDP

huggingface/accelerate

Hugging Face开源库accelerate详解

代码文件：accelerate_DDP.py
单卡显存占用：3.15 G
单卡GPU使用率峰值：99%
训练时长（5 epoch）：569 s
训练结果：准确率85%左右

在这里插入图片描述

accelerate配置文件default_DDP.yml

compute_environment: LOCAL_MACHINE
distributed_type: MULTI_GPU
downcast_bf16: 'no'
gpu_ids: all
machine_rank: 0
main_training_function: main
mixed_precision: 'no'
num_machines: 1
num_processes: 4
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

代码启动命令（单机 4 GPU）

accelerate launch --config_file ./config/default_DDP.yml accelerate_DDP.py

Pytorch + FSDP（Fully Sharded Data Parallel）

Pytorch FULLY SHARDED DATA PARALLEL (FSDP) 初识

2023 年了，大模型训练还要不要用 PyTorch 的 FSDP ？

GETTING STARTED WITH FULLY SHARDED DATA PARALLEL(FSDP)

batch_size == 1
- 单卡显存占用：0.19 G，相比基准测试的 0.34G 有减少，但是没有达到4倍
- 单卡GPU使用率峰值：60%
batch_size == 128
- 单卡显存占用：2.88 G
- 单卡GPU使用率峰值：99%
代码文件：pytorch_FSDP.py
训练时长（5 epoch）：581 s
训练结果：准确率85%左右

备注： pytorch里面的FSDP的batchsize是指单张卡上的batch大小

在这里插入图片描述

代码启动命令（单机 4 GPU）

python -m torch.distributed.launch --nproc_per_node=4 --nnodes=1 pytorch_FSDP.py

FSDP包装后的模型

代码中指定对Resnet50中的Linear和Conv2d层应用FSDP。

在这里插入图片描述

基于accelerate的 FSDP（Fully Sharded Data Parallel）

batch_size == 1
- 单卡显存占用：0.38 G，相比基准测试的 0.34G 并没有减少
- 单卡GPU使用率峰值：60%
batch_size == 128
- 单卡显存占用：2.90 G
- 单卡GPU使用率峰值：99%
代码文件：accelerate_FSDP.py
训练时长（5 epoch）：576 s，对于这个小模型速度和DDP相当
训练结果：准确率85%左右

在这里插入图片描述

accelerate配置文件default_FSDP.yml

compute_environment: LOCAL_MACHINE
distributed_type: FSDP
downcast_bf16: 'no'
fsdp_config:fsdp_auto_wrap_policy: SIZE_BASED_WRAPfsdp_backward_prefetch_policy: BACKWARD_PREfsdp_forward_prefetch: truefsdp_min_num_params: 1000000fsdp_offload_params: falsefsdp_sharding_strategy: 1fsdp_state_dict_type: SHARDED_STATE_DICTfsdp_sync_module_states: truefsdp_use_orig_params: true
machine_rank: 0
main_training_function: main
mixed_precision: 'no'
num_machines: 1
num_processes: 4
rdzv_backend: static
same_network: true
tpu_env: []
tpu_use_cluster: false
tpu_use_sudo: false
use_cpu: false

代码启动命令（单机 4 GPU）

accelerate launch --config_file ./config/default_FSDP.yml accelerate_FSDP.py

Pytorch + DeepSpeed（环境没搞起来，哈哈哈）

[BUG] error: unrecognized arguments: --deepspeed ./ds_config.json #3961

fused_adam.so: cannot open shared object file: No such file or directory #119

DeepSpeedExamples/training/cifar/

Getting Started

代码文件：pytorch_DeepSpeed.py
单卡显存占用：
单卡GPU使用率峰值：
训练时长（5 epoch）：
训练结果：
代码启动命令（单机 4 GPU）

deepspeed pytorch_DeepSpeed.py --deepspeed_config ./config/zero_stage2_config.json

基于accelerate的 DeepSpeed（环境没搞起来，哈哈哈）

DeepSpeed介绍

深度解析：如何使用DeepSpeed加速PyTorch模型训练

DeepSpeed

代码文件：accelerate_DeepSpeed.py
单卡显存占用：
单卡GPU使用率峰值：
训练时长（5 epoch）：
训练结果：

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed模型训练

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed（环境没搞起来）模型训练代码，并对比不同方法的训练速度以及GPU内存的使用代码：pytorch_model_train FairScale（你真…...

编程日记 2023/11/18 4:12:11

基于PHP的纺织用品商城系统

有需要请加文章底部Q哦可远程调试基于PHP的纺织用品商城系统一介绍此纺织用品商城系统基于原生PHP开发，数据库mysql，前端bootstrap。用户可注册登录，购物下单，评论等。管理员登录后台可对纺织用品，用户&#xf…...

编程日记 2023/11/18 4:11:09

Go使用命令行输出二维码

引言二维码（QR code）是一种矩阵条码的标准，广泛应用于商业、移动支付和数据存储等领域。在开发过程中，我们可能需要在命令行中显示二维码，这可以帮助我们快速生成和分享二维码信息。本文将介绍如何使用Go语言生成二维…...

编程日记 2023/11/18 4:10:08

最长连续序列[中等]

优质博文：IT-BLOG-CN 一、题目给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例 1： 输入：nums […...

编程日记 2023/11/18 4:09:06

设计模式-状态模式-笔记

状态模式State 在组件构建过程中，某些对象的状态经常面临变化，如何对这些变化进行有效的管理？同时又维持高层模块的稳定？“状态变化”模式为这一问题提供了一种解决方案。经典模式：State、Memento 动机&#xff08…...

编程日记 2023/11/18 4:07:03

Java中for、foreach、stream区别和性能比较

文章目录性能比较区别使用方式和行为性能比较最终总结：如果数据在1万以内的话，for循环效率高于foreach和stream；如果数据量在10万的时候，stream效率最高，其次是foreach,最后是for。另外需要注意的是如果数据达到10…...

编程日记 2023/11/18 4:06:02

[CSS] 文本折行

文本折行一般分为两种情况： CJK（Chinese/Japanese/Korean） 字符和非 CJK 字符。一般非 CJK 字符折行发生在两个单词的空格中间，见下图： 图中文本 “hello world” 包裹容器的宽度为 2rem，但是 hello 并没有…...

编程日记 2023/11/18 4:04:59

033-从零搭建微服务-日志插件（一）

写在最前如果这个项目让你有所收获，记得 Star 关注哦，这对我是非常不错的鼓励与支持。源码地址（后端）：mingyue: 🎉 基于 Spring Boot、Spring Cloud & Alibaba 的分布式微服务架构基础服务中心源…...

编程日记 2023/11/18 4:03:58

短期经济波动：均衡国民收入决定理论(三)

短期经济波动：国民收入决定理论(三) 文章目录短期经济波动：国民收入决定理论(三)[toc]1 总需求曲线及其变动1.1 总需求曲线含义1.2 总需求曲线推导1.2.1 代数推导1.2.2 几何推导 1.3 AD曲线及其变动1.3.1 扩张性财政政策1.3.2 扩张性货币政策 2 总供给曲…...

编程日记 2023/11/18 4:02:57

电力感知边缘计算网关产品设计方案-网关软件架构

边缘计算网关采用ARM定制硬件平台架构，包含上位机端（内网）和FPGA网关端（外网）两部分，通过芯片间的高速信号总线实现边缘计算网关工业数据采集、数据实时传输、数据存储、网关状态信息收集等功能。边缘计算网关上位机端（内网）重点完成工业数据采集、业务软件运算、客户…...

编程日记 2023/11/18 4:01:55

Java使用Redis的几种客户端介绍

Redis是一种高性能的内存数据库，可以提供快速的数据读写操作。在Java中使用Redis，需要使用Redis客户端。目前，Java中常用的Redis客户端有以下几种： Jedis Jedis是Java中最流行的Redis客户端之一，它提供了丰富的API和…...

编程日记 2023/11/18 3:59:51

程序员的护城河

程序员的护城河算法，一定是过硬的算法！！！举个栗子：算法不硬吃大亏写在最后算法，一定是过硬的算法！！！ 其实会什么技术不重要，掌握多少种编程语言也不重要&a…...

编程日记 2023/11/18 3:58:49

常见面试题-MySQL软删除以及索引结构

为什么 mysql 删了行记录，反而磁盘空间没有减少？ 答： 在 mysql 中，当使用 delete 删除数据时，mysql 会将删除的数据标记为已删除，但是并不去磁盘上真正进行删除，而是在需要使用这片存储空间时…...

编程日记 2023/11/18 3:57:48

信号的机制——信号处理函数的注册

在 Linux 操作系统中，为了响应各种各样的事件，也是定义了非常多的信号。我们可以通过 kill -l 命令，查看所有的信号。 # kill -l1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL 5) SIGTRAP6) SIGABRT 7) SIGBUS …...

编程日记 2023/11/18 3:56:46

JS-项目实战-鼠标悬浮变手势（鼠标放单价上生效）

1、鼠标悬浮和离开事件.js //当页面加载完成后执行后面的匿名函数 window.onload function () {//get:获取 Element:元素 By:通过...方式//getElementById()根据id值获取某元素let fruitTbl document.getElementById("fruit_tbl");//table.rows:获取这个表格…...

编程日记 2023/11/18 3:55:46

redis运维(十一) python操作redis

一 python操作redis ① 安装pyredis redis常见错误说明：由于redis服务器是5.0.8的,为了避免出现问题,默认最高版本的即可 --> 适配 ② 操作流程核心：获取redis数据库连接对象 ③ Python 字符串前面加u,r,b的含义原因： 字符串在…...

编程日记 2023/11/18 3:54:45

黑马程序员微服务第五天课程分布式搜索引擎2

分布式搜索引擎02 在昨天的学习中，我们已经导入了大量数据到elasticsearch中，实现了elasticsearch的数据存储功能。但elasticsearch最擅长的还是搜索和数据分析。所以今天，我们研究下elasticsearch的数据搜索功能。我们会分别使用DSL和Res…...

编程日记 2023/11/18 3:53:43

什么是UV贴图？

UV 是与几何图形的顶点信息相对应的二维纹理坐标。UV 至关重要，因为它们提供了表面网格与图像纹理如何应用于该表面之间的联系。它们基本上是控制纹理上哪些像素对应于 3D 网格上的哪个顶点的标记点。它们在雕刻中也很重要。为什么UV映射很重要？ 默认情…...

编程日记 2023/11/18 3:52:40

从哪里下载 Oracle database 11g 软件

登入My Oracle Support，选择Patches & Updates 标签页，点击下方的Latest Patchsets链接： 然后单击Oracle Database，就可以下载11g软件了： 安装单实例数据库需要1和2两个zip文件，安装GI需要第3个zip文…...

编程日记 2023/11/18 3:51:39

简易版抽奖活动的设计技术方案

1.前言本技术方案旨在设计一套完整且可靠的抽奖活动逻辑，确保抽奖活动能够公平、公正、公开地进行，同时满足高并发访问、数据安全存储与高效处理等需求，为用户提供流畅的抽奖体验，助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...

编程新知 2026/2/7 17:41:40

【JavaEE】-- HTTP

1. HTTP是什么？ HTTP（全称为"超文本传输协议"）是一种应用非常广泛的应用层协议，HTTP是基于TCP协议的一种应用层协议。应用层协议：是计算机网络协议栈中最高层的协议，它定义了运行在不同主机上…...

编程新知 2026/1/26 21:34:05

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/8/13 16:42:24

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现（服务端执行命令请求的过程 - 初始化服务器）

服务端执行命令请求的过程【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

编程新知 2026/2/2 0:45:02

蓝桥杯 2024 15届国赛 A组儿童节快乐

P10576 [蓝桥杯 2024 国 A] 儿童节快乐题目描述五彩斑斓的气球在蓝天下悠然飘荡，轻快的音乐在耳边持续回荡，小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下，六一来了。今天是六一儿童节，小蓝老师为了让大家在节…...

编程新知 2025/12/5 2:40:04

django filter 统计数量按属性去重

在Django中，如果你想要根据某个属性对查询集进行去重并统计数量，你可以使用values()方法配合annotate()方法来实现。这里有两种常见的方法来完成这个需求： 方法1：使用annotate()和Count 假设你有一个模型Item，并且你想…...

编程新知 2026/1/11 2:37:51

Android15默认授权浮窗权限

我们经常有那种需求，客户需要定制的apk集成在ROM中，并且默认授予其【显示在其他应用的上层】权限，也就是我们常说的浮窗权限，那么我们就可以通过以下方法在wms、ams等系统服务的systemReady()方法中调用即可实现预置应用默认授权浮…...

编程新知 2026/2/1 4:13:59

高防服务器能够抵御哪些网络攻击呢？

高防服务器作为一种有着高度防御能力的服务器，可以帮助网站应对分布式拒绝服务攻击，有效识别和清理一些恶意的网络流量，为用户提供安全且稳定的网络环境，那么，高防服务器一般都可以抵御哪些网络攻击呢？下面…...

编程新知 2025/9/3 19:14:38

学习STC51单片机32（芯片为STC89C52RCRC）OLED显示屏2

每日一言今天的每一份坚持，都是在为未来积攒底气。案例：OLED显示一个A 这边观察到一个点，怎么雪花了就是都是乱七八糟的占满了屏幕。。解释 ： 如果代码里信号切换太快（比如 SDA 刚变，SCL 立刻变&#…...

编程新知 2026/2/6 0:50:24

return this；返回的是谁

一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请，不同级别的经理有不同的审批权限： // 抽象处理者：审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...

编程新知 2026/1/28 21:45:43

FairScale（你真的需要FSDP、DeepSpeed吗？）

训练环境设置

测试基准（batch_size=1）

单卡单精度训练

单卡半精度训练

单卡混合精度训练

4卡 DP（Data Parallel）

4卡 DDP（Distributed Data Parallel）

基于accelerate的 DDP

Pytorch + FSDP（Fully Sharded Data Parallel）

基于accelerate的 FSDP（Fully Sharded Data Parallel）

Pytorch + DeepSpeed（环境没搞起来，哈哈哈）

基于accelerate的 DeepSpeed（环境没搞起来，哈哈哈）

相关文章：