当前位置：首页 > news >正文

如何设置 TORCH_CUDA_ARCH_LIST 环境变量以优化 PyTorch 性能

news 2026/2/8 21:40:26

引言

在深度学习领域，PyTorch 是一个广泛使用的框架，它允许开发者高效地构建和训练模型。为了充分利用你的 GPU 硬件，正确设置 TORCH_CUDA_ARCH_LIST 环境变量至关重要。这个变量告诉 PyTorch 在构建过程中应该针对哪些 CUDA 架构版本进行优化。本文将指导你如何确定你的 GPU 的 CUDA 架构能力，并设置相应的环境变量。

确定你的 GPU 的 CUDA 架构能力

首先，你需要知道你的 GPU 支持的 CUDA 计算能力。你可以通过运行以下 Python 代码来获取这个信息：

import torch; print(torch.cuda.get_device_capability())

或者，如果你更喜欢使用命令行，可以执行：

python -c "import torch; print(torch.cuda.get_device_capability())"

这将返回一个元组，包含两个整数，分别代表你的 GPU 支持的 CUDA 架构的主版本号和次版本号。例如，如果输出是 (8, 9)，则表示你的 GPU 支持 CUDA 架构 8.9。

设置 TORCH_CUDA_ARCH_LIST 环境变量

一旦你知道了你的 GPU 的 CUDA 架构能力，你就可以设置 TORCH_CUDA_ARCH_LIST 环境变量，以便 PyTorch 可以针对这些架构进行优化。这个列表告诉 PyTorch 你的 GPU 支持的 CUDA 版本，以便正确编译和优化 PyTorch 代码。

在 Linux 或 macOS 上设置环境变量

在终端中，你可以使用 export 命令来设置环境变量：

export TORCH_CUDA_ARCH_LIST="8.9"

在 Windows 上设置环境变量

在命令提示符（CMD）中，你可以使用 set 命令：cmd

set TORCH_CUDA_ARCH_LIST=8.9

在 PowerShell 中，你可以使用：

$env:TORCH_CUDA_ARCH_LIST="8.9"

构建优化的 PyTorch 版本

设置好环境变量后，你就可以开始构建针对特定 CUDA 架构优化的 PyTorch 版本了。这对于确保你的深度学习模型能够充分利用 GPU 的性能至关重要。

结论

正确设置 TORCH_CUDA_ARCH_LIST 环境变量可以显著提高你的 PyTorch 应用的性能。通过遵循上述步骤，你可以确保你的深度学习模型在 GPU 上运行得更快、更高效。如果你在设置过程中遇到任何问题，不要犹豫，查阅 PyTorch 官方文档或寻求社区的帮助。

如何设置 TORCH_CUDA_ARCH_LIST 环境变量以优化 PyTorch 性能

引言

确定你的 GPU 的 CUDA 架构能力

设置 TORCH_CUDA_ARCH_LIST 环境变量

在 Linux 或 macOS 上设置环境变量

在 Windows 上设置环境变量

构建优化的 PyTorch 版本

结论

相关文章：

如何设置 TORCH_CUDA_ARCH_LIST 环境变量以优化 PyTorch 性能

CSS的三个重点

【笔记】前后端互通中前端登录无响应

AI引领PPT创作：迈向“免费”时代的新篇章？

HTB：Perfection[WriteUP]

鸿蒙next打包流程

uni-app 实现自定义底部导航

Vue前端开发：animate.css第三方动画库

Java中的I/O模型——BIO、NIO、AIO

【软考知识】敏捷开发与统一建模过程(RUP)

Redis常见面试题（二）

业务模块部署

【LeetCode】【算法】48. 旋转图像

【STM32F1】——9轴姿态模块JY901与串口通信（上）

Docker网络概述

Vite与Vue Cli的区别与详解

深究JS底层原理

数据分析-41-时间序列预测之机器学习方法XGBoost

json转java对象 1.文件读取为String 2.String转为JSONObject 3.JSONObject转为Class

基于卷积神经网络的农作物病虫害识别系统（pytorch框架，python源码）

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

CMake基础：构建流程详解

页面渲染流程与性能优化

学习STC51单片机31（芯片为STC89C52RCRC）OLED显示屏1

数据库分批入库

MySQL中【正则表达式】用法

学习STC51单片机32（芯片为STC89C52RCRC）OLED显示屏2

JVM虚拟机：内存结构、垃圾回收、性能优化

Linux 中如何提取压缩文件？

push [特殊字符] present