当前位置：首页 > news >正文

在国产GPU寒武纪MLU上快速上手Pytorch使用指南

news 2026/5/16 14:33:22

本文旨在帮助Pytorch使用者快速上手使用寒武纪MLU。以代码块为主，文字尽可能简洁，许多部分对标NVIDIA CUDA。不正确的地方请留言更正。本文不定期更新。

文章目录

前言
Cambricon PyTorch的Python包torch_mlu导入
将模型加载到MLU上model.to('mlu')
定义损失函数，然后将其拷贝至MLU
将数据从CPU拷贝到MLU设备
以mnist.py为例的训练代码demo
参考引用

前言

大背景：信创改造、信创国产化、GPU国产化。

为使PyTorch支持寒武纪MLU，寒武纪对机器学习框架PyTorch进行了部分定制。若要在寒武纪MLU上运行PyTorch，需要安装并使用寒武纪定制的 Cambricon PyTorch。

Cambricon PyTorch的Python包torch_mlu导入

Cambricon CATCH是寒武纪发布的一款Python包（包名torch_mlu），提供了在MLU设备上进行张量计算的能力。安装好Cambricon CATCH后，便可使用torch_mlu模块：

import torch # 需安装Cambricon PyTorch
import torch_mlu # 动态扩展MLU后端

附 Cambricon PyTorch源码编译安装

导入 torch 和 torch_mlu 后可以测试在MLU上完成加法运算：

t0 = torch.randn(2, 2, device='mlu') # 在MLU设备上生成Tensor
t1 = torch.randn(2, 2, device='mlu')
result = t0 + t1 # 在MLU设备上完成加法运算

将模型加载到MLU上model.to(‘mlu’)

以ResNet18为例，将模型加载到MLU上用 model.to('mlu')，对标cuda的 model.to(device) ：

# 定义模型
model = models.__dict__["resnet50"]()
# 将模型加载到MLU上。
mlu_model = model.to('mlu')

定义损失函数，然后将其拷贝至MLU

# 构造损失函数
criterion = nn.CrossEntropyLoss()
# 将损失函数拷贝到MLU上
criterion.to('mlu')

将数据从CPU拷贝到MLU设备

x = torch.randn(1000000, dtype=torch.float)
x_mlu = x.to(torch.device('mlu'), non_blocking=True)

以mnist.py为例的训练代码demo

import torch # 导入原生 PyTorch
import torch_mlu # 导入 Cambricon PyTorch
from torch.utils.data import DataLoader
from torchvision.datasets import mnist
from torch import nn
from torch import optim
from torchvision import transforms
from torch.optim.lr_scheduler import StepLR
import torch.nn.functional as F# 定义模型
class Net(nn.Module):def __init__(self):super(Net, self).__init__()self.conv1 = nn.Conv2d(1, 32, 3, 1)self.conv2 = nn.Conv2d(32, 64, 3, 1)self.dropout1 = nn.Dropout2d(0.25)self.dropout2 = nn.Dropout2d(0.5)self.fc1 = nn.Linear(9216, 128)self.fc2 = nn.Linear(128, 10)# 定义前向计算def forward(self, x):x = self.conv1(x)x = F.relu(x)x = self.conv2(x)x = F.relu(x)x = F.max_pool2d(x, 2)x = self.dropout1(x)x = torch.flatten(x, 1)x = self.fc1(x)x = F.relu(x)x = self.dropout2(x)x = self.fc2(x)output = F.log_softmax(x, dim=1)return output# 模型训练
def train(model, train_data, optimizer, epoch):model = model.train()for batch_idx, (img, label) in enumerate(train_data):img = img.mlu()label = label.mlu()optimizer.zero_grad()out = model(img)loss = F.nll_loss(out, label)# 反向计算loss.backward()# 梯度更新optimizer.step()if batch_idx % 100 == 0:print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(epoch, batch_idx * len(img), len(train_data.dataset),100. * batch_idx / len(train_data), loss.item()))# 模型推理
def validate(val_loader, model):test_loss = 0correct = 0model.eval()with torch.no_grad():for images, target in val_loader:images = images.mlu()target = target.mlu()output = model(images)test_loss += F.nll_loss(output, target, reduction='sum').item()pred = output.argmax(dim=1, keepdim=True)correct += pred.eq(target.view_as(pred)).sum().item()test_loss /= len(val_loader.dataset)# 打印精度结果print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(test_loss, correct, len(val_loader.dataset),100. * correct / len(val_loader.dataset)))# 主函数
def main():# 定义预处理函数data_tf = transforms.Compose([transforms.ToTensor(),transforms.Normalize([0.1307],[0.3081])])# 获取 MNIST 数据集train_set = mnist.MNIST('./data', train=True, transform=data_tf, download=True)test_set = mnist.MNIST('./data', train=False, transform=data_tf, download=True)train_data = DataLoader(train_set, batch_size=64, shuffle=True)test_data = DataLoader(test_set, batch_size=1000, shuffle=False)net_orig = Net()# 模型拷贝到MLU设备net = net_orig.mlu()optimizer = optim.Adadelta(net.parameters(), 1)# 训练10个epochnums_epoch = 10# 训练完成后保存模型save_model = True# 学习率调整策略scheduler = StepLR(optimizer, step_size=1, gamma=0.7)for epoch in range(nums_epoch):train(net, train_data, optimizer, epoch)validate(test_data, net)scheduler.step()if save_model:  # 将训练好的模型保存为model.pthif epoch == nums_epoch-1:checkpoint = {"state_dict":net.state_dict(), "optimizer":optimizer.state_dict(), "epoch": epoch}torch.save(checkpoint, 'model.pth')if __name__ == '__main__':main()

参考引用

寒武纪PyTorch v1.13.1用户手册

在国产GPU寒武纪MLU上快速上手Pytorch使用指南

本文旨在帮助Pytorch使用者快速上手使用寒武纪MLU。以代码块为主，文字尽可能简洁，许多部分对标NVIDIA CUDA。不正确的地方请留言更正。本文不定期更新。文章目录前言Cambricon PyTorch的Python包torch_mlu导入将模型加载到MLU上model.to(mlu)定义损失函…...

编程日记 2023/12/21 16:10:30

重生奇迹MU觉醒战士攻略

剑士连招技巧：生命之光：PK前起手式，增加血上限。雷霆裂闪：眩晕住对手，剑士PK战士第一技能，雷霆裂闪是否使用好关系到胜负。霹雳回旋斩：雷霆裂闪后可以选择用霹雳回旋斩跑出一定范围(因为对手…...

编程日记 2023/12/21 16:08:28

美颜技术详解：深入了解视频美颜SDK的工作机制

本文将深入探讨视频美颜SDK的工作机制，揭示其背后的科技奥秘和算法原理。 1.引言视频美颜SDK作为一种集成到应用程序中的技术工具，通过先进的算法和图像处理技术，为用户提供令人印象深刻的实时美颜效果。 2.视频美颜SDK的基本工作原理首…...

编程日记 2023/12/21 16:07:27

3D模型格式转换工具如何实现高性能数据转换？请看CAE系统开发实例！

客户背景 DP Technology是全球知名的CAM的供应商，在全球8个国家设有18个办事处。DP Technology提供的CAMESPRIT系统是一个用于数控编程，优化和仿真全方面的CAM系统。CAMESPRIT的客户来自多个行业，因此支持多种CAD工具和文件格式显得格外重…...

编程日记 2023/12/21 16:05:25

多级缓存:亿级流量的缓存方案

文章目录一.多级缓存的引入二.JVM进程缓存三.Lua语法入门四.多级缓存1.OpenResty2.查询Tomcat3.Redis缓存预热4.查询Redis缓存5.Nginx本地缓存6.缓存同步一.多级缓存的引入传统缓存的问题传统的缓存策略一般是请求到达Tomcat后，先查询Redis，如果未…...

编程日记 2023/12/21 16:02:23

C语言——高精度乘法

一、引子高精度乘法相较于高精度加法和减法有更多的不同，加法和减法是一位对应一位进行操作的，而乘法是一个数的每一位对另一个数的每一位进行操作，需要的计算步骤更多。二、核心算法 void Calculate(int num1[], int num2[], int numres…...

编程日记 2023/12/21 16:01:22

为什么C语言没有被C++所取代呢？

今日话题，为什么C语言没有被C所取代呢？虽然C是一个功能更强大的语言，但C语言在嵌入式领域仍然广泛使用，因为它更轻量级、更具可移植性，并且更适合在资源受限的环境中工作。这就是为什么C语言没有被C所取代的原因。如果…...

编程日记 2023/12/21 15:58:20

基于Spring的枚举类+策略模式设计（以实现多种第三方支付功能为例）

摘要最近阅读《贯彻设计模式》这本书，里面使用一个更真实的项目来介绍设计模式的使用，相较于其它那些只会以披萨、厨师为例的设计模式书籍是有些进步。但这书有时候为了使用设计模式而强行朝着对应的 UML 图来设计类结构，并且对设计理念缺少…...

编程日记 2023/12/21 15:54:17

基于Linphone android sdk开发Android软话机

1.Linphone简介 1.1 简介 LinPhone是一个遵循GPL协议的开源网络电话或者IP语音电话（VOIP）系统，其主要如下。使用linphone，开发者可以在互联网上随意的通信，包括语音、视频、即时文本消息。linphone使用SIP协议&#…...

编程日记 2023/12/21 15:53:16

[论文分享]TimeDRL：多元时间序列的解纠缠表示学习

论文题目：TimeDRL: Disentangled Representation Learning for Multivariate Time-Series 论文地址：https://arxiv.org/abs/2312.04142 代码地址：暂无关键要点：多元时间序列，自监督表征学习，分类和预测摘…...

编程日记 2023/12/21 15:52:13

分享一个好看的vs主题

最近发现了一个很好看的vs主题（个人认为挺好看的），想要分享给大家。主题的名字叫NightOwl，和vscode的主题颜色挺像的。操作方法也十分简单，首先我们先在最上面哪一行找到扩展。然后点击管理扩展，再搜索栏…...

编程日记 2023/12/21 15:51:12

什么是云呼叫中心？

云呼叫中心作为一种高效的企业呼叫管理方案，越来越受到企业的青睐，常被用于管理客服和销售业务。那么，云呼叫中心到底是什么？ 什么是云呼叫中心？ 云呼叫中心是一种基于互联网的呼叫管理系统，与传统的呼叫…...

编程日记 2023/12/21 15:50:11

还在用nvm？来试试更快的node版本管理工具——fnm

前言 📫 大家好，我是南木元元，热衷分享有趣实用的文章，希望大家多多支持，一起进步！ 🍅 个人主页：南木元元目录什么是node版本管理常见的node版本管理工具 fnm是什么安装fnm …...

编程日记 2023/12/21 15:49:10

【Hadoop精讲】HDFS详解

目录理论知识点角色功能元数据持久化安全模式 SecondaryNameNode(SNN) 副本放置策略 HDFS写流程 HDFS读流程 HA高可用 CPA原则 Paxos算法 HA解决方案 HDFS-Fedration解决方案（联邦机制） 理论知识点角色功能元数据持久化另一台机器就…...

编程日记 2023/12/21 15:48:10

企业需要哪些数字化管理系统？

企业需要哪些数字化管理系统？ ✅企业引进管理系统肯定是为了帮助整合和管理大量的数据，从而优化业务流程，提高工作效率和生产力。 ❌但是，如果各个系统之间不互通、无法互相关联数据的话，反而会增加工作量和时间成本…...

编程日记 2023/12/21 15:47:09

【vue】开发常见问题及解决方案

有一些问题不限于 Vue，还适应于其他类型的 SPA 项目。 1. 页面权限控制和登陆验证页面权限控制页面权限控制是什么意思呢？ 就是一个网站有不同的角色，比如管理员和普通用户，要求不同的角色能访问的页面是不一样的。如果一个页…...

编程日记 2023/12/21 15:46:08

飞天使-k8s知识点3-卸载yum 安装的k8s

要彻底卸载使用yum安装的 Kubernetes 集群，您可以按照以下步骤进行操作： 停止 Kubernetes 服务： sudo systemctl stop kubelet sudo systemctl stop docker 卸载 Kubernetes 组件： sudo yum remove -y kubelet kubeadm kubectl…...

编程日记 2023/12/21 15:45:07

ZooKeeper 集群搭建

文章目录 ZooKeeper 概述选举机制搭建前准备分布式配置分布式安装解压缩并重命名配置环境配置服务器编号配置文件操作集群编写脚本运行脚本搭建过程中常见错误 ZooKeeper 概述 Zookeeper 是一个开源的分布式服务协调框架，由Apache软件基金会开发和维护。以下是对Z…...

编程日记 2023/12/21 15:44:05

Meson：现代的构建系统

Meson是一款现代化、高性能的开源构建系统，旨在提供简单、快速和可读性强的构建脚本。Meson被设计为跨平台的，支持多种编程语言，包括C、C、Fortran、Python等。其目标是替代传统的构建工具，如Autotools和CMake，提供更简…...

编程日记 2023/12/21 15:41:02

【大模型AIGC系列课程 5-2】视觉-语言大模型原理

重磅推荐专栏：《大模型AIGC》；《课程大纲》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在…...

编程日记 2023/12/21 15:37:57

K8s安全加固清单：从RBAC到数据加密的实战指南

在云原生时代，Kubernetes 已成为容器编排的事实标准，但默认配置下的 K8s 并不安全。一次错误的 RBAC 权限配置、一个暴露的 etcd 端口、或者一个特权模式的 Pod，都可能成为攻击者的入口。本文从认证授权、Pod 安全、网络隔离、数据加密四个维…...

编程新知 2026/5/16 14:24:47

2026年腾讯云部署OpenClaw/Hermes Agent 配置Token Plan怎么快速上手？看这篇

2026年腾讯云部署OpenClaw/Hermes Agent 配置Token Plan怎么快速上手？看这篇。OpenClaw是开源的个人AI助手，Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Toke…...

编程新知 2026/5/16 12:18:17

2026年5月AI Agent技术全景：多模态与自主决策的范式跃迁

核心结论：2026年5月，AI Agent技术正在从"工具调用"向"自主决策"跃迁。六大趋势——多模态感知、长期记忆、多Agent协作、安全对齐、开发者生态、边缘部署——正在重塑Agent技术栈。12大主流框架（LangGraph、AutoGPT、Met…...

编程新知 2026/5/16 10:57:54

告别日志硬编码：BizLog组件在SpringBoot中的实战应用指南

1. 为什么我们需要BizLog组件记得去年接手一个电商项目时，遇到一个典型问题：产品经理要求在用户下单、修改订单、取消订单等关键操作时，都要记录详细的操作日志。刚开始我直接在业务代码里写日志记录逻辑，结果不到一个月就发现代…...

编程新知 2026/5/16 10:30:16

PhonePi-MCP：基于MCP协议实现AI智能体自动化操控Android手机

1. 项目概述：当你的手机成为AI的“眼睛”与“双手” 最近在折腾AI智能体（Agent）时，我一直在思考一个问题：如何让这些运行在云端或本地电脑上的“大脑”真正地与现实世界互动？比如，让它帮我查一…...

编程新知 2026/5/16 6:52:24

这个内核 bug 潜伏了 9 年。

TL;DR — Linux 内核加密子系统的一行 sg_chain() 调用，让 page cache 页被放进了可写的 scatterlist。任何普通用户通过 splice() AF_ALG 就能精准覆盖 setuid 二进制的内存映像，5 秒 root。潜伏 9 年，影响 2017 年以来几乎所有主流发行版。…...

编程新知 2026/5/16 5:40:21

Tmux智能代理：用Emoji可视化终端状态，提升开发效率与情境感知

1. 项目概述：一个让终端会话“活”起来的智能代理如果你和我一样，每天有超过8小时的时间“泡”在终端里，与tmux、vim和各种命令行工具打交道，那你一定理解那种感觉——屏幕上是冰冷的文本、闪烁的光标和单调的日志输出。长时间面…...

编程新知 2026/5/16 4:48:35

【DeepSeek偏见测试权威报告】：20位AI伦理专家联合验证的5大隐性偏差漏洞及规避指南

更多请点击： https://intelliparadigm.com 第一章：DeepSeek偏见测试的权威性与方法论基石 DeepSeek系列模型在开源社区引发广泛关注，其偏见评估并非依赖单一指标，而是构建于多维度、可复现的方法论体系之上。权威性源于三重验证机…...

编程新知 2026/5/16 4:44:17

Lacinia错误处理最佳实践：构建健壮GraphQL API的10个技巧

Lacinia错误处理最佳实践：构建健壮GraphQL API的10个技巧【免费下载链接】lacinia GraphQL implementation in pure Clojure 项目地址: https://gitcode.com/gh_mirrors/la/lacinia Lacinia作为纯Clojure实现的GraphQL库，为开发者提供了构建高效…...

编程新知 2026/5/16 4:44:14

树莓派AI智能体进化框架：轻量化部署与持续学习实践

1. 项目概述：一个面向树莓派的AI智能体进化框架最近在折腾树莓派上的AI应用时，发现了一个挺有意思的项目： kingkillery/pk-pi-hermes-evolve 。光看这个名字，就能拆解出不少信息点：“pk-pi”显然指的是树莓派平台&…...

编程新知 2026/5/16 4:44:10