当前位置：首页 > news >正文

Ascend Extension for PyTorch的源码解析

news 2025/7/11 11:07:53

1 源码下载

Ascend对pytorch代码的适配，可从以下链接中获取。
Ascend/pytorch
执行如下命令即可。

git clone https://gitee.com/ascend/pytorch.git

2 目录结构解析

源码下载后，如果需要编译torch-npu，最好保持pytorch的源码版本匹配，以及其编译环境的gcc，g++等与torch-npu的版本匹配，否则会出现各种乱起八糟的问题。

执行编译命令：bash ci/build.sh --python=3.x

如：


csrc/aten/AutoCastOps.cpp:28:70: error: macro "KERNEL_PRIVATEUSEONE" passed 3 arguments, but takes just 2
KERNEL_PRIVATEUSEONE(_convolution, deprecated, lower_precision_fp)

在torch-npu编译成功之后，通过generate_code.sh会生成如下文件：

    torch_npu/csrc/aten/ADInplaceOrViewTypeEverything.cpptorch_npu/csrc/aten/ADInplaceOrViewType_0.cpptorch_npu/csrc/aten/ADInplaceOrViewType_1.cpptorch_npu/csrc/aten/CustomFunctions.cpptorch_npu/csrc/aten/CustomFunctions.htorch_npu/csrc/aten/CustomRedispatch.cpptorch_npu/csrc/aten/CustomRedispatch.htorch_npu/csrc/aten/CustomRegisterSchema.cpptorch_npu/csrc/aten/ForeachRegister.cpptorch_npu/csrc/aten/Functions.cpptorch_npu/csrc/aten/Functions.htorch_npu/csrc/aten/NPUOpApiNativeFunctions.htorch_npu/csrc/aten/QuantizedRegister.cpptorch_npu/csrc/aten/RegisterFunctionalizationEverything.cpptorch_npu/csrc/aten/RegisterFunctionalization_0.cpptorch_npu/csrc/aten/RegisterFunctionalization_1.cpptorch_npu/csrc/aten/RegisterSparseCsrNPU.cpptorch_npu/csrc/aten/RegisterSparseNPU.cpptorch_npu/csrc/aten/VariableType.htorch_npu/csrc/aten/VariableTypeEverything.cpptorch_npu/csrc/aten/VariableType_0.cpptorch_npu/csrc/aten/npu_native_functions_by_codegen.yamltorch_npu/csrc/aten/python_functions.htorch_npu/csrc/aten/python_functionsEverything.cpptorch_npu/csrc/aten/python_functions_0.cpptorch_npu/csrc/aten/python_functions_1.cpptorch_npu/csrc/aten/variable_factories.htorch_npu/testing/_npu_testing_utils.pytorch_npu/utils/custom_ops.pytorch_npu/utils/exposed_api.py

上述文件生成路径默认的是torch_npu/csrc/aten。算子编译信息的yaml文件：torch_npu/csrc/aten/npu_native_functions.yaml

打开上述的的文件中，从中分析可知大概有3种方式实现昇腾npu算子的调用。

3. 算子注册方式

本质上，ascend上对pytroch框架的适配代码，主要是将npu上的算子库对接起来。如何对接这些算子，是一套机制的问题，本身应该不复杂。

3.1 通过torch的regsiter方式

直接调用npu的算子。torch_npu/csrc/aten/RegisterSparseNPU.cpp

TORCH_LIBRARY_IMPL(aten, SparsePrivateUse1, m) {
m.impl("abs", TORCH_FN(wrap_SparseNPU_abs_));
m.impl("abs_", TORCH_FN(wrap_SparseNPU_abs__));
m.impl("abs.out", TORCH_FN(wrap_SparseNPU_abs_out));
m.impl("sgn", TORCH_FN(wrap_SparseNPU_sgn_));
m.impl("sgn_", TORCH_FN(wrap_SparseNPU_sgn__));
m.impl("sgn.out", TORCH_FN(wrap_SparseNPU_sgn_out));

3.2 通过定义算子方式

参考文件：torch_npu/csrc/aten/CustomFunctions.cpp

#include <ATen/core/dispatch/Dispatcher.h>#include "torch_npu/csrc/aten/CustomFunctions.h"namespace at_npu {
namespace native {
namespace custom_ops {int64_t npu_change_data_ptr(const at::Tensor & dst, const at::Tensor & src, int64_t index) {static auto op = c10::Dispatcher::singleton().findSchemaOrThrow("npu::npu_change_data_ptr", "").typed<int64_t (const at::Tensor &, const at::Tensor &, int64_t)>();return op.call(dst, src, index);
}
int64_t get_npu_format(const at::Tensor & self) {static auto op = c10::Dispatcher::singleton().findSchemaOrThrow("npu::get_npu_format", "").typed<int64_t (const at::Tensor &)>();return op.call(self);
}
at::Tensor npu_format_cast(const at::Tensor & self, const at::Tensor & dst) {static auto op = c10::Dispatcher::singleton().findSchemaOrThrow("npu::npu_format_cast", "Tensor").typed<at::Tensor (const at::Tensor &, const at::Tensor &)>();return op.call(self, dst);
}
at::Tensor & npu_format_cast_(at::Tensor & self, int64_t acl_format) {static auto op = c10::Dispatcher::singleton().findSchemaOrThrow("npu::npu_format_cast_", "acl_format").typed<at::Tensor & (at::Tensor &, int64_t)>();return op.call(self, acl_format);at::Tensor & npu_format_cast_(at::Tensor & self, const at::Tensor & src) {static auto op = c10::Dispatcher::singleton().findSchemaOrThrow("npu::npu_format_cast_", "").typed<at::Tensor & (at::Tensor &, const at::Tensor &)>();return op.call(self, src);
}
at::Tensor empty_with_format(at::IntArrayRef size, ::std::optional<at::ScalarType> dtype, ::std::optional<at::Layout> layout, ::std::optional<at::Device> device, ::std::optional<bool> pin_memory, int64_t acl_format) {static auto op = c10::Dispatcher::singleton().findSchemaOrThrow("npu::empty_with_format", "").typed<at::Tensor (at::IntArrayRef, ::std::optional<at::ScalarType>, ::std::optional<at::Layout>, ::std::optional<at::Device>, ::std::optional<bool>, int64_t)>();return op.call(size, dtype, layout, device, pin_memory, acl_format);
}
at::Tensor unsafe_empty_with_format(at::IntArrayRef size, ::std::optional<at::ScalarType> dtype, ::std::optional<at::Layout> layout, ::std::optional<at::Device> device, ::std::optional<bool> pin_memory, int64_t acl_format, bool keep_format) {static auto op = c10::Dispatcher::singleton().findSchemaOrThrow("npu::unsafe_empty_with_format", "").typed<at::Tensor (at::IntArrayRef, ::std::optional<at::ScalarType>, ::std::optional<at::Layout>, ::std::optional<at::Device>, ::std::optional<bool>, int64_t, bool)>();return op.call(size, dtype, layout, device, pin_memory, acl_format, keep_format);
}~/pytorch-ascend/torch_npu/csrc/aten/CustomFunctions.cpp[1,RO]  ...}
}
}

3.3 通过API重定向映射的方式

参考文件：torch_npu/utils/custom_ops.py

torch_npu.npu_layer_norm_eval = torch.ops.npu.npu_layer_norm_eval
torch_npu.npu_fused_attention_score_grad = torch.ops.npu.npu_fused_attention_score_grad
torch_npu.npu_quant_conv2d = torch.ops.npu.npu_quant_conv2d
torch_npu.npu_view_copy = torch.ops.npu.npu_view_copy
torch_npu.npu_fast_gelu = torch.ops.npu.npu_fast_gelu
torch_npu.npu_fused_attention_layernorm_qkv_fwd = torch.ops.npu.npu_fused_attention_layernorm_qkv_fwd
torch_npu.npu_fast_gelu_backward = torch.ops.npu.npu_fast_gelu_backward
torch_npu.npu_bmm_v2_mat1_backward = torch.ops.npu.npu_bmm_v2_mat1_backward

以上属于个人理解，如有错误敬请指正。

Ascend Extension for PyTorch的源码解析

1 源码下载 Ascend对pytorch代码的适配，可从以下链接中获取。 Ascend/pytorch 执行如下命令即可。 git clone https://gitee.com/ascend/pytorch.git2 目录结构解析源码下载后，如果需要编译torch-npu，最好保持pytorch的源码版本匹配&…...

编程日记 2024/11/12 17:25:49

鸿蒙HarmonyOS开发：给应用添加基础类型通知和进度条类型通知（API 12）

文章目录一、通知介绍1、通知表现形式2、通知结构3、请求通知授权二、创建通知1、发布基础类型通知2、发布进度类型通知3、更新通知4、移除通知三、设置通知通道1、通知通道类型四、创建通知组五、为通知添加行为意图1、导入模块。2、创建WantAgentInfo信息。4、创建WantAg…...

编程日记 2024/11/12 17:24:48

从零开始使用YOLOv11——Yolo检测detect数据集自建格式转换为模型训练格式：20w+图片1w+类别代码测试成功

在之前的文章中记录了YOLO环境的配置安装和基本命令的一些使用，上一篇博文的地址快速链接：从零开始使用YOLOv8——环境配置与极简指令（CLI）操作：1篇文章解决—直接使用：模型部署 and 自建数据集&#xff1a…...

编程日记 2024/11/12 17:21:45

自动化新时代：机器取代工作，我们该如何重塑自我？

内容概要在自动化时代的浪潮中，技术的飞速发展对传统工作模式产生了深远影响。我们眼前浮现的是一个充满机遇与挑战的新世界。许多岗位面临被机器取代的威胁，然而，这一变化并不仅仅是消极的。在这个背景下，个体不仅需要重新审视…...

编程日记 2024/11/12 17:15:37

GEE 土地分类——利用Sentinel-2数据进行土地分类

目录简介函数 ee.Classifier.smileRandomForest(numberOfTrees, variablesPerSplit, minLeafPopulation, bagFraction, maxNodes, seed) Arguments: Returns: Classifier 代码结果简介利用Sentinel-2数据进行土地分类的流程大致可分为以下几个步骤： 1. 数据获取…...

编程日记 2024/11/12 17:14:35

《C++ 游戏开发》

一、引言在当今的数字娱乐时代，游戏开发已经成为一个充满活力和创新的领域。C 作为一种强大的编程语言，在游戏开发中占据着重要的地位。它具有高效的性能、丰富的功能和广泛的适用性，能够满足游戏开发中对性能和灵活性的高要求。本文将深入探…...

编程日记 2024/11/12 17:07:29

2024年11月10日系统架构设计师考试题目回顾

案例分析试题一：质量属性基于描述填空是什么质量属性，常规题。（性能，功能，安全，可用等等）可用性而言，王工建议采用 ping/echo 机制检测，不过从资源使用角度&#xff…...

编程日记 2024/11/12 17:05:26

测试实项中的偶必现难测bug--苹果支付丢单问题

问题描述： app支付后，由于某种原因（可能是网络、流量不稳定、或者用户快速频繁操作。。。)会造成一定概率性的回调苹果支付结果失败的情况出现，表现的直观现象就是客户反馈已经支付了，包括苹果支付也是有记录，但是我们的后台显示的是已取消状态的订单验证难点：测试和…...

编程日记 2024/11/12 17:04:25

Elasticsearch的数据类型

Elasticsearch（简称 ES）支持多种数据类型，主要分为以下几类： 1. 基本数据类型 Text：用于全文搜索的文本字段。ES 会对其内容进行分词处理。Keyword：适用于精确匹配的字段，例如名称、标签等。ES 不会对其内容分词处理。Integer：整数类型，包括 byte、short、integer 和…...

编程日记 2024/11/12 17:03:24

SSL 证书申请以及配置流程

SSL 证书申请以及配置流程手动申请免费 SSL 证书的简明指南如果你希望手动为你的网站申请免费的 SSL 证书，Let’s Encrypt 提供了一个很棒的免费服务。而 Certbot 则是官方推荐的工具，可以帮助你完成证书的申请和配置。以下是如何一步步完成的详细说…...

编程日记 2024/11/12 17:01:20

[Docker#4] 镜像仓库 | 部分常用命令

目录什么是 Docker Registry 镜像仓库生活案例镜像仓库分类镜像仓库工作机制常用的镜像仓库私有仓库镜像仓库命令镜像命令[部分] 容器命令[部分] 什么是 Docker Registry 定义：Docker Registry 负责存储、管理和分发镜像，并提供了登录认…...

编程日记 2024/11/12 16:59:17

工业通信协议对比：OPC-UA、Modbus、MQTT、HTTP

综合对比表对比项OPC-UAModbusMQTTHTTP通信效率低，带宽消耗高高高，开销低，效率高低，带宽消耗大实时性一般，延迟较高高，延迟低高，低延迟低，延迟高性能消耗高，需要高性能…...

编程日记 2024/11/12 16:51:08

docker 常用方法

目录 docker参数解释基础信息和环境变量设置容器运行和管理相关参数数据卷挂载 GPU 相关参数镜像相关参数查看现有的镜像 docker images 查看正在运行的docker docker ps 1、docker启动停止及查看状态启动docker： systemctl start docker 停止docker…...

编程日记 2024/11/12 16:50:07

区块链技术入门：以太坊智能合约详解

💓 博客主页：瑕疵的CSDN主页 📝 Gitee主页：瑕疵的gitee主页 ⏩ 文章专栏：《热点资讯》区块链技术入门：以太坊智能合约详解区块链技术入门：以太坊智能合约详解区块链技术入门：以太…...

编程日记 2024/11/12 16:46:02

特定数据库的备份脚本

该脚本 mysql_backup.sh 是一个 MySQL 数据库的备份脚本，以下是它的工作原理和需要注意的细节： 脚本内容分析 1.设置时间变量 TIME : TIMEdate %F_%H-%M-%S该变量 TIME 存储当前日期和时间，格式为 YYYY-MM-DD_HH-MM-SS，用于生…...

编程日记 2024/11/12 16:43:59

uni-app打包后报错云服务空间未关联

使用uni-app打包到h5 项目里面用到了uni-app的云端一体城市选择组件，这个组件数据用到了uniCloud云服务空间，在本地运行没问题，打包之后测试环境报错： 一顿查，查到了官网是这样说的： cli publish --platfo…...

编程日记 2024/11/12 16:39:53

FPGA学习(10)-数码管

前3节视频目的是实现显示0~F的数码管仿真，后3节是用驱动芯片驱动数码管。目录 1.数码管显示原理 2.代码过程 2.1仿真结果 3.串行移位寄存器原理 3.1原理编辑 3.2 数据手册 3.3 先行设计思路 4.程序 4.1确定SRCLK的频率 4.2序列计数器 4.3 不同coun…...

编程日记 2024/11/12 16:38:51

C++（继承）

继承的语法继承的好处：减少重复代码语法： class 子类 ： 继承方法父类子类也称为派生类父类也成为基类继承方式公共继承保护继承私有继承结论：父类中私有成员也是被子类继承下去了，只是由编译器给隐藏后…...

编程日记 2024/11/12 16:35:47

华为OD机试 - RSA加密算法（Java 2024 E卷 100分）

long n (long) Math.sqrt(num); 与long n (long) Math.floor(Math.sqrt(num)); 这两行代码的目的都是计算 num 的平方根，并将结果转换为 long 类型的整数。然而，它们在处理方式上有一些微小的差别。 long n (long) Math.sqrt(num);long n (long) M…...

编程日记 2024/11/12 16:34:46

分组校验在Spring中的应用详解

目录前言1. 什么是分组校验2. 分组校验的基本原理3. 分组校验的实现步骤3.1 定义分组接口3.2 在校验项中指定分组3.3 校验时指定要校验的分组3.4 默认分组和分组的继承 4. 分组校验的优势和适用场景4.1 优势4.2 适用场景 5. 常见问题与解决方案5.1 校验未生效5.2 无法识别默认…...

编程日记 2024/11/12 16:33:45

HTML 语义化

目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性标准答案： 语义化标签： <header>：页头<nav>：导航<main>：主要内容<article>&#x…...

编程新知 2025/7/5 22:28:03

C++实现分布式网络通信框架RPC(3)--rpc调用端

目录一、前言二、UserServiceRpc_Stub 三、 CallMethod方法的重写头文件实现四、rpc调用端的调用实现五、 google::protobuf::RpcController *controller 头文件实现六、总结一、前言在前边的文章中，我们已经大致实现了rpc服务端的各项功能代…...

编程新知 2025/7/11 8:47:45

React hook之useRef

React useRef 详解 useRef 是 React 提供的一个 Hook，用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途，下面我将全面详细地介绍它的特性和用法。基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...

编程新知 2025/6/11 15:21:26

AI Agent与Agentic AI：原理、应用、挑战与未来展望

文章目录一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程三、AI Agent的核心技术栈解密3.1 感知模块代码示例：使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例：使用OpenAI GPT-3进…...

编程新知 2025/7/6 20:31:24

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2025/7/10 21:54:31

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2025/7/10 10:42:25

新能源汽车智慧充电桩管理方案：新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及，充电桩作为核心配套设施，其安全性与可靠性备受关注。然而，在高温、高负荷运行环境下，充电桩的散热问题与消防安全隐患日益凸显，成为制约行业发展的关键瓶颈。如何通过智慧化管理手段优化散…...

编程新知 2025/7/11 7:41:35

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例，模拟20个网页的爬取，每个网页假设要0.5-2秒完成。代码 Python多线程爬虫教程核心概念多线程：允许程序同时执行多个任务，提高IO密集型任务（如网络请求）的效率…...

编程新知 2025/7/6 2:44:56

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/7/8 14:06:13

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中，部分节点存储的数据量或访问量远高于其他节点，导致这些节点负载过高，影响整体性能。数据倾斜的主要表现部分节点内存使用率远高于其他节…...

编程新知 2025/7/10 2:41:09