当前位置：首页 > news >正文

【TVM 教程】线性和递归核

news 2026/2/26 16:29:51

Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → https://tvm.hyper.ai/
作者：Tianqi Chen

下面介绍如何在 TVM 中进行递归计算（神经网络中的典型模式）。

from __future__ import absolute_import, print_functionimport tvm
import tvm.testing
from tvm import te
import numpy as np

TVM 用线性算子来描述符号循环。以下线性算子计算 X 列上的累积和。

线性在张量的最高维度上进行。s_state 是描述线性转换状态的占位符。s_init 描述如何初始化前 k 个时间步长，其第一个维度为 1，描述了如何初始化第一个时间步长的状态。

s_update 描述了如何更新时间步长 t 处的值，更新的值可通过状态占位符引用上一个时间步长的值。注意在当前或之后的时间步长引用 s_state 是无效的。

线性包含状态占位符、初始值和更新描述。推荐列出线性单元的输入，线性的结果是一个张量—— s_state 在时域更新后的结果。

m = te.var("m")
n = te.var("n")
X = te.placeholder((m, n), name="X")
s_state = te.placeholder((m, n))
s_init = te.compute((1, n), lambda _, i: X[0, i])
s_update = te.compute((m, n), lambda t, i: s_state[t - 1, i] + X[t, i])
s_scan = tvm.te.scan(s_init, s_update, s_state, inputs=[X])

调度线性单元

通过分别调度 update 和 init 部分来调度线性体。注意，调度更新部分的第一个迭代维度是无效的。要在时间迭代上拆分，用户可以在 scan_op.scan_axis 上进行调度。

s = te.create_schedule(s_scan.op)
num_thread = 256
block_x = te.thread_axis("blockIdx.x")
thread_x = te.thread_axis("threadIdx.x")
xo, xi = s[s_init].split(s_init.op.axis[1], factor=num_thread)
s[s_init].bind(xo, block_x)
s[s_init].bind(xi, thread_x)
xo, xi = s[s_update].split(s_update.op.axis[1], factor=num_thread)
s[s_update].bind(xo, block_x)
s[s_update].bind(xi, thread_x)
print(tvm.lower(s, [X, s_scan], simple_mode=True))

输出结果：

@main = primfn(X_1: handle, scan_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {X: Buffer(X_2: Pointer(float32), float32, [(stride: int32*m: int32)], [], type="auto"),scan: Buffer(scan_2: Pointer(float32), float32, [(stride_1: int32*m)], [], type="auto")}buffer_map = {X_1: X, scan_1: scan}preflattened_buffer_map = {X_1: X_3: Buffer(X_2, float32, [m, n: int32], [stride, stride_2: int32], type="auto"), scan_1: scan_3: Buffer(scan_2, float32, [m, n], [stride_1, stride_3: int32], type="auto")} {attr [IterVar(blockIdx.x: int32, (nullptr), "ThreadIndex", "blockIdx.x")] "thread_extent" = floordiv((n + 255), 256);attr [IterVar(threadIdx.x: int32, (nullptr), "ThreadIndex", "threadIdx.x")] "thread_extent" = 256;if @tir.likely((((blockIdx.x*256) + threadIdx.x) < n), dtype=bool) {scan[(((blockIdx.x*256) + threadIdx.x)*stride_3)] = X[(((blockIdx.x*256) + threadIdx.x)*stride_2)]}for (scan.idx: int32, 0, (m - 1)) {attr [IterVar(blockIdx.x, (nullptr), "ThreadIndex", "blockIdx.x")] "thread_extent" = floordiv((n + 255), 256);attr [IterVar(threadIdx.x, (nullptr), "ThreadIndex", "threadIdx.x")] "thread_extent" = 256;if @tir.likely((((blockIdx.x*256) + threadIdx.x) < n), dtype=bool) {let cse_var_1: int32 = (scan.idx + 1)scan[((cse_var_1*stride_1) + (((blockIdx.x*256) + threadIdx.x)*stride_3))] = (scan[((scan.idx*stride_1) + (((blockIdx.x*256) + threadIdx.x)*stride_3))] + X[((cse_var_1*stride) + (((blockIdx.x*256) + threadIdx.x)*stride_2))])}}
}

构建和验证

可以像其他 TVM 内核一样构建线性内核，这里用 numpy 来验证结果的正确性。

fscan = tvm.build(s, [X, s_scan], "cuda", name="myscan")
dev = tvm.cuda(0)
n = 1024
m = 10
a_np = np.random.uniform(size=(m, n)).astype(s_scan.dtype)
a = tvm.nd.array(a_np, dev)
b = tvm.nd.array(np.zeros((m, n), dtype=s_scan.dtype), dev)
fscan(a, b)
tvm.testing.assert_allclose(b.numpy(), np.cumsum(a_np, axis=0))

多阶段线性单元

以上示例用 s_update 中的一个张量计算阶段描述了线性单元，可以在线性单元中使用多个张量级。

以下代码演示了有两个阶段操作的线性单元中的线性过程：

m = te.var("m")
n = te.var("n")
X = te.placeholder((m, n), name="X")
s_state = te.placeholder((m, n))
s_init = te.compute((1, n), lambda _, i: X[0, i])
s_update_s1 = te.compute((m, n), lambda t, i: s_state[t - 1, i] * 2, name="s1")
s_update_s2 = te.compute((m, n), lambda t, i: s_update_s1[t, i] + X[t, i], name="s2")
s_scan = tvm.te.scan(s_init, s_update_s2, s_state, inputs=[X])

这些中间张量可以正常调度。为了确保正确性，TVM 创建了一个组约束——禁用线性循环之外的 compute_at 位置的线性体。

s = te.create_schedule(s_scan.op)
xo, xi = s[s_update_s2].split(s_update_s2.op.axis[1], factor=32)
s[s_update_s1].compute_at(s[s_update_s2], xo)

输出结果：

print(tvm.lower(s, [X, s_scan], simple_mode=True))
@main = primfn(X_1: handle, scan_1: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {X: Buffer(X_2: Pointer(float32), float32, [(stride: int32*m: int32)], [], type="auto"),scan: Buffer(scan_2: Pointer(float32), float32, [(stride_1: int32*m)], [], type="auto")}buffer_map = {X_1: X, scan_1: scan}preflattened_buffer_map = {X_1: X_3: Buffer(X_2, float32, [m, n: int32], [stride, stride_2: int32], type="auto"), scan_1: scan_3: Buffer(scan_2, float32, [m, n], [stride_1, stride_3: int32], type="auto")} {allocate(s1: Pointer(global float32), float32, [32]), storage_scope = global {for (i: int32, 0, n) {scan[(i*stride_3)] = X[(i*stride_2)]}for (scan.idx: int32, 0, (m - 1)) {for (i.outer: int32, 0, floordiv((n + 31), 32)) {for (i_1: int32, 0, 32) {if @tir.likely((((i.outer*32) + i_1) < n), dtype=bool) {s1_1: Buffer(s1, float32, [32], [])[i_1] = (scan[((scan.idx*stride_1) + (((i.outer*32) + i_1)*stride_3))]*2f32)}}for (i.inner: int32, 0, 32) {if @tir.likely((((i.outer*32) + i.inner) < n), dtype=bool) {let cse_var_2: int32 = (scan.idx + 1)let cse_var_1: int32 = ((i.outer*32) + i.inner)scan[((cse_var_2*stride_1) + (cse_var_1*stride_3))] = (s1_1[i.inner] + X[((cse_var_2*stride) + (cse_var_1*stride_2))])}}}}}
}

多状态

对于像 RNN 这样的复杂应用，需要多个递归状态。线性支持多个递归状态，以下示例演示如何构建具有两种状态的递归。

m = te.var("m")
n = te.var("n")
l = te.var("l")
X = te.placeholder((m, n), name="X")
s_state1 = te.placeholder((m, n))
s_state2 = te.placeholder((m, l))
s_init1 = te.compute((1, n), lambda _, i: X[0, i])
s_init2 = te.compute((1, l), lambda _, i: 0.0)
s_update1 = te.compute((m, n), lambda t, i: s_state1[t - 1, i] + X[t, i])
s_update2 = te.compute((m, l), lambda t, i: s_state2[t - 1, i] + s_state1[t - 1, 0])
s_scan1, s_scan2 = tvm.te.scan([s_init1, s_init2], [s_update1, s_update2], [s_state1, s_state2], inputs=[X]
)
s = te.create_schedule(s_scan1.op)
print(tvm.lower(s, [X, s_scan1, s_scan2], simple_mode=True))

输出结果：

@main = primfn(X_1: handle, scan_2: handle, scan_3: handle) -> ()attr = {"from_legacy_te_schedule": True, "global_symbol": "main", "tir.noalias": True}buffers = {X: Buffer(X_2: Pointer(float32), float32, [(stride: int32*m: int32)], [], type="auto"),scan: Buffer(scan_4: Pointer(float32), float32, [(stride_1: int32*m)], [], type="auto"),scan_1: Buffer(scan_5: Pointer(float32), float32, [(stride_2: int32*m)], [], type="auto")}buffer_map = {X_1: X, scan_2: scan, scan_3: scan_1}preflattened_buffer_map = {X_1: X_3: Buffer(X_2, float32, [m, n: int32], [stride, stride_3: int32], type="auto"), scan_2: scan_6: Buffer(scan_4, float32, [m, n], [stride_1, stride_4: int32], type="auto"), scan_3: scan_7: Buffer(scan_5, float32, [m, l: int32], [stride_2, stride_5: int32], type="auto")} {for (i: int32, 0, n) {scan[(i*stride_4)] = X[(i*stride_3)]}for (i_1: int32, 0, l) {scan_1[(i_1*stride_5)] = 0f32}for (scan.idx: int32, 0, (m - 1)) {for (i_2: int32, 0, n) {let cse_var_1: int32 = (scan.idx + 1)scan[((cse_var_1*stride_1) + (i_2*stride_4))] = (scan[((scan.idx*stride_1) + (i_2*stride_4))] + X[((cse_var_1*stride) + (i_2*stride_3))])}for (i_3: int32, 0, l) {scan_1[(((scan.idx + 1)*stride_2) + (i_3*stride_5))] = (scan_1[((scan.idx*stride_2) + (i_3*stride_5))] + scan[(scan.idx*stride_1)])}}
}

总结

本教程演示了如何使用线性原语。

用 init 和 update 描述线性。
将线性单元当作正常 schedule 进行调度。
对于复杂的工作负载，在线性单元中使用多个状态和步骤。

下载 Python 源代码：scan.py

下载 Jupyter Notebook：scan.ipynb

【TVM 教程】线性和递归核

Apache TVM 是一个端到端的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 → https://tvm.hyper.ai/ 作者：Tianqi Chen 下面介绍如何在 TVM 中进行递归计算（神经网络中的典型模式）。 from…...

编程日记 2024/10/30 23:44:54

猫主福利大放送，双11猫奴们的购物狂欢节养猫必备清单

双十一购物狂欢节终于来啦！铲屎官们是不是已经迫不及待想为心爱的猫咪挑选新玩具和必需品了呢？作为一名资深铲屎官，我专门为大家整理了一份双十一养猫必备清单。抓住这个难得的机会，让我们为猫咪挑选最舒适、最实用的好物吧&#…...

编程日记 2024/10/30 23:43:52

Linux中gcc的使用

GCC的基本概念和用途 GCC（GNU Compiler Collection）是GNU项目提供的一套编程语言编译器集合，包括了C、C、Objective-C、Fortran、Java、Ada和Go等语言的编译器。GCC广泛用于Linux和其他类Unix系统中，用于将源代码编译成可执行文件…...

编程日记 2024/10/30 23:42:51

React 组件 API

React 组件 API React 组件 API 是 React 应用程序开发中的核心部分，它提供了一系列的接口和方法，使得开发者能够创建和管理组件的状态、属性以及生命周期。在本篇文章中，我们将深入探讨 React 组件 API 的各个方面，包括组件的定…...

编程日记 2024/10/30 23:41:49

一个使用接口模式、工厂模式、模板方法模式的日志文件系统

引言： 编写一个与具体业务无关的示例代码。这个示例代码主要体现以下几个设计思想和模式： 接口模式（Interface Pattern）：定义接口类，并让具体实现类去实现该接口的功能。工厂模式（Factory Pa…...

编程日记 2024/10/30 23:40:48

##java源码 public class OtherClass {public static int CONSTANT_O9876;public int o1234;public void dddd(){String dddd "dddd";//System.out.println(dddd);System.out.println(ddddCONSTANT_O);}} public int o1234; 在openjdk17中 C源码怎么执行这段代码…...

编程日记 2024/10/30 23:39:47

C++初阶(八)--内存管理

目录引入： 一、C中的内存布局 1.内存区域 2.示例变量存储位置说明二、C语言中动态内存管理三、C内存管理方式 1.new/delete操作内置类型 2.new和delete操作自定义类型四、operator new与operator delete函数（重要点进行讲解） …...

编程日记 2024/10/30 23:36:44

C# 企业微信机器人推送消息 windows服务应用程序的使用

C# 企业微信机器人推送消息先添加一个机器人! 然后查看机器人就可以得到一个 webhook 特别特别要注意：一定要保护好机器人的webhook地址，避免泄漏！ 然后开始写代码 ，只需要httpPost 调用一下这个地址就可以发送消息了。首先我…...

编程日记 2024/10/30 23:32:38

社区交流系统设计与实现

社区交流系统设计与实现 1. 系统概述社区交流系统是一个基于PHP和SQL的Web应用程序，旨在为用户提供一个互动交流的平台。该系统允许用户注册、发布帖子、回复帖子、查看其他用户的帖子和回复，以及管理个人资料，提高用户之间的互动和信息共享…...

编程日记 2024/10/30 23:31:37

【模型学习之路】手写+分析bert

手写分析bert 目录前言架构 embeddings Bertmodel 预训练任务 MLM NSP Bert 后话 netron可视化 code2flow可视化 fine tuning 前言 Attention is all you need! 读本文前，建议至少看懂【模型学习之路】手写分析Transformer-CSDN博客。毕竟Bert是tr…...

编程日记 2024/10/30 23:29:34

Redis学习文档（常见面试题）

目录 Redis回收使用的是什么算法？ Redis如何做大量数据插入？ 为什么要做Redis分区？ 你知道有哪些Redis分区实现方案？ Redis分区有什么缺点？ Redis持久化数据和缓存怎么做扩容？ 分布式Redis是前期做还…...

编程日记 2024/10/30 23:27:32

【C++刷题】力扣-#594-最长和谐子序列

题目描述和谐数组是指一个数组里元素的最大值和最小值之间的差别正好是 1 。给你一个整数数组 nums ，请你在所有可能的子序列中找到最长的和谐子序列的长度。数组的子序列是一个由数组派生出来的序列，它可以通过删除一些元素或不删除元素、且不改变…...

编程日记 2024/10/30 23:26:31

MoveIt 控制自己的真实机械臂【2】——编写 action server 端代码

完成了 MoveIt 这边 action client 的基本配置，MoveIt 理论上可以将规划好的 trajectory 以 action 的形式发布出来了，浅浅尝试一下，在 terminal 中运行 roslaunch xmate7_moveit_config_new demo.launch 报错提示他在等待 xmate_arm_control…...

编程日记 2024/10/30 23:25:31

C#制作学生管理系统

定义学生类定义一个简单的类来表示学生，包括学号、姓名、性别、年龄、电话、地址。再给其添加一个方法利于后续添加方法查看学生信息。 //定义学生类 public class student {public int ID { get; set; }//开放读写权限public string Name { get; set; }public i…...

编程日记 2024/10/30 23:24:30

python Pandas合并（单元格、sheet、excel ）

安装 Pandas 和 openpyxl 首先，确保已经安装了 Pandas 和 openpyxl。可以通过 pip 安装： pip install pandas openpyxl 创建 DataFrame import pandas as pd # 创建 DataFrame df1 pd.DataFrame({ 姓名: [张三, 李四, 王五], 年龄: [25, 30, 35]…...

编程日记 2024/10/30 23:23:28

OJ在线编程常见输入输出练习【JavaScript】

（注：本文是对【JavaScript Node 】 ACM模式，常见输入输出练习相关内容的介绍！！！） 牛客竞赛_ACM/NOI/CSP/CCPC/ICPC算法编程高难度练习赛_牛客竞赛OJ 一、ACM模式下的编辑页面二、ACM模式下&a…...

编程日记 2024/10/30 23:21:27

新能源汽车空调系统：绿色出行的舒适保障

在新能源汽车迅速发展的今天，空调系统作为提升驾乘舒适度的重要组成部分，发挥着不可或缺的作用。新能源汽车空调系统主要由压缩机、冷凝器、节流装置和蒸发器四大件组成，它们协同工作，为车内提供适宜的温度和湿度环境。一、压缩…...

编程日记 2024/10/30 23:20:26

Date工具类详细汇总-Date日期相关方法

# 1024程序员节 | 征文 # 目录简介 Date工具类单元测试 Date工具类简介本文章是个人总结实际工作中常用到的Date工具类，主要包含Java-jdk8以下版本的Date相关使用方法，可以方便的在工作中灵活的应用，在个人工作期间频繁使用这些时间的格…...

编程日记 2024/10/30 23:19:25

TMUX1308PWR规格书数据手册具有注入电流控制功能的 5V 双向 8:1单通道和 4:1 双通道多路复用器芯片

TMUX1308 和 TMUX1309 为通用互补金属氧化物半导体 (CMOS) 多路复用器 (MUX)。TMUX1308 是 8:1单通道（单端）多路复用器，而 TMUX1309 是 4:1 双通道（差分）多路复用器。这些器件可在源极 (Sx) 和漏极 (Dx) 引脚上支持从 …...

编程日记 2024/10/30 23:18:22

证件照怎么换底色？简单又快速！不看后悔

一、引言证件照在我们的生活中有着广泛的应用，无论是求职、考试还是办理各种证件，都需要用到不同底色的证件照。传统的换底色方法往往比较复杂，需要一定的专业技能和软件操作经验。但是现在，有了更简单快捷的方法，让你…...

编程日记 2024/10/30 23:17:20

k8s从入门到放弃之Ingress七层负载

k8s从入门到放弃之Ingress七层负载在Kubernetes（简称K8s）中，Ingress是一个API对象，它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress，你可…...

编程新知 2025/9/7 0:12:53

Python：操作 Excel 折叠

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖 本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】 Python 操作 Excel 系列读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...

编程新知 2026/2/22 19:53:06

使用分级同态加密防御梯度泄漏

抽象联邦学习 （FL） 支持跨分布式客户端进行协作模型训练，而无需共享原始数据，这使其成为在互联和自动驾驶汽车 （CAV） 等领域保护隐私的机器学习的一种很有前途的方法。然而，最近的研究表明&…...

编程新知 2026/2/21 0:00:07

将对透视变换后的图像使用Otsu进行阈值化，来分离黑色和白色像素。这句话中的Otsu是什么意思？

Otsu 是一种自动阈值化方法，用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理，能够自动确定一个阈值，将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

编程新知 2026/2/16 20:36:22

NFT模式：数字资产确权与链游经济系统构建

NFT模式：数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命一、确权技术革新：构建可信数字资产基石 1. 区块链底层架构的进化跨链互操作协议：基于LayerZero协议实现以太坊、Solana等公链资产互通，通过零知…...

编程新知 2026/2/25 16:52:31

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

一、项目背景回顾前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。本弹重点聚焦于服务端的模块划分与架构设计，提升代码结构的可维护性与扩展性。二、服务端模块设计目标高内聚低耦合：各模块职责清晰，便于独立开发…...

编程新知 2025/10/13 4:15:41

Linux 中如何提取压缩文件？

Linux 是一种流行的开源操作系统，它提供了许多工具来管理、压缩和解压缩文件。压缩文件有助于节省存储空间，使数据传输更快。本指南将向您展示如何在 Linux 中提取不同类型的压缩文件。 1. Unpacking ZIP Files ZIP 文件是非常常见的，要在 …...

编程新知 2026/2/24 12:19:11

uniapp 开发ios， xcode 提交app store connect 和 testflight内测

uniapp 中配置配置manifest 文档：manifest.json 应用配置 | uni-app官网 hbuilderx中本地打包下载IOS最新SDK 开发环境 | uni小程序SDK hbulderx 版本号：4.66 对应的sdk版本 4.66 两者必须一致本地打包的资源导入到SDK 导入资源 | uni小程序SDK …...

编程新知 2026/2/20 3:29:39

4. TypeScript 类型推断与类型组合

一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式，自动确定它们的类型。这一特性减少了显式类型注解的需要，在保持类型安全的同时简化了代码。通过分析上下文和初始值，TypeSc…...

编程新知 2025/11/2 1:48:43

保姆级【快数学会Android端“动画“】+ 实现补间动画和逐帧动画！！！

目录补间动画 1.创建资源文件夹 2.设置文件夹类型 3.创建.xml文件 4.样式设计 5.动画设置 6.动画的实现内容拓展 7.在原基础上继续添加.xml文件 8.xml代码编写 (1)rotate_anim (2)scale_anim (3)translate_anim 9.MainActivity.java代码汇总 10.效果展示逐帧…...

编程新知 2026/2/4 3:31:19

【TVM 教程】线性和递归核

调度线性单元

构建和验证

多阶段线性单元

多状态

总结

相关文章：

【TVM 教程】线性和递归核

猫主福利大放送，双11猫奴们的购物狂欢节养猫必备清单

Linux中gcc的使用

React 组件 API

一个使用接口模式、工厂模式、模板方法模式的日志文件系统

openjdk17 C++源码是怎么给java字段赋值的

C++初阶(八)--内存管理

C# 企业微信机器人推送消息 windows服务应用程序的使用

社区交流系统设计与实现

【模型学习之路】手写+分析bert

Redis学习文档（常见面试题）

【C++刷题】力扣-#594-最长和谐子序列

MoveIt 控制自己的真实机械臂【2】——编写 action server 端代码

C#制作学生管理系统

python Pandas合并（单元格、sheet、excel ）

OJ在线编程常见输入输出练习【JavaScript】

新能源汽车空调系统：绿色出行的舒适保障

Date工具类详细汇总-Date日期相关方法

TMUX1308PWR规格书数据手册具有注入电流控制功能的 5V 双向 8:1单通道和 4:1 双通道多路复用器芯片

证件照怎么换底色？简单又快速！不看后悔

k8s从入门到放弃之Ingress七层负载

Python：操作 Excel 折叠

使用分级同态加密防御梯度泄漏

将对透视变换后的图像使用Otsu进行阈值化，来分离黑色和白色像素。这句话中的Otsu是什么意思？

NFT模式：数字资产确权与链游经济系统构建

【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分

Linux 中如何提取压缩文件？

uniapp 开发ios， xcode 提交app store connect 和 testflight内测

4. TypeScript 类型推断与类型组合

保姆级【快数学会Android端“动画“】+ 实现补间动画和逐帧动画！！！