当前位置：首页 > news >正文

vit-pytorch实现 MobileViT注意力可视化

news 2026/2/8 0:46:50

项目链接 https://github.com/lucidrains/vit-pytorch

注意一下参数设置：

Parameters

image_size: int.
Image size. If you have rectangular images, make sure your image size is the maximum of the width and height
patch_size: int.
Number of patches. image_size must be divisible by patch_size.
The number of patches is: n = (image_size // patch_size) ** 2 and n must be greater than 16.
num_classes: int.
Number of classes to classify.
dim: int.
Last dimension of output tensor after linear transformation nn.Linear(…, dim).
depth: int.
Number of Transformer blocks.
heads: int.
Number of heads in Multi-head Attention layer.
mlp_dim: int.
Dimension of the MLP (FeedForward) layer.
channels: int, default 3.
Number of image’s channels.
dropout: float between [0, 1], default 0…
Dropout rate.
emb_dropout: float between [0, 1], default 0.
Embedding dropout rate.
pool: string, either cls token pooling or mean pooling

image_size：表示图像大小的整数。图片应该是正方形的，并且image_size必须是宽度和高度中的最大值。
patch_size：表示补丁大小的整数。image_size必须能被整除patch_size。补丁的数量计算为n =
(image_size // patch_size) ** 2并且n必须大于 16。 num_classes：一个整数，表示要分类的类数。
dim：一个整数，表示线性变换后输出张量的最后一维nn.Linear(…, dim)。 depth：一个整数，表示
Transformer 块的数量。 heads：一个整数，表示多头注意力层中的头数。 mlp_dim：一个整数，表示
MLP（前馈）层的维度。 channels：一个整数，表示图像中的通道数，默认值为3。 dropout：一个介于 0 和 1
之间的浮点数，代表辍学率。 emb_dropout：一个介于 0 和 1 之间的浮点数，表示嵌入丢失率。
pool：表示池化方法的字符串，可以是“cls token pooling”或“mean pooling”。

快速使用实例

import torch
from vit_pytorch import ViTv = ViT(image_size = 256,patch_size = 32,num_classes = 1000,dim = 1024,depth = 6,heads = 16,mlp_dim = 2048,dropout = 0.1,emb_dropout = 0.1
)img = torch.randn(1, 3, 256, 256)preds = v(img) # (1, 1000)

SimpleViT

来自原论文的一些作者的更新建议对ViT进行简化，使其能够更快更好地训练。

这些简化包括2d正弦波位置嵌入、全局平均池（无CLS标记）、无辍学、批次大小为1024而不是4096，以及使用RandAugment和MixUp增强。他们还表明，最后的简单线性并不明显比原始MLP头差。

你可以通过导入SimpleViT来使用它，如下图所示

import torch
from vit_pytorch import SimpleViTv = SimpleViT(image_size = 256,patch_size = 32,num_classes = 1000,dim = 1024,depth = 6,heads = 16,mlp_dim = 2048
)img = torch.randn(1, 3, 256, 256)preds = v(img) # (1, 1000)

可视化
Accessing Attention
If you would like to visualize the attention weights (post-softmax) for your research, just follow the procedure below

import torch
from vit_pytorch.vit import ViTv = ViT(image_size = 256,patch_size = 32,num_classes = 1000,dim = 1024,depth = 6,heads = 16,mlp_dim = 2048,dropout = 0.1,emb_dropout = 0.1
)# import Recorder and wrap the ViTfrom vit_pytorch.recorder import Recorder
v = Recorder(v)# forward pass now returns predictions and the attention mapsimg = torch.randn(1, 3, 256, 256)
preds, attns = v(img)# there is one extra patch due to the CLS tokenattns # (1, 6, 16, 65, 65) - (batch x layers x heads x patch x patch)

在这里插入图片描述
本文介绍了 MobileViT，一种用于移动设备的轻量级通用视觉转换器。MobileViT 为全球信息处理与转换器提供了不同的视角。

您可以将其与以下代码一起使用（例如 mobilevit_xs）

import torch
from vit_pytorch.mobile_vit import MobileViTmbvit_xs = MobileViT(image_size = (256, 256),dims = [96, 120, 144],channels = [16, 32, 48, 48, 64, 64, 80, 80, 96, 96, 384],num_classes = 1000
)img = torch.randn(1, 3, 256, 256)pred = mbvit_xs(img) # (1, 1000)

vit-pytorch实现 MobileViT注意力可视化

项目链接 https://github.com/lucidrains/vit-pytorch 注意一下参数设置： Parameters image_size: int. Image size. If you have rectangular images, make sure your image size is the maximum of the width and heightpatch_size: int. Number of patches. im…...

编程日记 2023/2/10 0:46:50

Python将字典转换为csv

大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理…...

编程日记 2023/2/10 0:45:42

EasyX精准帧率控制打气球小游戏

🎆音乐分享 New Boy —— 房东的猫之前都用Sleep（）来控制画面帧率，忽略了绘制画面的时间如果绘制画面需要很长的时间，那么就不能忽略了。并且Sleep（）函数也不是特别准确，那么就…...

编程日记 2023/2/10 0:44:34

你知道 GO 中什么情况会变量逃逸吗？

你知道 GO 中什么情况会变量逃逸吗？首先我们先来看看什么是变量逃逸 Go 语言将这个以前我们写 C/C 时候需要做的内存规划和分配，全部整合到了 GO 的编译器中，GO 中将这个称为变量逃逸 GO 通过编译器分析代码的特征和代码的生命周期&#x…...

编程日记 2023/2/10 0:43:27

一篇文章学懂C++和指针与链表

指针目录指针 C的指针学习指针的基本概念指针变量的定义和使用指针的所占的内存空间空指针和野指针 const修饰指针指针和数组指针和函数指针、数组、函数接下来让我们开始进入学习吧！ C的指针学习指针的基本概念指针的作用：可…...

编程日记 2023/2/10 0:42:19

TPGS-cisplatin顺铂修饰维生素E聚乙二醇1000琥珀酸酯

TPGS-cisplatin顺铂修饰维生素E聚乙二醇1000琥珀酸酯(TPGS)溶于大部分有机溶剂,和水有很好的溶解性。长期保存需要在-20℃,避光,干燥条件下存放，注意取用一定要干燥,避免频繁的溶解和冻干。维生素E聚乙二醇琥珀酸酯(简称TPGS)是维生素E的水溶性衍生物,由维生素E…...

编程日记 2023/2/10 0:41:10

【20230206-0209】哈希表小结

哈希表一般哈希表都是用来快速判断一个元素是否出现在集合里。哈希函数哈希碰撞--解决方法：拉链法和线性探测法。拉链法：冲突的元素都被存储在链表中线性探测法：一定要保证tableSize大于dataSize，利用哈希表中的空位解决碰撞问题。…...

编程日记 2023/2/10 0:40:03

c++11 标准模板（STL）（std::multimap）（一）

定义于头文件 <map> template< class Key, class T, class Compare std::less<Key>, class Allocator std::allocator<std::pair<const Key, T> > > class multimap;(1)namespace pmr { template <class Key, class T…...

编程日记 2023/2/10 0:38:55

python进阶——自动驾驶寻找车道

大家好，我是csdn的博主：lqj_本人这是我的个人博客主页： lqj_本人的博客_CSDN博客-微信小程序,前端,python领域博主lqj_本人擅长微信小程序,前端,python,等方面的知识https://blog.csdn.net/lbcyllqj?spm1011.2415.3001.5343哔哩哔哩欢迎关注…...

编程日记 2023/2/10 0:37:45

男，26岁，做了一年多的自动化测试，最近在纠结要不要转行，求指点。？

最近一个粉丝在后台问我，啊大佬我现在26了，做了做了一年多的自动化测试，最近在纠结要不要转行，求指点。首选做IT这条路，就是很普通的技术蓝领。对于大部分来说干一辈子问题不大，但是发不了什么财。如果你在…...

编程日记 2023/2/10 0:36:39

源码级别的讲解JAVA 中的CAS

没有CAS之前实现线程安全多线程环境不使用原子类保证线程安全（基本数据类型） public class T3 {volatile int number 0;//读取public int getNumber(){return number;}//写入加锁保证原子性public synchronized void setNumber(){number;} }多线程环…...

编程日记 2023/2/10 0:35:32

JUC锁与AQS技术【我的Android开发技术】

JUC锁与AQS技术【我的Android开发技术】 AQS原理 AQS就是一个同步器，要做的事情就相当于一个锁，所以就会有两个动作：一个是获取，一个是释放。获取释放的时候该有一个东西来记住他是被用还是没被用，这个东西就是一个状…...

编程日记 2023/2/10 0:34:24

【问题代码】顺序点的深入理解（汇编剖析+手画图解）

这好像是一个哲学问题。目录前言一、顺序点是什么？ 二、发生有关顺序点的问题代码 vs中： gcc中： 三、细读汇编 1.vs汇编如下（示例）： 2.gcc汇编如下（示例）： 四…...

编程日记 2023/2/10 0:33:15

BinaryAI全新代码匹配模型BAI-2.0上线，“大模型”时代的安全实践

导语BinaryAI（https://www.binaryai.net）科恩实验室在2021年8月首次发布二进制安全智能分析平台—BinaryAI，BinaryAI可精准高效识别二进制文件的第三方组件及其版本号，旨在推动SCA（Software Composition Analysis&…...

编程日记 2023/2/10 0:32:06

nvidia设置wifi和接口

tx-nx设置wifi和接口前言基础知识点1.创建和删除一个wifi连接2. 启动连接和关闭连接代码和调试1. 代码展示2. 调试写到最后前言针对嵌入式开发，有时候通过QT或PAD跨网络对设备设置WIFI，在此记录下，方便后续的查阅。基础知识点 1.创建和删…...

编程日记 2023/2/10 0:30:58

PostgreSQL 变化数据捕捉（CDC）

PostgreSQL 变化数据捕捉（CDC）基于CDC（变更数据捕捉）的增量数据集成总体步骤：1.捕获源数据库中的更改数据2.将变更的数据转换为您的消费者可以接受的格式3.将数据发布到消费者或目标数据库PostgreSQL支持触发器&#x…...

编程日记 2023/2/10 0:29:48

Spring 事务【隔离级别与传播机制】

Spring 事务【隔离级别与传播机制】🍎一.事务隔离级别🍒1.1 事务特性回顾🍒1.2 事务的隔离级别(5种)🍒1.3 事务隔离级别的设置🍎二.Spring 事务传播机制🍒2.1 Spring 事务传播机制的作用🍒2.2 事…...

编程日记 2023/2/10 0:28:39

HTTP和HTTPS协议

HTTP协议 HTTP协议是一种应用层的协议，全称为超文本传输协议。 URL URL值统一资源定位标志，也就是俗称的网址。协议方案名 http://表示的就是协议方案名，常用的协议有HTTP协议、HTTPS协议、FTP协议等。HTTPS协议是以HTTP协议为基础&#…...

编程日记 2023/2/10 0:27:31

day3——有关java运算符的笔记

今天主要学习的内容有java的运算符赋值运算符算数运算符关系运算符逻辑运算符位运算符（专门写一篇笔记）条件运算符运算符的优先级流程控制赋值运算符赋值运算符（）主要用于给变量赋值，可以跟算数运算符相结合&…...

编程日记 2023/2/10 0:26:18

Git多人协同远程开发

1. 李四（项目负责人）操作步骤在github中创建远程版本库testgit将基础代码上传⾄testgit远程库远程库中基于main分⽀创建dev分⽀将 githubleaflife/testgit 共享给组员李四继续在基础代码上添加⾃⼰负责的模块内容 2. 张三、王五（组员&…...

编程日记 2023/2/10 0:25:08

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化之前初步学习prophet的时候，写过一篇简单实现，后期随着对该模型的深入研究，本次记录涉及到prophet 的公式以及参数调优，从公式可以更直观…...

编程新知 2026/1/27 5:01:54

Java入门学习详细版（一）

大家好，Java 学习是一个系统学习的过程，核心原则就是“理论实践坚持”，并且需循序渐进，不可过于着急，本篇文章推出的这份详细入门学习资料将带大家从零基础开始，逐步掌握 Java 的核心概念和编程技能。 …...

编程新知 2025/12/14 14:47:02

汇编常见指令

汇编常见指令一、数据传送指令指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX（不访问内存）XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...

编程新知 2026/1/23 2:04:44

MySQL用户和授权

开放MySQL白名单可以通过iptables-save命令确认对应客户端ip是否可以访问MySQL服务： test: # iptables-save | grep 3306 -A mp_srv_whitelist -s 172.16.14.102/32 -p tcp -m tcp --dport 3306 -j ACCEPT -A mp_srv_whitelist -s 172.16.4.16/32 -p tcp -m tcp -…...

编程新知 2025/8/25 19:12:45

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2026/1/31 13:13:32

python报错No module named ‘tensorflow.keras‘

是由于不同版本的tensorflow下的keras所在的路径不同，结合所安装的tensorflow的目录结构修改from语句即可。原语句： from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后： from tensorflow.python.keras.lay…...

编程新知 2025/9/24 7:39:50

RabbitMQ入门4.1.0版本（基于java、SpringBoot操作）

RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发，后来由Pivotal Software Inc.（现为VMware子公司）接管。RabbitMQ 是一个开源的消息代理和队列服务器，用 Erlang 语言编写。广泛应用于各种分布…...

编程新知 2026/1/31 3:52:49

C# 表达式和运算符(求值顺序)

求值顺序表达式可以由许多嵌套的子表达式构成。子表达式的求值顺序可以使表达式的最终值发生变化。例如，已知表达式3*52，依照子表达式的求值顺序，有两种可能的结果，如图9-3所示。如果乘法先执行，结果是17。如果5…...

编程新知 2026/1/31 13:13:28

【Elasticsearch】Elasticsearch 在大数据生态圈的地位实践经验

Elasticsearch 在大数据生态圈的地位 & 实践经验 1.Elasticsearch 的优势1.1 Elasticsearch 解决的核心问题1.1.1 传统方案的短板1.1.2 Elasticsearch 的解决方案 1.2 与大数据组件的对比优势1.3 关键优势技术支撑1.4 Elasticsearch 的竞品1.4.1 全文搜索领域1.4.2 日志分析…...

编程新知 2025/11/9 21:54:26

c# 局部函数定义、功能与示例

C# 局部函数：定义、功能与示例 1. 定义与功能局部函数（Local Function）是嵌套在另一个方法内部的私有方法，仅在包含它的方法内可见。 • 作用：封装仅用于当前方法的逻辑，避免污染类作用域，提升…...

编程新知 2025/9/18 4:17:51

注意一下参数设置：

快速使用实例

SimpleViT

相关文章：