当前位置: 首页 > news >正文

ViT学习笔记(一) 基本的原理和框架结构

原论文地址:https://arxiv.org/pdf/2010.11929

首先大致通读一下原论文,这是很有必要的,但不必完全读懂,因为会有高手给我们解读,比如:

【Transformer系列】深入浅出理解ViT(Vision Transformer)模型-CSDN博客

解决图像分类任务的利器——Vision Transformer

以下是综合各种知识来源,我的笔记:

基本原理:

        Vision Transformer (ViT) 是一种基于Transformer架构的图像分类模型,它通过将图像分割成小块(patches)并将其转换为序列,相当于二维的图像数据转换为类似文本中单词序列的一维数据形式,以便输入到 Transformer Encoder 中进行处理然后输出,从而实现图像分类任务。

以下是ViT模型的详细工作原理:

1. 图像分块(Patch Partition)

        • 原始图像:假设输入的图像大小为 H x W x C,其中 H 和 W 是图像的高度和宽度,C 是通道数(通常为3,即RGB)。

        • 分块:图像被划分为固定大小的 P x P 的图像块。假设每个图像块的大小为 P x P,那么图像将被划分为 (H/P) x (W/P) 个图像块。  

2. 图像块线性嵌入(Patch Embedding)

        • 展平图像块:每个图像块被展平为一维向量。假设每个图像块的大小为 P x P x C,那么展平后的每个图像块将是一个长度为 P^2C 的向量。

        • 线性映射层:展平后的图像块向量通过一个线性映射层(全连接层),将其映射到一个指定的embedding维度 D。这个线性映射层的作用是将每个图像块的原始维度 P^2C 转换为一个较低维度的向量,通常称为embedding向量。  

3. 添加位置编码(Position Embedding)

        • 位置编码:为了给图像块添加位置信息,模型会为每个embedding向量加上一个可学习的位置编码(position embedding)。位置编码的形式可以是可学习的向量,通常与embedding向量具有相同的维度 D。

        • 拼接序列:所有图像块的embedding向量加上位置编码后,形成一个序列,这个序列将作为Transformer编码器的输入。  

4. 类别标记(Class Token)

        • 类别标记:为了进行图像分类,ViT模型在输入序列的最前面添加一个特殊的类别标记(class token)。这个类别标记是一个可学习的向量,与embedding向量具有相同的维度 D,并且在训练过程中会与图像的类别信息相关联。  

5. Transformer编码器

        • Transformer编码器:输入序列(包括类别标记和图像块embedding向量)被送入Transformer编码器。Transformer编码器由多个相同的层组成,每个层包括多头自注意力机制(Multi-Head Self-Attention)和前馈神经网络(Feed-Forward Neural Network),并且在每个子层后都应用层归一化(Layer Normalization)和残差连接(Residual Connection)。

        • 自注意力机制:在自注意力机制中,每个输入向量(包括类别标记和图像块embedding向量)都会与其他所有输入向量进行交互,捕捉全局上下文信息。

        • 前馈神经网络:每个位置的向量通过一个两层的前馈神经网络进行非线性变换。  

6. 分类

        • 类别输出:在经过Transformer编码器处理后,类别标记(class token)对应的输出向量被提取出来。这个向量包含了整个图像的全局信息。

        • 分类器:类别标记的输出向量通过一个线性层和一个softmax层进行分类,得到图像属于各个类别的概率分布。  

7. 训练与推理

        • 训练:在训练过程中,模型通过最小化交叉熵损失函数来优化参数,目标是使模型能够准确地预测图像的类别。

        • 推理:在推理过程中,输入图像经过上述步骤后,模型输出预测的类别概率,最终选择概率最高的类别作为预测结果。  

        总结来说,ViT模型通过将图像划分为小块并转换为序列,利用Transformer编码器处理这些序列,最终实现图像分类任务。其核心在于利用Transformer的全局自注意力机制来捕捉图像的全局上下文信息。

概念解析:

全局自注意力机制

        Transformer 的全局自注意力机制是一种在 Transformer 架构中使用的重要机制。它允许模型在处理序列数据时,对整个输入序列中的所有位置进行关注,从而能够捕捉到不同位置之间的长距离依赖关系。

        全局自注意力机制通过计算每个位置与其他所有位置之间的注意力权重,来确定每个位置在当前任务中的重要程度。然后,根据这些注意力权重对输入序列中的所有位置进行加权求和,得到每个位置的新表示。这种机制使得 Transformer 能够有效地处理长序列数据,并且在自然语言处理等领域取得了非常出色的效果。例如,在机器翻译、文本生成、问答系统等任务中,全局自注意力机制可以帮助模型更好地理解输入文本的语义和结构,从而生成更准确和流畅的输出。

Transformer编码器中的前馈神经网络

        在Transformer编码器中,前馈神经网络(Feed-Forward Neural Network, FFN)是一个关键组件,它在每个Transformer层中都存在,并且在多头自注意力机制(Multi-Head Self-Attention)之后应用。前馈神经网络的主要作用是对输入数据进行非线性变换,从而增强模型的表达能力。以下是前馈神经网络的详细介绍:

1. 结构

前馈神经网络通常由两个线性变换层和一个非线性激活函数组成。具体结构如下:

  • 第一层线性变换:输入向量 x 首先通过一个线性变换层,将其映射到一个中间维度 d_ff(通常比输入维度 d_model 大)。这个线性变换可以表示为:
    [
    x’ = W_1 x + b_1
    ]
    其中,W_1 是权重矩阵,b_1 是偏置向量。这一步与CNN常见的中间隐藏层的作用异曲同工。

    • 为什么中间维度 d_ff通常比输入维度 d_model 大?

      增加模型的表达能力
              当中间维度比输入维度大时,网络能够学习到更复杂的特征表示。例如,在自然语言处理中,如果输入是一个单词的低维向量表示(),通过将其映射到一个更高维的空间(),模型就有更多的 “自由度” 来捕捉单词之间潜在的语义关系和语法结构。就好像在一个更大的 “画布” 上描绘更细致的内容,能够挖掘出输入数据中隐藏的、低维空间难以表示的信息。
      避免信息瓶颈
              如果中间维度小于输入维度,可能会导致信息瓶颈。假设输入数据包含丰富多样的信息,而中间层维度过小,在信息传递过程中,很多有用的信息可能会丢失。以图像识别为例,输入是一张包含大量细节(如纹理、形状、颜色等)的图像,其维度代表了这些信息。如果中间层维度过小,在映射过程中,图像的某些重要特征可能无法被有效传递和处理,就像把一幅大画通过一个过小的通道,部分画面会被遮挡或丢失。
      有利于梯度传播
              较大的中间维度可以使梯度在反向传播过程中有更广阔的 “空间” 来流动。在神经网络的训练中,梯度用于更新网络的参数。如果中间层维度过小,梯度可能会很快消失或变得不稳定。而足够大的可以为梯度提供一个相对稳定的传播环境,使得网络能够更有效地学习。例如,在深度神经网络中,中间层的梯度就像是在一个复杂的管道系统中流动的水流,足够大的管道可以让水流(梯度)更顺畅地传播,避免堵塞(梯度消失)或泛滥(梯度爆炸)的情况。

  • 非线性激活函数:在第一层线性变换之后,通常会应用一个非线性激活函数,如ReLU(Rectified Linear Unit):
    [
    x’’ = \text{ReLU}(x’) = \max(0, x’)
    ]

  • 第二层线性变换:经过非线性激活函数处理后的向量 x'' 再通过一个线性变换层,将其映射回原始维度 d_model
    [
    y = W_2 x’’ + b_2
    ]
    其中,W_2 是权重矩阵,b_2 是偏置向量。

2. 作用

前馈神经网络的主要作用包括:

  • 非线性变换:通过非线性激活函数(如ReLU),前馈神经网络能够捕捉输入数据中的复杂模式和非线性关系。
  • 特征提取:前馈神经网络在每个Transformer层中对输入数据进行进一步的特征提取,增强模型的表达能力。
  • 信息整合:前馈神经网络通过两个线性变换层和非线性激活函数,将输入数据映射到不同的空间,并在这些空间中进行信息整合。

3. 残差连接与层归一化

        在Transformer编码器中,前馈神经网络通常与残差连接(Residual Connection)和层归一化(Layer Normalization)结合使用,以提高模型的训练稳定性和性能。具体步骤如下:

  • 残差连接:在前馈神经网络的输出 y 与输入 x 之间添加残差连接,即:
    [
    y_{\text{residual}} = x + y
    ]
    残差连接有助于缓解梯度消失问题,并允许模型更容易地学习恒等映射。

  • 层归一化:在残差连接之后,应用层归一化,对每个样本的特征进行归一化处理,以稳定训练过程:
    [
    y_{\text{normalized}} = \text{LayerNorm}(y_{\text{residual}})
    ]

  • 残差连接与层归一化的概念复习:残差连接是一种在神经网络中常用的结构,它将输入直接与经过若干层处理后的输出相加,使得网络可以更容易地学习输入和输出之间的残差,有助于解决深度网络中的梯度消失和梯度爆炸问题,提高模型的训练效果和性能。层归一化是对一层中的神经元的激活值进行归一化处理。它可以使得数据的分布更加稳定,加速模型的训练过程,提高模型的泛化能力。比如在自然语言处理任务中,层归一化可以对词向量或者中间层的输出进行归一化,使得模型对不同的输入数据具有更好的适应性。

4. 实现细节

        在实际实现中,前馈神经网络的中间维度 d_ff 通常是输入维度 d_model 的4倍,即 d_ff = 4 * d_model。这种设计选择是为了在保持模型复杂度的同时,提供足够的非线性变换能力。

5. 总结

        前馈神经网络在Transformer编码器中扮演着重要角色,通过非线性变换和特征提取,增强了模型的表达能力。结合残差连接和层归一化,前馈神经网络能够有效地处理输入数据,并在Transformer层中进行信息整合,从而提升模型的性能。

相关文章:

ViT学习笔记(一) 基本的原理和框架结构

原论文地址:https://arxiv.org/pdf/2010.11929 首先大致通读一下原论文,这是很有必要的,但不必完全读懂,因为会有高手给我们解读,比如: 【Transformer系列】深入浅出理解ViT(Vision Transformer)模型-CSD…...

fedora下Jetbrains系列IDE窗口中文乱码解决方法

可以看到窗口右部分的中文内容为小方块。 进入 Settings - Appearance & Behavior - Appearance - Use custom font : Note Sans Mono CJK SC ,设置后如下图:...

nginx根据报文里字段转发至不同地址

nginx接收到post请求.请求报文里是一个json字符串,字符串里有个字段id。 根据id不同,转发到不同地址。 如果idaaa,转发到www.aaa.com.test 如果idbbb,转发到www.bbb.com.test 如何配置,请提供一个nginx.conf 要在 Nginx 中根据 POST 请求的 JSON 负载中的…...

使用 html/css 实现 educoder 顶部导航栏的步骤和方法

要使用HTML和CSS实现一个类似于Educoder网站的顶部导航栏,我们可以设计一个响应式、简洁且功能齐全的导航栏。Educoder的顶部导航栏通常包括网站的logo、主要导航项(如首页、课程、讨论等)、以及用户操作按钮(如登录、注册等&…...

EasyExcel导出列表

通过easyexcel导出列表数据 根据列表内容自适应宽高。 文件名冲突&#xff0c;修改文件名递增设置。 依赖 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>${easyexcel.version}</version&…...

【unity小技巧】分享vscode如何开启unity断点调试模式,并进行unity断点调试(2024年最新的方法,实测有效)

文章目录 前言一、前置条件1、已安装Visual Studio Code&#xff0c;并且unity首选项>外部工具>外部脚本编辑器选择为Visual Studio Code [版本号]&#xff0c;2、在Visual Studio Code扩展中搜索Unity&#xff0c;并安装3、同时注意这个插件下面的描述&#xff0c;需要根…...

【JavaScript】Object.keys() 和 Object.values() 的使用示例和相关的简单应用

值是数字的情况&#xff1a; let n 124; Object.keys(n) // [] Object.values(n) // []值是字符串的情况&#xff1a; let s "abc"; Object.keys(s) // [0, 1, 2] Object.values(s) // [a, b, c]值是数组的情况&#xff1a;&#xff08;常用&#xff09; let ar…...

SwiftUI 列表(或 Form)子项中的 Picker 引起导航无法跳转的原因及解决

概述 在 SwiftUI 的界面布局中&#xff0c;列表&#xff08;List&#xff09;和 Form 是我们秃头码农们司空见惯的选择。不过大家是否知道&#xff1a;如果将 Picker 之类的视图嵌入到列表或 Form 的子项中会导致导航操作无法被触发。 从上图可以看到&#xff1a;当在 List 的…...

基于ZYNQ-7000系列的FPGA学习笔记8——呼吸灯

基于ZYNQ-7000系列的FPGA学习笔记8——呼吸灯 1. 实验要求2. 功能分析3. 模块设计4. 波形图5.代码编写6. 代码仿真7. 添加约束文件并分析综合 上期内容&#xff0c;我们学习了按键控制蜂鸣器&#xff0c;这一期我们开始学习呼吸灯 1. 实验要求 控制领航者核心板上的led&#x…...

探索 Python 应用的分层依赖:解决 UOS 环境中的 libvirt-python 安装问题

探索 Python 应用的分层依赖&#xff1a;解决 UOS 环境中的 libvirt-python 安装问题 背景Python 版本升级 问题描述原因分析与解决方案 Python 应用的分层依赖&#xff1a;安装与部署的视角libvirt-python的分层依赖尝试的解决方案 使用编译好的 .whl 文件"嫁接"整个…...

OpenCV-平滑图像

二维卷积(图像滤波) 与一维信号一样&#xff0c;图像也可以通过各种低通滤波器&#xff08;LPF&#xff09;、高通滤波器&#xff08;HPF&#xff09;等进行过滤。LPF 有助于消除噪音、模糊图像等。HPF 滤波器有助于在图像中找到边缘。 opencv 提供了函数 **cv.filter2D()**&…...

解决跨域问题方案

跨域问题在前后端分离架构下尤为常见&#xff0c;是每个 Web 开发者都会遇到的核心问题。本文将通过原理解析、场景剖析、解决方案详解以及最佳实践等多个维度&#xff0c;帮助开发者全面理解并有效应对跨域问题。 目录 **一、跨域的本质****1. 同源策略****2. 同源策略的限制范…...

云计算介绍_3(计算虚拟化——cpu虚拟化、内存虚拟化、io虚拟化、常见集群策略、华为FC)

计算虚拟化 1.计算虚拟化介绍1.1 计算虚拟化 分类&#xff08;cpu虚拟化、内存虚拟化、IO虚拟化&#xff09;1.2 cpu虚拟化1.3 内存虚拟化1.4 IO虚拟化1.5 常见的集群的策略1.6 华为FC 1.计算虚拟化介绍 1.1 计算虚拟化 分类&#xff08;cpu虚拟化、内存虚拟化、IO虚拟化&#…...

软件工程复习记录

基本概念 软件工程三要素&#xff1a;方法、工具、过程 软件开发方法&#xff1a;软件开发所遵循的办法和步骤&#xff0c;以保证所得到的运行系统和支持的文档满足质量要求。 软件开发过程管理 软件生命周期&#xff1a;可行性研究、需求分析、概要设计、详细设计、编码、测…...

俩Nim游戏

1.给定n堆石子&#xff0c;每堆石子有xi快&#xff0c;两位玩家轮流操作&#xff0c;每次操作可以从任意一堆石子中拿走任意数量的石子&#xff08;可以拿完&#xff0c;但不能不拿&#xff09;&#xff0c;最后无法进行操作的人视为失败。 问如果两人都采用最优策略&#xff…...

基于超级电容和电池的新能源汽车能量管理系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 4.1 超级电容特性 4.2 电池特性 5.完整工程文件 1.课题概述 基于超级电容和电池的新能源汽车能量管理系统simulink建模与仿真。分析不同车速对应的电池&#xff0c;超级电容充放电变化情况。 2.系统仿…...

数据结构——图(遍历,最小生成树,最短路径)

目录 一.图的基本概念 二.图的存储结构 1.邻接矩阵 2.邻接表 三.图的遍历 1.图的广度优先遍历 2.图的深度优先遍历 四.最小生成树 1.Kruskal算法 2.Prim算法 五.最短路径 1.单源最短路径--Dijkstra算法 2.单源最短路径--Bellman-Ford算法 3.多源最短路径--Floyd-…...

002-NoSQL介绍

目录 一、NoSQL 简介 二、NoSQL 特性 三、NoSQL 的工作原理 四、NoSQL 有哪些类型 五、NoSQL数据库与关系型数据库的区别 六、常见的非关系型数据库NOSQL分类 一、NoSQL 简介 NoSQL,全称为Not Only SQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是…...

qt-everywher交叉编译e-src-5.15.2

简化配置的方式&#xff1a; 你完全可以通过直接配置 安装目录、编译链 和 目标架构 来完成交叉编译&#xff0c;而不需要修改 mkspecs 配置。以下是如何通过简化配置来进行交叉编译 Qt 的步骤。 准备交叉编译工具链 首先&#xff0c;确保你已经安装了交叉编译工具链&#xff…...

4.STM32通信接口之SPI通信(含源码)---硬件SPI与W25Q64存储模块通信实战《精讲》

开胃简介 根据上一节对STM32的SPI介绍&#xff01;本节将进行硬件SPI的实现&#xff0c;片选用软件实现&#xff01;跟着Whappy走起&#xff01;W25Q64的驱动层&#xff0c;我们不需要更改&#xff0c;仅仅需要更改一下SPI的协议&#xff0c;即&#xff1a;由软件实现改成硬件…...

[2025CVPR]DeepVideo-R1:基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈,在多个视频基准上实现SOTA性能 一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战 ​安全措施依赖问题​ GRPO使用min和clip函数限制策略更新幅度,导致: 梯度抑制:当新旧策略差异过大时梯度消失收敛困难:策略无法充分优化# 传统GRPO的梯…...

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述 通过动态调整节点通信的能量开销&#xff0c;平衡网络负载&#xff0c;延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

页面渲染流程与性能优化

页面渲染流程与性能优化详解&#xff08;完整版&#xff09; 一、现代浏览器渲染流程&#xff08;详细说明&#xff09; 1. 构建DOM树 浏览器接收到HTML文档后&#xff0c;会逐步解析并构建DOM&#xff08;Document Object Model&#xff09;树。具体过程如下&#xff1a; (…...

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式&#xff08;Python 实现&#xff09; 在 Python 中&#xff0c;你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是&#xff0c;.doc 是旧的 Word 格式&#xff0c;而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)

升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点&#xff0c;但无自动故障转移能力&#xff0c;Master宕机后需人工切换&#xff0c;期间消息可能无法读取。Slave仅存储数据&#xff0c;无法主动升级为Master响应请求&#xff…...

【JavaSE】绘图与事件入门学习笔记

-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角&#xff0c;以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向&#xff0c;距离坐标原点x个像素;第二个是y坐标&#xff0c;表示当前位置为垂直方向&#xff0c;距离坐标原点y个像素。 坐标体系-像素 …...

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念&#xff0c;确保一个租户&#xff08;在这个系统中可能是一个公司或一个独立的客户&#xff09;的数据对其他租户是不可见的。在 RuoYi 框架&#xff08;您当前项目所使用的基础框架&#xff09;中&#xff0c;这通常是通过在数据表中增加一个…...

Linux 下 DMA 内存映射浅析

序 系统 I/O 设备驱动程序通常调用其特定子系统的接口为 DMA 分配内存&#xff0c;但最终会调到 DMA 子系统的dma_alloc_coherent()/dma_alloc_attrs() 等接口。 关于 dma_alloc_coherent 接口详细的代码讲解、调用流程&#xff0c;可以参考这篇文章&#xff0c;我觉得写的非常…...

前端调试HTTP状态码

1xx&#xff08;信息类状态码&#xff09; 这类状态码表示临时响应&#xff0c;需要客户端继续处理请求。 100 Continue 服务器已收到请求的初始部分&#xff0c;客户端应继续发送剩余部分。 2xx&#xff08;成功类状态码&#xff09; 表示请求已成功被服务器接收、理解并处…...

[QMT量化交易小白入门]-六十二、ETF轮动中简单的评分算法如何获取历史年化收益32.7%

本专栏主要是介绍QMT的基础用法,常见函数,写策略的方法,也会分享一些量化交易的思路,大概会写100篇左右。 QMT的相关资料较少,在使用过程中不断的摸索,遇到了一些问题,记录下来和大家一起沟通,共同进步。 文章目录 相关阅读1. 策略概述2. 趋势评分模块3 代码解析4 木头…...