当前位置：首页 > news >正文

Transformer学习笔记

news 文章来源：https://blog.csdn.net/m0_46381421/article/details/129187465 2025/4/29 20:44:05

Transformer学习笔记

1. 参考
2. 模型图
3.encoder部分
- 3.1 Positional Encoding
- 3.2 Muti-Head Attention
- 3.3 ADD--残差连接
- 3.4 Norm标准化
- 3.5 单个Transformer Encoder流程图
4.decoder部分
- 4.1 mask Muti-Head Attention
- 4.2 Muti-Head Attention
5 多个Transformer Encoder和多个Transformer Decoder连接方式

1. 参考

李沐动手学深度学习 PyTorch版
Transformer论文
李宏毅《机器学习》
Batch Norm详解之原理
李沐 Transformer论文逐段精读【论文精读】
Transformer、GPT、BERT，预训练语言模型的前世今生

2. 模型图

在这里插入图片描述

3.encoder部分

3.1 Positional Encoding

为了使模型利用序列的顺序，注入一些关于序列中标记的相对或绝对位置的信息。为此，我们在中的输入嵌入中添加“位置编码

3.2 Muti-Head Attention

首先先是用了Attention机制，key和value是等长的，具体的之前提到过，就不在多解释。

注意力机制，自注意力机制学习笔记

在这里插入图片描述
关于 $dk\sqrt{ d~k~ }$ 的解释：
当dk不大时，除或者不除都没什么影响。对于dk的大值，点积的幅度变大，softmax后最大的将更靠近1，最小的将更靠近0，也就是两极化严重，这样算梯度时梯度变化会过小。

Muti-Head：
作者对此的解释是与其做单个的自注意力函数，不如将q,k,v都投影到低维h次，然后再做h次的注意力函数，将得到h个结果contact一起，为了恢复原样再次进行一次线性变化。
在这里插入图片描述

这样操作的原因是希望在h次投影机会中能够学到不同的取法能够适用于不同模式所需要的相似函数。

3.3 ADD–残差连接

这里加入了一个残差连接，论文原文中的公式为 LayerNorm(X + SubLayer(X))。至于残差连接的作用可以查阅下面文章

resnet中的残差连接，你确定真的看懂了？

3.4 Norm标准化

Transformer里面用的是layerNorm而不是batchNorm，下面是batchNorm和layerNorm区别。假设只考虑二维输入情况下

batchNorm，将不同batch的同一特征进行均值为0方差为1标准化（也可以均值为x，方差为y，这是可学习的）

在这里插入图片描述

layerNorm则对应同一样本来进行变换

拓展到batch，seq，feature上后，batchNorm是对不同batch，不同的seq，同一feature进行Norm，蓝色部分
而layerNorm是对不同seq，不同的feature，同一样本进行Norm(黄色)
而之所以用layerNorm而不是batchNorm，解释原因是
每个样本seq长度不一定都是相同的，可能如下

而且如果突然遇到特别长的seq，则之前的全局的均值和方差就不太适用，反观layerNorm，他是对每个样本自己来计算均值和方差

还有一种解释是layerNorm在梯度方面表现的比batchNorm较好，这里李沐老师没有细说。

3.5 单个Transformer Encoder流程图

在这里插入图片描述

4.decoder部分

4.1 mask Muti-Head Attention

mask主要是为了避免在t时间时看到t+1后的东西，比如输出预测的时候，我们是按照上一个输出来预测下一个输出，这个输出之后的东西在实际情况下是不可知的。而attention机制要求看到全局数据，于是这里加了mask，实际上是将那些不能见的数据换成一个非常大的负数，这些数在进入softmax指数运算时会趋向0。
在这里插入图片描述

4.2 Muti-Head Attention

decoder的 Attention不是self Attention了，是cross Attention，key和value来自编码器的输出，query来自decoder中的mask Muti-Head Attention的输出。
在这里插入图片描述

5 多个Transformer Encoder和多个Transformer Decoder连接方式

这里的连接方式有很多种，原论文用的是方式（a）
在这里插入图片描述

Transformer学习笔记

Transformer学习笔记1. 参考2. 模型图3.encoder部分3.1 Positional Encoding3.2 Muti-Head Attention3.3 ADD--残差连接3.4 Norm标准化3.5 单个Transformer Encoder流程图4.decoder部分4.1 mask Muti-Head Attention4.2 Muti-Head Attention5 多个Transformer Encoder和多个Tra…...

编程日记 2023/2/25 6:33:13

vue-cli引入wangEditor、Element，封装可上传附件的富文本编辑器组件（附源代码直接应用，菜单可调整）

关于Element安装引入，请参考我的另一篇文章：vue-cli引入Element Plus（element-ui），修改主题变量，定义全局样式_shawxlee的博客-CSDN博客_chalk variables 1、安装wangeditor npm i wangeditor --savewangE…...

编程日记 2023/4/1 4:06:56

移动办公时代，数智化平台如何赋能企业管理升级？

在传统的办公模式下，企业组织办公不仅时效低，周期长、成本高，且各办公系统相互独立。随着社会经济的发展，人们的工作生活变得多样化，对于办公的需求也越来越多，存在明显弊端的传统办公模式已不能满足企业对…...

编程日记 2023/4/1 4:10:23

2023“拼夕夕”为什么可以凭借简单的拼团做这么大？

2023“拼夕夕”为什么可以凭借简单的拼团做这么大？ 2023-02-24 梦龙大家好，我是你们熟悉而又陌生的好朋友梦龙，一个创业期的年轻人大家都知道，拼夕夕背后的商业模式是拼团，但是大家知道为什么简单的拼团可以让拼夕…...

编程日记 2023/3/21 23:10:29

sqlmap工具

sqlmap Sqlmap是一个开源的渗透测试工具，可以用来自动化的检测，利用SQL注入漏洞，获取数据库服务器的权限。目前支持的数据库有MySQL、Oracle、PostgreSQL、Microsoft SQL Server、Microsoft Access等大多数据库 Sqlmap采用了以下5种独特的SQ…...

编程日记 2023/2/25 6:28:42

高/低压供配电系统设计——安科瑞变电站电力监控系统的应用

摘要：在电力系统的运行过程中，变电站作为整个电力系统的核心，在保证电力系统可靠的运行方面起着至关重要的作用，基于此需对变电站监控系统的特点进行分析，结合变电站监控系统的功能需求，对变电站电力监控系…...

编程日记 2023/2/25 6:27:34

Tapdata 和 Databend 数仓数据同步实战

作者：韩山杰https://github.com/hantmacDatabend Cloud 研发工程师基础架构在云计算时代也发生着翻天地覆的变化，对于业务的支持变成了如何能利用好云资源实现降本增效，同时更好的支撑业务也成为新时代技术人员的挑战。本篇文章通过&#xf…...

编程日记 2023/3/21 11:51:13

单核CPU, 1G内存，也能做JVM调优吗？

最近，笔者的技术群里有人问了一个有趣的技术话题：单核CPU, 1G内存的超低配机器，怎么做JVM调优？这实际上是两个问题。单核CPU的超低配机器，怎么充分利用CPU？单核CPU, 1G内存的超低配机器，怎么做J…...

编程日记 2023/2/25 6:25:18

《计算机应用研究》投稿经历和时间节点

记录四川计算机研究院《计算机应用研究》期刊投稿经历和时间节点。日期状态周期2022.11.09上传稿件当天显示编辑部已接收稿件，开始初审2022.11.09 – 2022.11.15初审6天2022.11.15 – 2022.12.21外审36天2022.12.21收到退修意见（邮件形式）编…...

编程日记 2023/2/25 6:24:11

mars3d获取视窗的范围

期望效果 :1.我现在想获取到当前视窗的地图范围，请问有什么⽅法可以拿到吗 2.⽐如当前视窗地图范围的边界点，每个边界点的经纬度回复：1.mars3d的API⽂档中有相关的⽅法 2.具体使⽤可以参考⽂档地址：http://mars3d.cn/api/Map.htm…...

编程日记 2023/4/1 4:10:32

《高性能MySQL》读书笔记（上）

目录 MySQL的架构 MySQL中的锁 MySQL中的事务事务特性隔离级别事务日志多版本并发控制MVCC 影响MySQL性能的物理因素 InnoDB缓冲池 MySQL常用的数据类型以及优化字符串类型日期和时间类型数据标识符 MySQL的架构默认情况下，每个客户端连接都…...

编程日记 2023/2/25 6:21:58

05-代理模式

代理模式代理模式使用代理对象来代替真实对象的访问，在不修改原有对象的前提下，提供额外的操作，扩展目标对象的功能。代理模式分为静态代理和动态代理。静态代理手动为目标对象中的方法进行增强，通过实现相同接口重写方法进…...

编程日记 2023/4/1 4:12:01

RocketMQ源码分析之消费队列、Index索引文件存储结构与存储机制-上篇

RocketMQ 存储基础回顾： 源码分析RocketMQ之CommitLog消息存储机制本文主要从源码的角度分析 Rocketmq 消费队列 ConsumeQueue 物理文件的构建与存储结构，同时分析 RocketMQ 索引文件IndexFile 文件的存储原理、存储格式以及检索方式。RocketMQ 的存储…...

编程日记 2023/3/21 11:52:32

基于Java的浏览器的设计与实现毕业设计

技术：Java等摘要：当今世界是一个以计算机网络为核心的信息时代，互联网为人们快速获取、发布和传递信息提供了便捷，而浏览器作为互联网上查找信息的重要工具，给人们提供了巨大而又宝贵的信息财富，受到了大家…...

编程日记 2023/2/25 6:18:35

手把手教你使用vite打包自己的js代码包并推送到npm

准备要有npm账号，没有的铁子去npm官网注册一个，又不要钱。使用vite创建项目一行代码搞定 npm create vite viet-demo框架选择Others 模板选择library 选择ts 这样项目就创建完了这个项目默认有一个函数，用来记录按钮的点击次数并…...

编程日记 2023/3/21 23:12:21

Tomcat源码分析-关于tomcat热加载的一些思考

在前面的文章中，我们分析了 tomcat 类加载器的相关源码，也了解了 tomcat 支持类的热加载，意味着 tomcat 要涉及类的重复卸装/装载过程，这个过程是很敏感的，一旦处理不当，可能会引起内存泄露卸载类我们知…...

编程日记 2023/2/25 6:16:21

DataWhale 大数据处理技术组队学习task4

五、分布式并行编程模型MapReduce 1. 概述 1.1 分布式并行编程背景：摩尔定律已经开始逐渐失效，提升数据处理计算能力刻不容缓。传统的程序开发与分布式并行编程传统的程序开发：以单指令、单数据流的方式顺序执行，虽然这种方式…...

编程日记 2023/2/25 6:15:10

Oracle 12C以上统计信息收集CDB、PDB执行时间不一致问题

文章目录前言一、统计信息窗口期调查二、时区调查三、查询alert记录四、why Database Statistic Collection Job is running two times inside a Maintenance Window?五、Default Scheduler Timezone Value In PDB$SEED Different Than CDB六、总结前言在实际工作中发现一个…...

编程日记 2023/2/25 6:14:03

用Python获取弹幕的两种方式（一种简单但量少，另一量大管饱）

前言弹幕可以给观众一种“实时互动”的错觉，虽然不同弹幕的发送时间有所区别，但是其只会在视频中特定的一个时间点出现，因此在相同时刻发送的弹幕基本上也具有相同的主题，在参与评论时就会有与其他观众同时评论的错觉。在国内…...

编程日记 2023/2/25 6:12:56

算法训练营 day55 动态规划买卖股票问题系列3

算法训练营 day55 动态规划买卖股票问题系列3 最佳买卖股票时机含冷冻期 309. 最佳买卖股票时机含冷冻期 - 力扣（LeetCode） 给定一个整数数组prices，其中第 prices[i] 表示第 i 天的股票价格。设计一个算法计算出最大利润。在满足以下…...

编程日记 2023/2/25 6:11:46

电商共享购模式，消费增值返利，app开发

在当今以市场需求为主导的数字经济时代，消费者需求呈现出精细化管理和多元化的特性，目标市场日渐完善，另外在大数据技术迅速进步和运用的驱动下，总体行业的发展节奏感也在不断加速。因而，企业需要建立一套灵活多变的经…...

编程日记 2023/2/25 6:10:40

机房信息牌系统

产品特色： 无线低功耗安装简单，快速布置易于维护墨水屏显示，清晰，更环保信息后台推送，远程管理多模版样式随意制作多尺寸：4.2寸，7.5寸，10.2寸4.2寸7.5寸10.2寸标签特性：…...

编程日记 2023/2/25 6:09:33

金测评手感更细腻的游戏手柄，双模加持兼容更出色，雷柏V600S上手

很多朋友周末都喜欢玩玩游戏放松一下，在家玩游戏的时候，PC是大家常用的平台，当然了，玩游戏的时候用键鼠的话，手感难免差点意思，还是要手柄才能获得更好的体验。我现在用的是雷柏V600S，这是一款支…...

编程日记 2023/2/25 6:08:19

Windows10 下测试 Intel SGX 功能

文章目录参考文献系统要求一、安装Open Enclave SDK 环境（一）什么是Open Enclave SDK（二）启动SGX功能方法一： BIOS启动方法二：软件方式启动（三）安装必要环境（1&#xff0…...

编程日记 2023/2/25 6:07:05

Tina_Linux_功耗管理_开发指南

Tina Linux 功耗管理开发指南 1 概述 1.1 编写目的简要介绍tina 平台功耗管理机制，为关注功耗的开发者，维护者和测试者提供使用和配置参考。 1.2 适用范围表1-1: 适用产品列表产品名称内核版本休眠类型参与功耗管理的协处理器R328Linux-4.9NormalS…...

编程日记 2023/2/25 6:05:55

golang编译dll失败问题解决

执行go build -buildmodec-shared -o exportgo.dll exportgo.go报类似如下错误/usr/lib/gcc/x86_64-pc-msys/9.1.0/../../../../x86_64-pc-msys/bin/ld: 找不到 -lmingwex/usr/lib/gcc/x86_64-pc-msys/9.1.0/../../../../x86_64-pc-msys/bin/ld: 找不到 -lmingw32安装tdm gcc m…...

编程日记 2023/4/1 4:13:59

Convolutional Neural Networks for Sentence Classification

摘要 We report on a series of experiments with convolutional neural networks (CNN) trained on top of pre-trained word vectors for sentence-level classification tasks. We show that a simple CNN with little hyperparameter tuning and static vectors achieves e…...

编程日记 2023/2/25 6:03:35

Transformer学习笔记

1. 参考

2. 模型图

3.encoder部分

3.1 Positional Encoding

3.2 Muti-Head Attention

3.3 ADD–残差连接

3.4 Norm标准化

3.5 单个Transformer Encoder流程图

4.decoder部分

4.1 mask Muti-Head Attention

4.2 Muti-Head Attention

5 多个Transformer Encoder和多个Transformer Decoder连接方式

相关文章：