Transformer机制学习笔记
学习自https://www.bilibili.com/video/BV1J441137V6
RNN,CNN网络的缺点
难以平行化处理,比如我们要算b4b^4b4,我们需要一次将a1a^1a1~a4a^4a4依次进行放入网络中进行计算。
于是有人提出用CNN代替RNN
三角形表示输入,b1b^1b1的结果是由a1,a2a^1,a^2a1,a2产生。
a1a^1a1~a4a^4a4可以同时并行输入到CNN中。
但是,这么做的话可以表示的内容非常有限,解决方法是再往上继续建造。
这样的话,蓝色的输入,就相当于获得了a1a^1a1~a4a^4a4的输入。
CNN的优点就是可以同时计算,缺点就是需要叠很多层。
self-Attention层
self-Attention层要做的就是,既能达到RNN的功能,同时又能像CNN一样平行化。
self-attention层运作步骤
- 拿每个q与每个k进行attention运算
ddd为q,kq,kq,k的维度,这个可以理解为是为了平衡维度带来的影响,因为维度越大,点乘出来的结果就会相应的较大,所以除以维度可以消除一部分影响。 - 然后再统一做一下softmax
- 随后a^\hat{a}a^再和vvv相乘
这样,计算b1b^1b1既可以并行计算,也能获取到x1x^1x1~x4x^4x4的全部数据。
如何并行化
可以把上一层的内容统统放入到矩阵中,进行一次矩阵乘法即可算出下一层。而矩阵乘法可以用GPU加速。
q,k,vq,k,vq,k,v也是可以用多层的。
Position Encoding
实际上,xxx序列的位置信息是不重要的,因为每个位置都有一个独一无二的eie^iei向量与它相加,依次来表示位置信息。这个eie^iei不是从数据中学到的,而是人为赋值的。
Sequence To Sequence
在Sequence To Sequence模型中,就可以用self-Attention层来代替RNN或者CNN。
Transformer
相关文章:
![](https://img-blog.csdnimg.cn/439835e5a6c644bf8fcb6b1bc115feb5.png)
Transformer机制学习笔记
学习自https://www.bilibili.com/video/BV1J441137V6 RNN,CNN网络的缺点 难以平行化处理,比如我们要算b4b^4b4,我们需要一次将a1a^1a1~a4a^4a4依次进行放入网络中进行计算。 于是有人提出用CNN代替RNN 三角形表示输入,b1b^1b1的…...
![](https://www.ngui.cc/images/no-images.jpg)
1、第一个CUDA代码:hello gpu
目录第一个CUDA代码:hello gpu一、__global__ void GPUFunction()二、gpu<<<1,1>>>();三、线程块、线程、网格知识四、核函数中的printf();五、cudaDeviceSynchronize();第一个CUDA代码:hello gpu #include <stdio.h>void cpu(…...
![](https://img-blog.csdnimg.cn/ed46a21264f342edb98121e0038cec0f.png)
UG二次开发装配篇 添加/拖动/删除组件方法的实现
我们在UG装配的过程中,经常会遇到需要调整组件目录位置,在软件设计过程中可以通过在目录树里面拖动组件来完成。 那么,如果要用程序实现组件的移动/拖动,我们要怎么做呢? 本节就完成了添加/拖动/删除组件方法的实现&…...
![](https://www.ngui.cc/images/no-images.jpg)
【ros bag 包的设计原理、制作、用法汇总】
ros bag 包的设计原理 序列化和反序列化 首先知道Bag包就是为了录制消息,而消息的保存和读取就涉及到一个广义上的问题序列化和反序列化,它基本上无处不在,只是大部分人没有注意到,举个简单的例子,程序运行的时候,是直接操作的内存,也就是一个结构体或者一个对象,但内…...
![](https://img-blog.csdnimg.cn/ff765724eee04983afe1b8aa9259833a.png)
Linux网络:聚合链路技术
目录 一、聚合链路技术 1、bonding作用 2、Bonding聚合链路工作模式 3、Bonding实现 一、聚合链路技术 1、bonding作用 将多块网卡绑定同一IP地址对外提供服务,可以实现高可用或者负载均衡。直接给两块网卡设置同一IP地址是不可以的。通过 bonding,…...
![](https://img-blog.csdnimg.cn/img_convert/7df6ca3581512185a90caf45dd2ad826.png)
2023年数据安全的下一步是什么?
IT 预算和收入增长领域是每个年度开始时的首要考虑因素,在当前的世界经济状况下更是如此。 IT 部门和数据团队正在寻找确定优先级、维护和构建安全措施的最佳方法,同时又具有成本效益。 这是一个棘手的平衡点,但却是一个重要的平衡点&#…...
![](https://img-blog.csdnimg.cn/img_convert/bf8388a3a730affa09acf31529ed6e67.png)
在浏览器输入URL后发生了什么?
在浏览器输入URL并获取响应的过程,其实就是浏览器和该url对应的服务器的网络通信过程。从封装的角度来讲,浏览器和web服务器执行以下动作:(简单流程)1、浏览器先分析超链接中的URL:分析域名是否规范2、浏览器向DNS请求…...
![](https://img-blog.csdnimg.cn/img_convert/98632fbf5ce2dad8c379e70fe6c7c666.png)
Dubbo学习
0.start 容器container启动(spring),初始化我们的服务提供者(Provider)1.register 把业务层的方法,注册到注册中心(Register)2.subscribe 消费者(Consumer)订…...
![](https://img-blog.csdnimg.cn/d753e5d0c1a9467e863f42410c1ed8f4.png)
CMMI-立项管理流程
立项管理(Project Initialization Management, PIM)的目的是:(1)采纳符合机构最大利益的立项建议,通过立项管理使该建议成为正式的项目(即合法化)。(2)杜绝不…...
![](https://www.ngui.cc/images/no-images.jpg)
看《狂飙》读人生,致敬2023!
作为2023年的第一篇博文,我不想写代码,我想谈谈最近看的《狂飙》,总结了十条哲理,共勉。希望我们的2023,未来的人生会更加出彩。 01 你以为很好的关系,其实也就那么回事。 陈金默以为高启强对他很好&…...
![](https://img-blog.csdnimg.cn/cfef25c52fcf49d9827190167a3cada0.png#pic_center)
Web自动化测试——Junit5篇
文章目录一、相关依赖注入二、注解调用三、断言 Assert四、规定用例执行顺序五、高效参数化1)单参数2)多参数3)文件获取参数4)方法获取数据(动态参数)六、测试套件整活Junit 是一个面向 Java 语言的单元测试…...
![](https://img-blog.csdnimg.cn/44ac0f94f86e4619984fbf555d7fd455.png)
Seata源码学习(二)-源码入口
Seata源码剖析-源码入口 Seata客户端启动 首先一个Seata的客户端启动一般分为几个流程: 自动加载各种Bean及配置信息初始化TM初始化RM(具体服务)初始化分布式事务客户端完成,代理数据源连接TC(Seata服务端ÿ…...
![](https://img-blog.csdnimg.cn/img_convert/a865bf40df7d455cb85bf1fbdf543ef4.jpeg)
2023如何选购适合游戏设计的电脑硬件
游戏设计涉及许多不同的学科,因此涉及许多不同的软件包。有游戏引擎本身,例如 Unreal Engine 和 Unity,以及 3D 设计软件,例如 3ds Max、Blender 和 ZBrush——等等!大多数软件开发人员都维护着这些不同应用程序的系统…...
![](https://www.ngui.cc/images/no-images.jpg)
springboot maven项目集成阿里p3c-pmd插件使用
阿里巴巴规约使用的是pmd代码静态分析工具,通过maven-pmd-plugin这个maven插件实现。 pom文件引入 <!-- 阿里p3c插件 --> <plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-pmd-plugin</artifactId><…...
![](https://img-blog.csdnimg.cn/febdadd959e449878da9aa2db1655eff.png)
PowerJob的server启动都经历了哪些?代码不多也很简单,咱们来逐一理解。
这是一篇让你受益匪浅的文章,点个关注交流一下吧~ PowerJob如何使用,官方文档已经说的很详细了,即使没学过计算机的人,按照那上面的步骤来也是可以搭建出一个可以使用的例子来,所以今天就不在这里重复前人的工作&#…...
![](https://img-blog.csdnimg.cn/img_convert/7e410a1bf93166e9dbe742cacba9e734.png)
分享好玩的h5小游戏制作步骤_怎么做h5微信小游戏
近年来,市面上一直流行各种h5游戏,例如投票、答题、刮刮乐、大转盘等等等等,而且我在各种营销场景下经常看到它们的身影,是做促销,引流和宣传的神器之一!那么,怎么做好玩的h5游戏?还…...
![](https://www.ngui.cc/images/no-images.jpg)
代理模式--设计模式
为什么要学习代理模式? 因为这是SpringAOP的底层! 1、定义: 在不改变源码的情况下,实现对目标对象的功能扩展 根据代理类的生成时间不同可以将代理分为静态代理和动态代理两种 静态代理 角色分析 抽象角色:一般会…...
![](https://img-blog.csdnimg.cn/d39bb7f511f9487bb093fdd6c7a67609.png)
【RSTP的原理和配置】
一、RSTP 概述 RSTP使用了IEEE 802.1W协议,视为STP的改进版本,收敛速度快,兼容STP。 RSTP可以兼容STP,但是会丧失快速收敛等优势; 1、RSTP对STP的改进; 1.1、端口角色的增补、简化了生成树协议的理解及部…...
![](https://img-blog.csdnimg.cn/c0622414508e46e689c5890843efacaf.png)
Doom流量回放工具导致的测试环境服务接口无响应的排查过程
Doom流量回放工具导致的测试环境服务接口无响应的排查过程 现象描述: a)部分接口(A组接口)无响应 b)部分接口(B组接口)正常响应 c)还有一部分接口(C组接口),场景1无响应,场景2正常响…...
![](https://img-blog.csdnimg.cn/img_convert/ee560ca58a7769a780d4ea46d1ce931d.jpeg)
2023年留学基金委(CSC)西部/地方合作项目选派办法及解读
2023年2月13日国家留学基金委(CSC)官方网站发布了2023年西部地区人才培养特别项目、地方合作项目通知。知识人网小编现将其选派工作流程及选派办法原文转载并加以解读、提出建议。知识人网建议1. 邀请函是公派申请的必备条件。对于外语语言证明未达标者&…...
![](https://img-blog.csdnimg.cn/img_convert/8205f3c4a4d31b4d446fc13b85afd7f6.webp?x-oss-process=image/format,png)
ILSSI国际研讨会将为您呈现六西格玛技术的未来与前景
ILSSI 欢迎世界各地的精益六西格玛专业人士参加即将举行的2023年国际精益六西格玛研讨会,这次研讨会将邀请到世界各地的专家学者,分享他们的专业知识和经验,并就精益六西格玛等相关议题进行探讨和交流。 这是一个绝佳的机会,让您…...
![](https://img-blog.csdnimg.cn/bf304a42ed15408ab0539204d73979ac.png)
KDJ日周月金叉共振指标
昨天介绍了MACD多周期共振指标公式,KDJ通过类似的写法,也可以共振。本文介绍的KDJ日周月金叉共振指标包含日周金叉共振、日月金叉共振、周月金叉共振、日周月金叉共振四种类型。 需要注意的问题依然是周、月金叉的信号漂移,接近周末月末的信…...
![](https://img-blog.csdnimg.cn/img_convert/c8f52c9288488df73270ffa14e183443.png)
线程私有变量ThreadLocal详解
本文已收录至Github,推荐阅读 👉 Java随想录 烈火试真金,逆境试强者。——塞内加 文章目录什么是ThreadLocalThreadLocal 原理set()方法get()方法remove()方法ThreadLocal 的Hash算法ThreadLocal 1.7和1.8的区别ThreadLocal 的问题ThreadLoca…...
![](https://www.ngui.cc/images/no-images.jpg)
如何保证数据库和缓存双写一致性
前言 数据库和缓存(比如:redis)双写数据一致性问题,是一个跟开发语言无关的公共问题。尤其在高并发的场景下,这个问题变得更加严重。 我很负责的告诉大家,该问题无论在面试,还是工作中遇到的概率非常大,所以非常有必要跟大家一起探讨一下。 今天这篇文章我会从浅入深,…...
![](https://img-blog.csdnimg.cn/img_convert/9edcdbcb553bc205fd92a128ab5d7251.webp?x-oss-process=image/format,png)
一文搞懂:JS严格模式“use strict”
什么是JS的严格模式 JS严格模式概念是在ES5中引入的,在此模式下,JS对语法的要求会变的严格,某些不太严谨的代码在严格模式下将不能运行。 如何启用严格模式 只需要JS代码的起始添加 "use strict"即可。如: "use…...
![](https://img-blog.csdnimg.cn/34f1d7f53ed2478b853dd2e257fbfe64.png)
Linux的ACL(扩展权限)规划:setfacl、getfacl
目录 什么是ACL与如何支持启动ACL ACL设置技巧:getfacl、setfacl getfacl命令用法 setfacl命令用法 最简单的【u:账号:权限】设置 使用默认权限设置目录未来文件的ACL权限继承 什么是ACL与如何支持启动ACL ACL是Access Control List的…...
![](https://img-blog.csdnimg.cn/af4f3660a9f84f2c86f5d68dae8731af.png)
HTML预格式化文本pre标签
文章目录参考white-spaceword-breakfont-family参考 https://blog.csdn.net/weixin_44368963/article/details/120054949 https://www.zhangxinxu.com/wordpress/2017/03/css-font-family-chinese-english/ pre 元素可定义预格式化的文本。被包围在 pre 元素中的文本通常会保留…...
![](https://www.ngui.cc/images/no-images.jpg)
基于机器学习的心脏病预测方法(11)——梯度提升机(GBM)
一、梯度提升机介绍 GBM(Gradient Boosting Machine)算法是Boosting(提升)算法的一种。主要思想是,串行地生成多个弱学习器,每个弱学习器的目标是拟合先前累加模型的损失函数的负梯度, 使加上该弱学习器后的累积模型损失往负梯度的方向减少。 且它用不同的权重将基学习器…...
![](https://img-blog.csdnimg.cn/img_convert/2531a6397d7388dd609287b73fd07b1c.png)
Linux多版本python切换以及多版本pip对应 (cloud studio Ubuntu16.04)
linux && cloud studio && Ubuntu16.04 简单解决多版本python切换以及多版本pip对应问题 1.python2切换成python 多版本python: 更改前先查看版本号 $ python -V Python 2.7.12 $ python2 -V Python 2.7.12 $ python3 -V Python 3.5.2 通过下面的命令看到py…...
![](https://img-blog.csdnimg.cn/514d67d3a3e94a7a955ba8943823039c.jpeg)
【并发编程】LockSupport源码详解
目录 一、前言 1.1 简介 1.2 为什么说LockSupport是Java并发的基石? 二、LockSupport的用途 2.1 LockSupport的主要方法 2.2 使用案例 2.3 总结 三、LockSupport 源码分析 3.1 学习原理前的前置知识 3.1.1 Unsafe.park()和Unsafe.unpark() 3.1.2wait和notify/notify…...
![](https://common.cnblogs.com/images/copycode.gif)
学习建设网站书籍/网站怎么推广
异常处理 1. 什么是异常处理 异常是错误发生的信号,一旦程序出错就会产生一个异常,如果该异常没有被应用程序处理,那么该异常就会抛出来,程序的执行也随之终止 异常包含三个部分: 1. traceback异常的追踪信息2. 异常的类型3. 异常的信息 错误分为两大类: 1. 语法上的错误:在程序…...
![](https://img-blog.csdnimg.cn/20200102010003942.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIxMjM3NTQ5,size_16,color_FFFFFF,t_70)
做的网站访问速度慢/小程序模板
2020第一天,装完了电脑,现在电脑能亮了,但是没有系统。其实接下来的步骤通过百度就可以按步就班完成 . 直接百度搜索win10软件下载,打开windows10官网就行,在这里顺便贴上地址 https://www.microsoft.com/zh-cn/softwa…...
![](https://images2015.cnblogs.com/blog/418763/201509/418763-20150916223133742-1527411660.png)
网页设计与制作用什么软件做/上海专业的seo推广咨询电话
testng执行case failed ,testng Listener会捕获执行失败,如果要实现失败自动截图,需要重写Listener的onTestFailure方法 那么首先新建一个Listener 类,继承TestListenerAdapter package com.dbyl.libarary.utils;import org.openq…...
![](https://s1.51cto.com/attachment/201301/155155900.jpg)
用js做简单的网站页面/制作自己的网站
An ffmpeg and SDL Tutorial在ffmpeg-1.0.1上的更新Tutorial01http://cutebunny.blog.51cto.com/blog/301216/1121847本篇是整个系列的基础,详细介绍了ffmpeg的整个工作流程,以及重要的数据结构。Sample code实现了将视频中的前5帧图像提取出来另存为PPM…...
![](/images/no-images.jpg)
做自己的直播网站/关键词搜索指数查询工具
clean the macOS, no more input installed;in Xcode, run debug;drag debug app to ~/library/input methods;to systray, add input;in Xcode, active the input;it works!if no effect, go to 1, and then restar macOS, go to 1....
![](/images/no-images.jpg)
域名网站如何做市场推广/营销策划案例
rtl8192cuI find the rtl8192cu wireless adapter driver on CentOS 7 is quite unstable. After running a while, the connection will disappear.我发现CentOS 7上的rtl8192cu无线适配器驱动程序非常不稳定。 运行一段时间后,连接将消失。 How to make it stabl…...