关于Transformer中的位置编码
位置编码 (Positional Encoding)
位置编码是在自然语言处理中,特别是在 Transformer 架构中使用的一个重要概念。Transformer 架构由于其自注意力机制 (Self-Attention Mechanism) 的特性,对序列中的元素没有固有的顺序感知。这意味着,如果不加以处理,Transformer 无法区分序列中的元素的相对位置。为了解决这个问题,位置编码被引入。
位置编码的重要性
位置编码的重要性主要体现在以下几点:
- 序列顺序的感知:在许多任务中,如机器翻译、文本生成等,元素的顺序是非常关键的。位置编码确保 Transformer 可以考虑到这种顺序。
- 增强模型的表达能力:位置编码为模型提供了额外的信息,使其能够更好地理解和生成序列。
- 灵活性:位置编码是可学习的,这意味着模型可以在训练过程中调整它,以更好地适应特定的任务。
- 与自注意力机制的结合:位置编码与自注意力机制结合,使 Transformer 能够考虑到序列中的长距离依赖关系。
图像中的位置编码
在图像处理中,位置编码的引入与自然语言处理中的方法有所不同,但基本的原理是相似的:为模型提供空间位置信息。以下是几种在图像处理中引入位置编码的方法:
1. 二维位置编码
与自然语言处理中的一维位置编码不同,图像通常需要二维的位置编码来表示其宽度和高度。这可以通过为每个像素或区域分配一个二维编码来实现。
2. 绝对位置编码
为图像中的每个像素或区域分配一个固定的编码,表示其在图像中的绝对位置。
3. 相对位置编码
与绝对位置编码不同,相对位置编码表示一个像素或区域与其他像素或区域之间的相对位置关系。
4. 位置嵌入 (Position Embeddings)
这是一种学习位置信息的方法。与位置编码不同,位置嵌入是在模型训练过程中学习的,而不是预先定义的。
5. 卷积操作
卷积神经网络 (CNN) 通过其卷积操作隐式地捕获位置信息。但在某些无卷积的模型结构中,如 Vision Transformer (ViT),需要显式地引入位置编码。
6. 扩展到更高维度
对于视频或3D图像,可以考虑引入三维或更高维度的位置编码。
7. 组合方法
在某些应用中,可能需要同时使用多种方法来捕获位置信息,例如,结合绝对位置编码和相对位置编码。
绝对位置编码
绝对位置编码是为序列中的每个位置分配一个固定的编码,这个编码表示该位置在整个序列中的确切位置。这种编码方式不依赖于其他位置,因此被称为“绝对”。
特点:
- 固定编码:每个位置都有一个预定义的编码,不受其他位置的影响。
- 独立性:绝对位置编码不考虑其他位置,只关注当前位置。
- 常见实现:在 Transformer 模型中,通常使用正弦和余弦函数来生成绝对位置编码。
相对位置编码
相对位置编码不是直接编码每个位置,而是编码两个位置之间的相对距离。例如,对于一个给定的位置,其与其他位置的相对位置编码将表示它们之间的距离或关系。
特点:
- 距离感知:相对位置编码捕获了两个位置之间的距离或关系。
- 动态性:相对于一个固定的参考点,其他位置的编码会发生变化。
- 应用场景:在某些模型中,如 Transformer 的自注意力机制,相对位置编码可以帮助模型捕获长距离的依赖关系。
对比:
- 稳定性:绝对位置编码为每个位置提供了一个稳定的、不变的编码,而相对位置编码则依赖于参考位置。
- 灵活性:相对位置编码可以更灵活地捕获位置之间的关系,而绝对位置编码则更注重每个位置本身。
- 实现复杂性:相对位置编码的实现通常比绝对位置编码更复杂,因为它需要考虑两个位置之间的关系。
绝对位置编码
绝对位置编码在 Transformer 模型中使用正弦和余弦函数来表示每个位置的信息。
公式
对于偶数维度 (i):
P E ( p o s , 2 i ) = sin ( p o s 1000 0 2 i d model ) PE(pos, 2i) = \sin\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right) PE(pos,2i)=sin(10000dmodel2ipos)
- 对于奇数维度 (i):
P E ( p o s , 2 i + 1 ) = cos ( p o s 1000 0 2 i d model ) PE(pos, 2i+1) = \cos\left(\frac{pos}{10000^{\frac{2i}{d_{\text{model}}}}}\right) PE(pos,2i+1)=cos(10000dmodel2ipos)
其中:
- P E ( p o s , 2 i ) PE(pos, 2i) PE(pos,2i)是位置 p o s pos pos 在维度 i i i的位置编码。
- d model d_{\text{model}} dmodel是模型的维度。
代码分析
代码中的这一部分:
div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))
实际上是在计算上述公式的除数部分:
div_term = 1000 0 2 i d model \text{div\_term} = 10000^{\frac{2i}{d_{\text{model}}}} div_term=10000dmodel2i
当我们对上述公式取自然对数,我们得到:
log ( div_term ) = 2 i d model log ( 10000 ) \log(\text{div\_term}) = \frac{2i}{d_{\text{model}}} \log(10000) log(div_term)=dmodel2ilog(10000)
这与代码中的形式相匹配,其中 np.exp
是为了从对数形式回到原始的指数形式。
Python 实现
import numpy as np
def get_positional_encoding(seq_len, d_model):position = np.arange(seq_len)[:, np.newaxis]div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))position_encoding = np.zeros((seq_len, d_model))position_encoding[:, 0::2] = np.sin(position * div_term)position_encoding[:, 1::2] = np.cos(position * div_term)return position_encoding
相对位置编码
相对位置编码主要用于增强 Transformer 中的自注意力机制对位置信息的感知。在原始的 Transformer 模型中,注意力权重是基于查询(Q)、键(K)和值(V)来计算的。当引入相对位置编码时,我们会修改注意力权重的计算方式,使其同时考虑相对位置信息。
使用相对位置编码的简化步骤:
- 计算相对位置编码:首先,使用提供的
relative_positional_encoding
函数计算相对位置编码。 - 计算注意力权重:在计算自注意力的 Q 和 K 的点积时,将相对位置编码添加到结果中。这可以通过将相对位置编码与 Q 的每一行相乘并求和来实现。
- 归一化注意力权重:使用 softmax 函数归一化注意力权重。
- 计算输出:使用归一化的注意力权重与 V 相乘,得到自注意力的输出。
Python 代码示例
import numpy as npclass SelfAttentionWithRelativePosition:def __init__(self, d_model, seq_len):self.d_model = d_modelself.seq_len = seq_lenself.scale = np.sqrt(d_model)# 初始化权重self.WQ = np.random.rand(d_model, d_model)self.WK = np.random.rand(d_model, d_model)self.WV = np.random.rand(d_model, d_model)# 获取相对位置编码self.relative_pos_encoding = self.relative_positional_encoding(seq_len, d_model)def relative_positional_encoding(self, seq_len, d_model):position = np.arange(seq_len)relative_position_matrix = position[:, np.newaxis] - position[np.newaxis, :]relative_position_matrix = np.clip(relative_position_matrix + seq_len, 0, 2 * seq_len - 1)div_term = np.exp(np.arange(0, d_model, 2) * -(np.log(10000.0) / d_model))sinusoid_table = np.zeros((2 * seq_len, d_model))sinusoid_table[:, 0::2] = np.sin(relative_position_matrix * div_term)sinusoid_table[:, 1::2] = np.cos(relative_position_matrix * div_term)return sinusoid_table[relative_position_matrix]def forward(self, Q, K, V):Q = np.matmul(Q, self.WQ)K = np.matmul(K, self.WK)V = np.matmul(V, self.WV)attn_logits = np.matmul(Q, K.T) / self.scaleattn_logits += np.matmul(Q, self.relative_pos_encoding.T)attn_weights = np.exp(attn_logits) / np.sum(np.exp(attn_logits), axis=-1, keepdims=True)output = np.matmul(attn_weights, V)return output# 示例
seq_len = 10
d_model = 512
Q = np.random.rand(1, d_model)
K = np.random.rand(seq_len, d_model)
V = np.random.rand(seq_len, d_model)attention_layer = SelfAttentionWithRelativePosition(d_model, seq_len)
output = attention_layer.forward(Q, K, V)
print(output)
相关文章:
关于Transformer中的位置编码
位置编码 (Positional Encoding) 位置编码是在自然语言处理中,特别是在 Transformer 架构中使用的一个重要概念。Transformer 架构由于其自注意力机制 (Self-Attention Mechanism) 的特性,对序列中的元素没有固有的顺序感知。这意味着,如果不…...
ABAP 期初库存批量导入 demo1
&--------------------------------------------------------------------- *& Report ZMMCP005 &--------------------------------------------------------------------- 作者: Liv完成日期:描述: 期初库存导入需求简要说明&…...
想用 Python 写游戏,都有哪些好用的游戏开发库?
虽然 Python 在网络爬虫、人工智能、数据分析方面有广泛应用,但它并不是一门专门做游戏开发的编程语言,不过对于小型的游戏开发,Python 还是挺香的。下面为大家介绍几个支持 Python 的 2D、3D 游戏开发库,使用它们,你可以设计出很多有意思的小游戏! Cocos2d Cocos2d 是…...
vue3 路由缓存问题
目录 解决问题的思路: 解决问题的方案: 1、给roter-view添加key(破坏复用机制,强制销毁重建) 2、使用beforeRouteUpdate导航钩子 3、使用watch监听路由 vue3路由缓存:当用户从/users/johnny导航到/use…...
如何找到一个数的所有质因数,以及如何快速判断一个数是不是质数
前情介绍 今天遇到一个需求:找到一个数所有的质因数。 初步解决 先定义一个判断质数的函数: def is_Prime(number):i 2count 0while i < number:if number % i 0 :count 1i 1if count > 0:return Falseelse:return True 接着定义一个寻找质…...
西瓜书之神经网络
一,神经元模型 所谓神经网络, 目前用得最广泛的一个定义是“神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。 M-P神经元 M-P神经元:接收n个输入(…...
C++进阶 特殊类的设计
本篇博客介绍:介绍几种特殊的类 特殊类的设计 设计一个类不能被拷贝设计一个类 只能在堆上创建对象设计一个类 只能在栈上创造对象设计一个类不能被继承单例模式饿汉模式懒汉模式单例模式对象的释放问题 总结 设计一个类不能被拷贝 我们的拷贝只会发生在两个场景当…...
NLP序列标注问题,样本不均衡怎么解决?
【学而不思则罔,思而不学则殆】 1.问题 NLP序列标注问题,样本不均衡怎么解决? 2.解释 以命名实体识别(NER)为例,这个样本不均衡有两种解释: (1)实体间类别数量不均衡…...
大端和小端
大端和小端 大端(Big Endian)和小端(Little Endian)是两种不同的字节序排列方式,用于解释多字节数据在内存中的存储顺序。 在大端字节序中,高位字节(最高有效位)存储在低位地址&am…...
C++快速回顾(二)
前言 在Android音视频开发中,网上知识点过于零碎,自学起来难度非常大,不过音视频大牛Jhuster提出了《Android 音视频从入门到提高 - 任务列表》,结合我自己的工作学习经历,我准备写一个音视频系列blog。C/C是音视频必…...
【LVS】1、LVS负载均衡群集
1.群集的含义: Cluster、群集、集群 由多台主机构成并作为一个整体,只提供一个访问入口(域名与IP地址);可伸缩 2.集群使用的场景: 高并发 3.企业群集的分类: 根据群集所针对的目标差异&a…...
el-tree 懒加载树
el-tree 懒加载树 添加自定义图标指定叶子节点懒加载 <template><div><el-treeclass"filter-tree":data"treeData":props"defaultProps"ref"tree"lazy:load"loadTree":expand-on-click-node"true"…...
到江西赣州ibm维修服务器之旅-联想X3850 x6黄灯故障
2023年08月15日,一位江西赣州工厂客户通过朋友介绍与冠峰售前工程师取得联系,双方对产品故障前后原因沟通的大致情况如下: 服务器型号:Lenovo system x3850 x6 为用户公司erp仓库服务器 服务器故障:正常使用过程中业…...
VMware 虚拟机三种网络模式详解
文章目录 前言桥接模式(Bridged)桥接模式特点: 仅主机模式 (Host-only)仅主机模式 (Host-only)特点: NAT网络地址转换模式(NAT)网络地址转换模式(NAT 模式)特点: 前言 很多同学在初次接触虚拟机的时候对 VMware 产品的三种网络模式不是很理解,本文就 VMware 的三种网络模式进行…...
ASP.NET指定变量数据类型,速度提高了100倍
ASP.NET指定变量数据类型,速度提高了100倍由自动编程人工智能 发表在专区 10亿次求余数为0的计算: ASP运行速度130秒左右 ASP.NET Dim i, c, max 如果不指定数据类型,运行要120秒左右 Dim i, c, max As Integer 指定数据类型,运…...
PyArmor 一键加密
使用: pyarmor obfuscate main.py 参考:Python代码加密方案_python加密代码_wgr_1009的博客-CSDN博客 一 简介 PyArmor是用于保护Python代码的工具,它可以将Python脚本编译成加密的字节码,以增加代码的保护性。它的主要目的是防…...
redis--持久化
redis持久化 在 Redis 中,持久化是一种将数据从内存写入到磁盘的机制,以便在服务器重启或崩溃时能够恢复数据。Redis 提供了两种主要的持久化方式:RDB(Redis Database Snapshot)和AOF(Append-Only File&am…...
管理外部表
官方文档地址:Managing Tables 关于外部表 Oracle 数据库允许您对外部表中的数据进行只读访问。外部表定义为不驻留在数据库中的表,通过向数据库提供描述外部表的元数据,数据库能够公开外部表中的数据,就好像它是驻留在常规数据…...
数字图像处理-AWB跳变
1、自动白平衡(AWB)算法是相机中常用的图像处理技术,它能够自动调整图像中的白平衡,使得图像中的颜色更加真实、自然。然而,在实际应用中,AWB算法也存在着一些问题,例如AWB跳变(Whit…...
DNNGP、DeepGS 和 DLGWAS模型构成对比
一、DNNGP DNNGP 是基于深度卷积神经网络,这个结构包括一个输入层,三个卷积层,一个批标准化层,两个dropout层,一个平坦化层,一个 dense层。 dropout层:在神经网络中,dropout层是一个非常有效的正…...
postgresSQL 配置文件设置
postgres.conf 是 PostgreSQL 数据库的主要配置文件,其中包含了许多关于数据库行为的设置。以下是一些常见的配置项: listen_addresses: 这个参数定义了 PostgreSQL 服务监听的网络地址。默认值是 ‘localhost’,这意味着只有本机的客户端才能…...
【bug】Unity无法创建项目
bug UnityHub无法创建项目 UnityHub无法创建项目 出现的问题:在创建新项目时弹出来一个 无法创建项目 尝试的方法: 刷新许可证 ❌没用退出账号重新登陆 ❌没用重启电脑 ❌没用 最后发现是什么问题呢? 2021.3.3这个版本我之前在资源管理器中…...
跨境外贸业务,选择动态IP还是静态IP?
在跨境业务中,代理IP是一个关键工具。它们提供了匿名的盾牌,有助于克服网络服务器针对数据提取设置的限制。无论你是需要经营管理跨境电商店铺、社交平台广告投放,还是独立站SEO优化,代理IP都可以让你的业务程度更加丝滑ÿ…...
Hlang社区-社区导航栏实现
文章目录 前言项目结构导航实现创作中心移动小球消息提示完整代码前言 okey,这里的话是我们社区导航栏的实现: 废话不多说,看看效果: 我甚至为此用New Bing生成了一个Logo。 项目结构 废话不多说,先来看到我们的项目结构: 在这里导航栏是一个组件。 在App.vue里面直…...
Kestrel和ISS服务器下的配置
一、Kestrel服务器 Kestrel是ASP.NET Core框架中的一个跨平台的Web服务器。它是ASP.NET Core应用程序默认的HTTP服务器,并且可作为独立的Web服务器来托管ASP.NET Core应用程序。 Kestrel具有以下特点和功能 1、跨平台 Kestrel是完全跨平台的,可以在Wind…...
uniapp选择只选择月份demo效果(整理)
<template><view style"margin-top: 200rpx;"><!-- mode"multiSelector" 多列选择器 --><view><picker :range"years" :value"echoVal" change"yearChange" mode"multiSelector">{…...
微信ipad协议8.0.40 加好友功能
友情链接 geweapi.com 点击即可访问! 好友请求验证 小提示: v_3 v_4 可以参考 搜索接口 请求URL: http://域名地址/api/contacts/verifyuser 请求方式: POST 请求头: Content-Type:application/js…...
如何通过本地搭建wamp服务器并实现无公网IP远程访问
文章目录 前言1.Wamp服务器搭建1.1 Wamp下载和安装1.2 Wamp网页测试 2. Cpolar内网穿透的安装和注册2.1 本地网页发布2.2 Cpolar云端设置2.3 Cpolar本地设置 3. 公网访问测试4. 结语 前言 软件技术的发展日新月异,各种能方便我们生活、工作和娱乐的新软件层出不穷&…...
matlab使用教程(19)—曲线拟合与一元方程求根
1.多项式曲线拟合 此示例说明如何使用 polyfit 函数将多项式曲线与一组数据点拟合。您可以按照以下语法,使用 polyfit 求出以最小二乘方式与一组数据拟合的多项式的系数 p polyfit(x,y,n), 其中: • x 和 y 是包含数据点的 x 和 y 坐标的向量 …...
【Go 基础篇】Go语言关键字和预定义标识符解析:探索编程的基石与核心要素
介绍 在计算机编程中,关键字(Keywords)和预定义标识符(Predefined Identifiers)是编程语言的核心要素,它们在语法结构和语言功能中起到重要作用。在Go语言(Golang)中,关…...
微服务与Nacos概述-6
RBAC 模型 RBAC 基于角色的访问控制是实施面向企业安全策略的一种有效的访问控制方式。 基本思想是,对系统操作的各种权限不是直接授予具体的用户,而是在用户集合与权限集合之间建立一个角色集合。每一种角色对应一组相应的权限。一旦用户被分配了适当…...
不是说嵌入式是风口吗,那为什么工作还那么难找?
最近确实有很多媒体、机构渲染嵌入式可以拿高薪,这在行业内也是事实,但前提是你有足够的竞争力,真的懂嵌入式。 时至今日,能做嵌入式程序开发的人其实相当常见,尤其是随着树莓派、Arduino等开发板的普及,甚…...
【二叉树】114. 二叉树展开为链表
114. 二叉树展开为链表 解题思路 后序遍历思路将root的左子树和右子树展平将root的右子树接到左子树下方 然后将整个左子树作为右子树 /*** Definition for a binary tree node.* public class TreeNode {* int val;* TreeNode left;* TreeNode right;* Tree…...
docker的安装与基础使用
一.docker简介 1)什么是docker Docker是一种用于构建、打包和运行应用程序的开源平台。它基于操作系统级虚拟化技术,可以将应用程序和其依赖的库、环境等资源打包到一个可移植的容器中,形成一个轻量级、独立的可执行单元。 开发者在本地编…...
python+django+mysql高校校园外卖点餐系统--计算机毕设项目
本文的研究目标是以高校校园外卖点餐为对象,使其高校校园外卖点餐为目标,使得高校校园外卖点餐的信息化体系发展水平提高。论文的研究内容包括对个人中心、美食分类管理、用户管理、商家管理、美食信息管理、工作人员管理、安全检查管理、系统管理、订单…...
获取excel中的图片(包含wps中嵌入单元格图片)
项目中有excel导入功能,并且需要导入excel中的图片;模板如图: 已知office中插入的图片为浮动形式;如图: wps中可以插入浮动图片,也可以插入嵌入单元格图片;如图: 并且在wps嵌入单元格形式的图片可以看到使用的是公式;如图: 问题来了,如何获取图片 并且将图片与单元格进行对应 …...
Git命令详解
1 常用命令 1)初始化本地仓库 git init <directory> 是可选的,如果不指定,将使用当前目录。 2)克隆一个远程仓库 git clone <url> 3)添加文件到暂存区 git add <file> 要添加当前目录中的所…...
【STM32RT-Thread零基础入门】 4. 线程介绍(理论)
文章目录 前言一、线程的概念二、线程的调度三、上下文切换四、线程的重要属性1. 线程栈2. 线程的状态3. 线程优先级4. 线程时间片5. 线程的入口函数 五、RT-Thread命令查看系统线程信息总结 前言 前文中的最后一个任务发现,一个main()函数很难同时实现按键功能和闪…...
css学习3(三种样式表与样式控制优先级)
1、外部样式表:当样式需要应用于很多页面时,外部样式表将是理想的选择。在使用外部样式表的情况下,你可以通过改变一个文件来改变整个站点的外观。每个页面使用 <link> 标签链接到样式表,也要放到<head>中。 2、外部…...
【JS深层解析】内存
前言 接触过 C 语言的小伙伴应该了解:C语言拥有底层最原始的内存管理办法,例如:malloc() 和 free()方法,它们被开发者用来从操作系统中分配和释放内存。 然而在JavaScript这门语言中,当我们创建了一个东西(可以被读写、传递的数据),浏览器中的 js 引擎会根据创建这个…...
第二章:25+ Python 数据操作教程(第十四节NUMPY 教程与练习)
NumPy(“Numerical Python”或“Numeric Python”的缩写)是 Python 中对数组和矩阵进行快速数学计算的最基本的软件包之一。在处理多维数据时它也非常有用。集成C、C++和FORTRAN工具是一件幸事。它还提供了许多傅里叶变换 (FT) 和线性代数函数。 为什么使用 NumPy 而不是列…...
Pycharm与Anaconda Python的开发环境搭建
目录 一:下载 二:安装python 三:设置Pycharm 一:下载 下载Anaconda: Anaconda | The World’s Most Popular Data Science Platform 安装好以后,设置一下环境变量: 打开命令行,…...
2.创建小程序
创建 在开发工具中,选择小程序,点击加号 填写小程序信息,模板使用的是TS+Sass 编辑器的工作区 目录结构 项目使用的是ts的模板,目录结构和js的有一点差异,目录结构如下: miniprogram:小程序根目录 —pages:小程序页面目录 ——xxx:页面目录,一个页面对应一个目…...
XenDesktop5.6如何连接数据库
Citrix在数据库的连接方式上一直不统一,但是也还是有迹可循的。 经过了好长时间的下载以后,今天终于有时间来测试一下最新版本的XenDesktop 5 SP1,由于结合了其他组件和环境的需要,所以,选择了独立部署数据库…...
OAuth2.0一 Spring Security OAuth2.0
这里主讲OAuth2.0 学习OAuth2前提: 掌握Spring Security Spring Security学习 一 OAuth2.0介绍 OAuth(Open Authorization)是一个关于授权(authorization)的开放网络标准,允许用户授权第三方应用访问他们…...
【linux】kernel编译时相关报错
文章目录 1. 问题现象及解决方式1. cc1: error: code model kernel does not support PIC mode 1. 问题现象及解决方式 1. cc1: error: code model kernel does not support PIC mode 问题:编译module时报错 原因:未指定交叉编译器,导致默认…...
C语言 功能型API --------------------strcat()
NAME strcat, strncat - concatenate two strings 头文件 SYNOPSIS #include <string.h> 函数原型: char *strcat(char *dest, const char *src); 功能: 在字符串dest的末尾将字符串src拼接上去 #include <stdio.h> #inc…...
企业展示小程序搭建指南
如今,移动互联网的快速发展,为企业展示提供了更多元化的方式。除了传统的宣传手段,企业还可以借助小程序来展示自己的实力和产品。本文将为大家介绍一种简单的DIY小程序的方法,让企业能够快速打造自己的展示平台。 首先࿰…...
大模型技术实践(一)|ChatGLM2-6B基于UCloud UK8S的创新应用
近半年来,通过对多款主流大语言模型进行了调研,我们针对其训练方法和模型特点进行逐一分析,方便大家更加深入了解和使用大模型。本文将重点分享ChatGLM2-6B基于UCloud云平台的UK8S实践应用。 01各模型结构及特点 自从2017年6月谷歌推出Transf…...
Flink状态和状态管理
1.什么是状态 官方定义:当前计算流程需要依赖到之前计算的结果,那么之前计算的结果就是状态。 这句话还是挺好理解的,状态不只存在于Flink,也存在生活的方方面面,比如看到一个认识的人,如何识别认识呢&am…...