当前位置：首页 > news >正文

使用注意力机制的seq2seq

news 2025/7/6 4:53:42

一、背景

1、机器翻译中，每个生成的词可能相关于源句子中不同的词，但是之前用的是最后一个RNN层出来的context。

2、加入注意力

（1）假设输入序列中有𝑇个词元，解码时间步𝑡′的上下文变量是注意力集中的输出

时间步𝑡′−1时的解码器隐状态𝑠_𝑡′−1是查询，编码器隐状态ℎ_𝑡既是键，也是值，注意力权重𝛼是使用加性注意力打分函数计算的

（2）Bahdanau注意力的架构

a、要预测下一个词的时候，将当前预测出的词作为query，编码器各个状态作为(key,value)，进行attention，来找到对预测下一个词有用的原文

b、编码器对每次词的输出作为key和value（一样的）

c、解码器RNN对上一词的输出是query

d、注意力的输出和下一词的词嵌入合并进入

二、定义注意力解码器

1、对于Seqseq，只需要重新定义解码器

#@save
class AttentionDecoder(d2l.Decoder):"""带有注意力机制解码器的基本接口"""def __init__(self, **kwargs):super(AttentionDecoder, self).__init__(**kwargs)@propertydef attention_weights(self):raise NotImplementedError

2、初始化解码器的状态，需要下面的输入：

（1）编码器在所有时间步的最终层隐状态，将作为注意力的键和值；

（2）上一时间步的编码器全层隐状态，将作为初始化解码器的隐状态；

（3）编码器有效长度（排除在注意力池中填充词元）。

class Seq2SeqAttentionDecoder(AttentionDecoder):def __init__(self, vocab_size, embed_size, num_hiddens, num_layers,dropout=0, **kwargs):super(Seq2SeqAttentionDecoder, self).__init__(**kwargs)self.attention = d2l.AdditiveAttention(num_hiddens, num_hiddens, num_hiddens, dropout)self.embedding = nn.Embedding(vocab_size, embed_size)self.rnn = nn.GRU(embed_size + num_hiddens, num_hiddens, num_layers,dropout=dropout)self.dense = nn.Linear(num_hiddens, vocab_size)def init_state(self, enc_outputs, enc_valid_lens, *args):# outputs的形状为(batch_size，num_steps，num_hiddens).# hidden_state的形状为(num_layers，batch_size，num_hiddens)outputs, hidden_state = enc_outputsreturn (outputs.permute(1, 0, 2), hidden_state, enc_valid_lens)def forward(self, X, state):# enc_outputs的形状为(batch_size,num_steps,num_hiddens).# hidden_state的形状为(num_layers,batch_size,# num_hiddens)enc_outputs, hidden_state, enc_valid_lens = state# 输出X的形状为(num_steps,batch_size,embed_size)X = self.embedding(X).permute(1, 0, 2)outputs, self._attention_weights = [], []for x in X:# query的形状为(batch_size,1,num_hiddens)，加一维是为了调用可加性注意力函数的接口query = torch.unsqueeze(hidden_state[-1], dim=1)# context的形状为(batch_size,1,num_hiddens)context = self.attention(query, enc_outputs, enc_outputs, enc_valid_lens)# 在特征维度上连结x = torch.cat((context, torch.unsqueeze(x, dim=1)), dim=-1)# 将x变形为(1,batch_size,embed_size+num_hiddens)out, hidden_state = self.rnn(x.permute(1, 0, 2), hidden_state)outputs.append(out)self._attention_weights.append(self.attention.attention_weights)# 全连接层变换后，outputs的形状为# (num_steps,batch_size,vocab_size)outputs = self.dense(torch.cat(outputs, dim=0))return outputs.permute(1, 0, 2), [enc_outputs, hidden_state,enc_valid_lens]@propertydef attention_weights(self):return self._attention_weights

二、总结

1、在预测词元时，如果不是所有输入词元都是相关的，那么具有Bahdanau注意力的循环神经网络编码器-解码器会有选择地统计输入序列的不同部分。这是通过将上下文变量视为加性注意力池化的输出来实现的。

2、在循环神经网络编码器-解码器中，Bahdanau注意力将上一时间步的解码器隐状态视为查询，在所有时间步的编码器隐状态同时视为键和值。

使用注意力机制的seq2seq

一、背景 1、机器翻译中，每个生成的词可能相关于源句子中不同的词，但是之前用的是最后一个RNN层出来的context。 2、加入注意力 （1）假设输入序列中有𝑇个词元， 解码时间步𝑡′的上下文变量是…...

编程日记 2024/8/2 19:23:26

我们的前端开发逆天了！1 小时搞定了新网站，还跟我说 “不要钱”

大家好，我是程序员鱼皮。前段时间我们上线了一个新软件剪切助手 ，并且针对该项目做了一个官网： 很多同学表示官网很好看，还好奇是怎么做的，其实这个网站的背后还有个有趣的小故事。。。鱼皮：我们要做个官…...

编程日记 2024/8/2 19:22:25

.NET 相关概念

.NET 和 .NET SDK .NET 介绍 .NET 是一个由 Microsoft 开发和维护的广泛用于构建各种类型应用程序的开发框架。它是一个跨平台、跨语言的开发平台，提供了丰富的类库、API和开发工具，支持开发者使用多种编程语言（如C#、VB.NET、F#等&#xf…...

编程日记 2024/8/2 19:21:24

Kubernetes 从集群中移除一个节点（Node）

目录 1. 移除工作节点(Worker Node)1.1 确定工作节点名称1.2 驱逐工作节点上的Pod1.3 删除工作节点1.4 重置该工作节点 2. 移除控制平面节点(Control Plane Node)2.1 确定控制平面节点名称2.2 驱逐控制平面节点上的Pod2.3 更新 etcd 集群2.4 从集群中删除控制平面节点2.5 重置移…...

编程日记 2024/8/2 19:20:23

高德地图离线版使用高德地图api的方法

高德离线包我已经存至Gitee（自行下载即可）：高德地图离线解决方案: 高德地图离线解决方案然因为高德地图的瓦片地图太大，所以要让后端部署下前端直接调用如果本地直接找到瓦片图路径就可以 initMap () {const base_url "…...

编程日记 2024/8/2 19:19:22

springboot 集成私有化Ollama大模型开源框架，搭建AI智能平台

Ollama是一个用于大数据和机器学习的平台，它可以帮助企业进行数据处理、分析和决策制定。 １、在Spring Boot项目pom.xml中添加Ollama客户端库依赖 <dependency><groupId>org.springframework.ai</groupId><artifactId>spring-a…...

编程日记 2024/8/2 19:18:20

6.key的层级结构

redis的key允许多个单词形成层级结构，多个单词之间用:隔开，格式如下： 项目名:业务名:类型:id 这个格式并非固定的，可以根据自己的需求来删除或添加词条。例如： taobao:user:1 taobao:product:1 如果value是一个java对…...

编程日记 2024/8/2 19:17:20

LogonTracer图形化事件分析工具

LogonTracer这款工具是基于Python编写的，并使用Neo4j作为其数据库（Neo4j多用于图形数据库），是一款用于分析Windows安全事件登录日志的可视化工具。它会将登录相关事件中的主机名（或IP地址）和帐户名称关联起…...

编程日记 2024/8/2 19:16:18

【云原生】Prometheus监控Docker指标并接入Grafana

目录一、前言二、docker监控概述 2.1 docker常用监控指标 2.2 docker常用监控工具三、CAdvisor概述 3.1 CAdvisor是什么 3.2 CAdvisor功能特点 3.3 CAdvisor使用场景四、CAdvisor对接Prometheus与Grafana 4.1 环境准备 4.2 docker部署CAdvisor 4.2.2 docker部署…...

编程日记 2024/8/2 19:15:16

搭建日志系统ELK(二)

搭建日志系统ELK(二) 架构设计在搭建以ELK为核心的日志系统时，Logstash作为日志采集的核心组件，负责将各个服务的日志数据采集、清洗、过滤。然而缺点也很明显： 占用较多的服务器资源。配置复杂，学习曲线陡峭。处理大数据量时…...

编程日记 2024/8/2 19:14:15

常用排序算法的实现与介绍

常用排序算法的实现与介绍在计算机科学中，排序算法是非常基础且重要的一类算法。本文将通过C语言代码实现，介绍几种常见的排序算法，包括冒泡排序、选择排序、插入排序和快速排序。以下是这些排序算法的具体实现和简要介绍。 1. 冒泡排序&am…...

编程日记 2024/8/2 19:11:11

仓颉语言 -- 宏

使用新版本 （2024-07-19 16:10发布的） 1、宏的简介宏可以理解为一种特殊的函数。一般的函数在输入的值上进行计算，然后输出一个新的值，而宏的输入和输出都是程序本身。在输入一段程序（或程序片段，例如表达…...

编程日记 2024/8/2 19:10:09

Nginx代理minIO图片路径实现公网图片访问

1、网络部署情况 VUE前端项目Nginx部署在公司内网，端口7790 后台接口项目部署在公司内网，端口7022 minIO服务部署在公司内网，端口9000 公网IP设备将80端口映射到7790端口（具体映射方式不详），实现通过互…...

编程日记 2024/8/2 19:07:04

从零开始掌握tcpdump：参数详解

Linux tcpdump命令详解 1. 语法 tcpdump [-adeflnnNOpqStvxX] [-c <数据包数目>] [-dd] [-ddd] [-F <表达文件>] [-i <网络界面>] [-r <数据包文件>] [-s <数据包大小>] [-tt] [-T <数据包类型>] [-vv] [-w <数据包文件>] [输出数…...

编程日记 2024/8/2 19:06:03

漏洞挖掘 | edusrc记一次某中学小程序渗透测试

一、搜集渗透目标现在的EDU挖web端的上分效率远不如小程序，因此这篇文章浅浅记录一次小程序的挖掘吧。如果各位大牛想要快速出洞，不妨跳过大学，学院等小程序，而重点关注小学、中学、幼儿园等，这些小程序的出洞率还是…...

编程日记 2024/8/2 19:05:02

vulhub：nginx解析漏洞CVE-2013-4547

此漏洞为文件名逻辑漏洞，该漏洞在上传图片时，修改其16进制编码可使其绕过策略，导致解析为 php。当Nginx 得到一个用户请求时，首先对 url 进行解析，进行正则匹配，如果匹配到以.php后缀结尾的文件名&#xff…...

编程日记 2024/8/2 18:28:33

备战秋招：2024游戏开发入行与跳槽面试详解

注意：以下为本次分享概要，视频版内容更全面深入，详见文末 1.游戏开发领域秋招准备与面试技巧本次分享由优梦创客机构的创始人雷蒙德主讲，专注于2024年秋招期间游戏开发领域的入行与跳槽面试准备。本次分享重点在于提供面试技巧…...

编程日记 2024/8/2 18:27:32

红外热成像手持终端：从建筑检测到野外搜救的全方位应用

红外热成像手持终端，凭借其独特的红外探测与夜视功能，广泛应用于多个关键领域。无论是军事侦察、消防救援中的夜间作业，还是电力巡检、野生动物观察等多样场景，其精准的红外热成像技术均能提供至关重要的实时数据，助力…...

编程日记 2024/8/2 18:26:30

day07 项目启动以及git

spring框架 spring 负责整合各种框架，把new对象的部分交给spring去做，对象new不出来，项目就启动不起来，这样可以有效保证所需要的对象都在容器中存在，后续的部分都可以顺利执行控制反转：业务对象创建依赖资…...

编程日记 2024/8/2 18:25:29

学会网络安全：开启广阔职业与责任之旅

在数字化时代，网络安全已成为社会经济发展的重要基石。随着互联网的普及和技术的飞速发展，网络安全威胁日益复杂多变，对国家安全、社会稳定以及个人隐私构成了严峻挑战。因此，掌握网络安全技能不仅意味着拥有了一项高价值的职业技…...

编程日记 2024/8/2 18:23:26

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

Linux_k8s篇欢迎来到Linux的世界，看笔记好好学多敲多打，每个人都是大神！ 题目：KubeSphere 容器平台高可用：环境搭建与可视化操作指南版本号: 1.0,0 作者: 老王要学习日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

编程新知 2025/7/5 9:34:56

JVM垃圾回收机制全解析

Java虚拟机（JVM）中的垃圾收集器（Garbage Collector，简称GC）是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象，从而释放内存空间，避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

编程新知 2025/6/23 2:48:54

el-switch文字内置

el-switch文字内置效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

编程新知 2025/7/5 19:21:32

生成 Git SSH 证书

🔑 1. 生成 SSH 密钥对在终端（Windows 使用 Git Bash，Mac/Linux 使用 Terminal）执行命令： ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明： -t rsa&#x…...

编程新知 2025/6/21 5:49:39

Spring Boot面试题精选汇总

🤟致敬读者 🟩感谢阅读🟦笑口常开🟪生日快乐⬛早点睡觉 📘博主相关 🟧博主信息🟨博客首页🟫专栏推荐🟥活动信息文章目录 Spring Boot面试题精选汇总⚙️ **一、核心概…...

编程新知 2025/6/15 5:20:21

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

编程新知 2025/7/6 2:00:54

PL0语法，分析器实现！

简介 PL/0 是一种简单的编程语言，通常用于教学编译原理。它的语法结构清晰，功能包括常量定义、变量声明、过程（子程序）定义以及基本的控制结构（如条件语句和循环语句）。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言，由 Niklaus Wirth 设计，用于展示编译原理的核…...

编程新知 2025/7/5 13:04:39

12.找到字符串中所有字母异位词

🧠 题目解析题目描述： 给定两个字符串 s 和 p，找出 s 中所有 p 的字母异位词的起始索引。返回的答案以数组形式表示。字母异位词定义： 若两个字符串包含的字符种类和出现次数完全相同，顺序无所谓，则互为…...

编程新知 2025/7/5 5:31:34

什么？连接服务器也能可视化显示界面？：基于X11 Forwarding + CentOS + MobaXterm实战指南

文章目录什么是X11？环境准备实战步骤1️⃣ 服务器端配置（CentOS）2️⃣ 客户端配置（MobaXterm）3️⃣ 验证X11 Forwarding4️⃣ 运行自定义GUI程序(Python示例)5️⃣ 成功效果![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/55aefaea8a9f477e86d065227851fe3d.pn…...

编程新知 2025/6/24 5:44:40

在WSL2的Ubuntu镜像中安装Docker

Docker官网链接: https://docs.docker.com/engine/install/ubuntu/ 1、运行以下命令卸载所有冲突的软件包： for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done2、设置Docker…...

编程新知 2025/7/4 7:58:37

使用注意力机制的seq2seq

相关文章：

使用注意力机制的seq2seq

我们的前端开发逆天了！1 小时搞定了新网站，还跟我说 “不要钱”

.NET 相关概念

Kubernetes 从集群中移除一个节点（Node）

高德地图离线版使用高德地图api的方法

springboot 集成私有化Ollama大模型开源框架，搭建AI智能平台

6.key的层级结构

LogonTracer图形化事件分析工具

【云原生】Prometheus监控Docker指标并接入Grafana

搭建日志系统ELK(二)

常用排序算法的实现与介绍

仓颉语言 -- 宏

Nginx代理minIO图片路径实现公网图片访问

从零开始掌握tcpdump：参数详解

漏洞挖掘 | edusrc记一次某中学小程序渗透测试

vulhub：nginx解析漏洞CVE-2013-4547

备战秋招：2024游戏开发入行与跳槽面试详解

红外热成像手持终端：从建筑检测到野外搜救的全方位应用

day07 项目启动以及git

学会网络安全：开启广阔职业与责任之旅

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

JVM垃圾回收机制全解析

el-switch文字内置

生成 Git SSH 证书

Spring Boot面试题精选汇总

微服务商城-商品微服务

PL0语法，分析器实现！

12.找到字符串中所有字母异位词

什么？连接服务器也能可视化显示界面？：基于X11 Forwarding + CentOS + MobaXterm实战指南

在WSL2的Ubuntu镜像中安装Docker