当前位置：首页 > news >正文

九、RNN的变体

news 2026/2/8 11:48:41

RNN的变体

前言
一、长短期记忆网络（LSTM）
- 1.1 LSTM结构分析
- - 1.1.1 遗忘门
  - - 1.1.1.1 遗忘门结构图与计算公式
    - 1.1.1.2 结构分析
    - 1.1.1.3 遗忘门的由来
    - 1.1.1.4 遗忘门的内部演示
  - 1.1.2 输入门
  - - 1.1.2.1 输入门结构图与计算公式
    - 1.1.2.2 结构分析
    - 1.1.2.3 输入门的内部演示
  - 1.1.3 细胞状态
  - - 1.1.3.1 细胞状态结构图与计算公式
    - 1.1.3.2 结构分析
    - 1.1.3.3 细胞状态的内部演示
  - 1.1.4 输出门
  - - 1.1.4.1 输出门的结构和计算公式
    - 1.1.4.2 结构分析
    - 1.1.4.3 输出门的内部演示
- 1.2 Bi-LSTM介绍
- - 1.2.1 Bi-LSTM结构示意图
  - 1.2.2 Bi-LSTM结构分析
- 1.3 代码演示
- 1.4 LSTM 的优缺点
二、门控循环单元（GRU）
- 2.1 概述
- 2.2 GRU内部结构图和计算公式
- 2.3 结构分析
- 2.4 Bi-GRU介绍
- 2.5 代码演示
- 2.6 GRU的优缺点
总结

前言

传统 RNN 对长序列的语义捕捉效果不好，当反向传播的时候，会发生梯度消失或者爆炸的现象。
为了解决这种现象，人们创造了 LSTM 模型和 GRU 模型来解决长期信息保存和短期输入缺失的问题

一、长短期记忆网络（LSTM）

结构示意图
它的核心结构可以分为四个部分去解析：
- 遗忘门
- 输入门
- 细胞状态
- 输出门

1.1 LSTM结构分析

1.1.1 遗忘门

1.1.1.1 遗忘门结构图与计算公式

在这里插入图片描述

1.1.1.2 结构分析

首先将当前时间步的输入 $x_t$ 与上一个时间步的隐藏状态 $h_{t-1}$ 拼接得到 $x_t,h_{t-1}]$
然后通过一个全连接层也就是乘以一个参数矩阵 $W_f$ 再加上偏置
最后通过 sigmoid 函数进行激活得到 $f_t$

1.1.1.3 遗忘门的由来

因为最后得到的 $f_t$ 将作用到上一层的细胞状态上，代表遗忘过去的多少信息
因为遗忘门的门值是由 $x_t$ ， $h_{t-1}$ 计算得来的，因此整个公式意味着根据当前时间步和上一个时间步隐含状态来决定遗忘掉上一层细胞状态所携带的过往信息

1.1.1.4 遗忘门的内部演示

在这里插入图片描述

1.1.2 输入门

1.1.2.1 输入门结构图与计算公式

在这里插入图片描述

1.1.2.2 结构分析

第一个公式是产生输入门门值 $i_t$ 的公式
- 与遗忘门公式几乎相同，区别只是在于他们之后要作用的目标上
第二个公式是产生当前的细胞状态 $\hat C_t$ ：
- 与传统的 RNN 内部结构计算相似

1.1.2.3 输入门的内部演示

在这里插入图片描述

1.1.3 细胞状态

1.1.3.1 细胞状态结构图与计算公式

在这里插入图片描述

1.1.3.2 结构分析

第一步：细胞状态的更新就是将刚刚得到的遗忘门门值与上一个时间步输出的细胞状态 $C_{t-1}$ 相乘
第二步：输入门门值 $i_t$ 与当前时间步未更新的细胞状态 $\hat C_t$ 相乘
将前两步得到的结果进行相加得到当前时间步的细胞状态 $C_t$ 给下一个时间步用

1.1.3.3 细胞状态的内部演示

在这里插入图片描述

1.1.4 输出门

1.1.4.1 输出门的结构和计算公式

在这里插入图片描述

1.1.4.2 结构分析

第一个公式是产生输出门门值 $o_t$ 的公式
- 与遗忘门、输入门公式几乎相同，区别只是在于他们之后要作用的目标上
第二个公式是产生当前时间步的隐藏状态 $h_t$ ：
- 输出门门值与到经过 tanh 激活后的当前时间步的细胞状态相乘得到当前时间步的隐藏状态 $h_t$

1.1.4.3 输出门的内部演示

在这里插入图片描述

1.2 Bi-LSTM介绍

Bi-LSTM 即双向 LSTM，它没有改变 LSTM 本身任何的内部结构，只是将 LSTM 应用两次且方向不同，再将两次得到的 LSTM 结果进行拼接作为最终输出

1.2.1 Bi-LSTM结构示意图

在这里插入图片描述

1.2.2 Bi-LSTM结构分析

我们看到图中对"我爱中国"这句话或者叫这个输入序列，进行了从左到右和从右到左两次 LSTM 处理，将得到的结果张量进行了拼接作为最终输出
这种结构能够捕捉语言语法中一些特定的前置或后置特征，增强语义关联，但是模型参数和计算复杂度也随之增加了一倍，一般需要对语料和计算资源进行评估后决定是否使用该结构

1.3 代码演示

演示代码如下：

import torch
from torch import nndef dm_my_LSTM():"""input_size: 输入张量 x中特征维度的大小hidden_size: 隐层张量 h中特征维度的大小num_layers: 隐含层的数量batch_first: 是否选择 在实例化 LSTM后 接受 参数的时候, 把批次大小batch_size放在前面 如果为True, 则使用; 默认不使用当 batch_first=True时：输入数据的维度顺序为(batch_size, sequence_length, input_size)第一个维度是批量大小 (batch_size), 即一次处理的数据样本数量第二个维度是序列长度(sequence_length), 即每个样本中的时间步或序列元素数量第三个维度是输入维度(input_size), 即每个时间步的输入特征数量。当 batch_first=False时：输入数据的维度顺序为(sequence_length, batch_size, input_size)。bidirectional: 是否选择使用双向 LSTM, 如果为True, 则使用; 默认不使用."""# LSTM的参数含义  (input_size, hidden_size, num_layers)lstm = nn.LSTM(5, 6, 1, batch_first=True)"""input: 输入张量 xh0: 初始化的隐层张量 hc0: 初始化的细胞状态张量 c"""# input参数含义 (batch_size, sequence_length, input_size)input = torch.randn(4, 3, 5)# 初始化的 h0 和 c0 可以不用传# h0 = torch.randn(1, 3, 6)# c0 = torch.randn(1, 3, 6)# output, (hn, cn) = lstm(input, (h0, c0))output, (hn, cn) = lstm(input)print('输出结果是：', output)print('最后的隐藏状态是：', hn)print('最后的细胞状态是：', cn)if __name__ == '__main__':dm_my_LSTM()

1.4 LSTM 的优缺点

LSTM 优势
- LSTM 的门结构能够有效减缓长序列问题中可能出现的梯度消失或爆炸，虽然并不能杜绝这种现象，但在更长的序列问题上表现优于传统 RNN
LSTM缺点
- 由于内部结构相对较复杂，因此训练效率在同等算力下较传统RNN低很多

二、门控循环单元（GRU）

2.1 概述

GRU（Gated Recurrent Unit）也称门控循环单元结构，它也是传统RNN的变体，同LSTM一样能够有效捕捉长序列之间的语义关联，缓解梯度消失或爆炸现象
同时它的结构和计算要比LSTM更简单，它的核心结构可以分为两个部分去解析：
- 更新门
- 重置门

2.2 GRU内部结构图和计算公式

在这里插入图片描述

2.3 结构分析

重置门
- 上一个时间步的隐藏状态 $h_{t-1}$ 与当前时间步 $x_t$ 的输入经过 sigmoid 激活得到 $r_t$
- 上一步得到的 $r_t$ 与上一个时间步的隐藏状态 $h_{t-1}$ 相乘得到的结果还有当前时间步 $x_t$ 的输入，一起经过 tanh 激活函数得到重置过的隐藏状态 $\hat h_t$
更新门
- 上一个时间步的隐藏状态 $h_{t-1}$ 与当前时间步 $x_t$ 的输入经过 sigmoid 激活得到 $z_t$
- 最后 $1-z_t$ 乘以上一个时间步的隐藏状态 $h_{t-1}$ 再加上 $z_t$ 乘以重置门得到的 $\hat h_t$ 的结果作为当前时间步的隐藏状态 $h_t$ 输出

2.4 Bi-GRU介绍

Bi-GRU 与 Bi-LSTM 的逻辑相同，都是不改变其内部结构，而是将模型应用两次且方向不同，再将两次得到的 LSTM 结果进行拼接作为最终输出
具体参见 1.2 Bi-LSTM介绍

2.5 代码演示

演示代码如下：

import torch
from torch import nndef dm_my_GRU():"""input_size: 输入张量 x中特征维度的大小hidden_size: 隐层张量 h中特征维度的大小num_layers: 隐含层的数量batch_first: 是否选择 在实例化 GRU后 接受 参数的时候, 把批次大小batch_size放在前面 如果为True, 则使用; 默认不使用当 batch_first=True时：输入数据的维度顺序为(batch_size, sequence_length, input_size)第一个维度是批量大小 (batch_size), 即一次处理的数据样本数量第二个维度是序列长度(sequence_length), 即每个样本中的时间步或序列元素数量第三个维度是输入维度(input_size), 即每个时间步的输入特征数量。当 batch_first=False时：输入数据的维度顺序为(sequence_length, batch_size, input_size)。bidirectional: 是否选择使用双向 GRU , 如果为True, 则使用; 默认不使用."""rnn = nn.GRU(5, 6, 2, batch_first=True)# input参数含义 (batch_size, sequence_length, input_size)# 因为使用了 batch_first=Trueinput = torch.randn(1, 3, 5)# 可以传 h0 也可以不传, 实例化的GRU对象会自动创建一个 h0# h0 = torch.randn(2, 3, 6)# output, hn = rnn(input, h0)output, hn = rnn(input)print('GRU的输出结果是：', output)print('GRU的最后输出的隐层张量是：', hn)if __name__ == '__main__':dm_my_GRU()

2.6 GRU的优缺点

优点
- GRU 和 LSTM 作用相同，在捕捉长序列语义关联时，能有效抑制梯度消失或爆炸，效果都优于传统 RNN 且计算复杂度相比 LSTM 要小
缺点
- GRU 仍然不能完全解决梯度消失问题，同时其作用 RNN 的变体，有着 RNN 结构本身的一大弊端，即不可并行计算，这在数据量和模型体量逐步增大的未来，是 RNN 发展的关键瓶颈

总结

以上就是我们总结的 RNN 的变体——LSTM 和 GRU 大致介绍。

九、RNN的变体

RNN的变体前言一、长短期记忆网络（LSTM）1.1 LSTM结构分析1.1.1 遗忘门1.1.1.1 遗忘门结构图与计算公式1.1.1.2 结构分析1.1.1.3 遗忘门的由来1.1.1.4 遗忘门的内部演示 1.1.2 输入门1.1.2.1 输入门结构图与计算公式1.1.2.2 结构分析1.1.2.3 输入门的内部…...

编程日记 2024/12/8 13:42:00

高级java每日一道面试题-2024年12月07日-JVM篇-如何选择垃圾收集器?

如果有遗漏,评论区告诉我进行补充面试官: 如何选择垃圾收集器? 我回答: 在Java高级面试中，选择垃圾收集器（Garbage Collector，GC）是一个重要且常见的议题。选择合适的垃圾收集器对于优化应用程序的性能至关重要。以下是对如何…...

编程日记 2024/12/8 13:40:59

棋牌游戏项目ctrl + c无法退出进程问题

棋牌游戏项目ctrl c无法退出进程问题运行的服务为 user , 启动命令为 cd user && go run main.go启动之前先加入调试语句在 go func() { metric.Serve(...) } 打日志在 app.Run(...) 打日志 user/main.go var configFile flag.String("config", "…...

编程日记 2024/12/8 13:38:56

论文概览 |《Urban Analytics and City Science》2023.03 Vol.50 Issue.3

本次给大家整理的是《Environment and Planning B: Urban Analytics and City Science》杂志2023年3月第50卷第3期的论文的题目和摘要，一共包括18篇SCI论文！ 论文1 A new kind of search 一种新型的搜索【摘要】 ChatGPT (2022) was first launched o…...

编程日记 2024/12/8 13:37:55

前端知识1html

VScode一些快捷键 Ctrl/——注释 !——生成html框架元素 *n——生成n个标签直接书写html的名字回车生成对应的标签常见标签 span： <span style"color: red;">hello</span> <span>demo</span> span实现： 标题…...

编程日记 2024/12/8 13:36:52

Vue03

目录一、今日目标 1.生命周期 2.综合案例-小黑记账清单 3.工程化开发入门 4.综合案例-小兔仙首页二、Vue生命周期三、Vue生命周期钩子四、生命周期钩子小案例 1.在created中发送数据六、工程化开发模式和脚手架 1.开发Vue的两种方式 2.Vue CLI脚手架基本介绍…...

编程日记 2024/12/8 13:34:45

深入浅出：Gin框架路由与HTTP请求处理

深入浅出：Gin框架路由与HTTP请求处理引言在Web开发中，路由和HTTP请求处理是构建API的核心部分。Gin框架作为Go语言中最受欢迎的Web框架之一，提供了简洁而强大的工具来处理这些任务。本文将深入浅出地介绍如何使用Gin框架进行路由定义、处…...

编程日记 2024/12/8 13:32:41

C++初阶——模板初阶

目录 1、如何实现一个通用的交换函数 2、函数模板 2.1 函数模板的概念 2.2 函数模板的格式 2.3 函数模板的原理 2.4 函数模板的实例化 2.5 模板参数的匹配原则 3、类模板 3.1 类模板的格式 3.2 类模板的实例化 1、如何实现一个通用的交换函数 void Swap(int& lef…...

编程日记 2024/12/8 13:31:38

y3编辑器文档3：物体编辑器

文章目录一、物体编辑器简介1.1 界面介绍1.2 复用（导入导出）1.3 收藏夹（项目资源管理）1.4 对象池二、单位2.1 数据设置2.2 表现设置2.3 单位势力和掉率设置2.4 技能添加和技能参数修改2.5 商店2.5.1 商店属性设置2.5.2 商店物品设置三、装饰物3.1 属性编辑3.2 碰撞体积四、…...

编程日记 2024/12/8 13:29:34

Linux-USB驱动实验

USB 是很常用的接口，目前大多数的设备都是 USB 接口的，比如鼠标、键盘、USB 摄像头等，我们在实际开发中也常常遇到 USB 接口的设备，本章我们就来学习一下如何使能 Linux内核自带的 USB 驱动。注意！本章并不讲解具体的 …...

编程日记 2024/12/8 13:26:30

【配置查询】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列【数据事务…...

编程日记 2024/12/8 13:25:29

JavaWeb学习--cookie和session

目录 （一）Cookie概述 1.什么叫Cookie 2.Cookie规范 3.Cookie的覆盖 4.cookie的最大存活时间 （Cookie的生命） （二） Cookie的API 1.创建Cookie：new 构造方法 2.保存到客户端浏…...

编程日记 2024/12/8 13:24:28

Next.js系统性教学：动态路由与并行路由

更多有关Next.js教程，请查阅： 【目录】Next.js 独立开发系列教程-CSDN博客目录 1. 动态路由 (Dynamic Routes) 1.1 动态路由的基础 1.2 获取动态参数 1.3 动态嵌套路由 1.4 捕获所有动态路由 2. 并行路由 (Parallel Routes) 2.1 并行路由的基础…...

编程日记 2024/12/8 13:22:24

Backblaze 2024 Q3硬盘故障质量报告解读

作为一家在2021年在美国纳斯达克上市的云端备份公司，Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告，给大家提供了一份真实应用场景下的稳定性分析参考数据： 以往报告解读系列参考： Backblaze发布2024 Q2硬盘故障…...

编程日记 2024/12/8 13:20:21

[创业之路-179]：《领先的密码 - BLM核心方法体系与企业实践》主要章节与主要内容

目录前言： 1、引言或概述 2、BLM方法论的背景与起源 3、BLM方法论的发展与完善 4、BLM方法论的重要性与价值 5、本书的内容与结构二、BLM核心方法体系 1. 领先的起点 2. 领先的战略 3. 领先的执行 4. 领先之魂三、本书的核心思想 1、以战略为核心 …...

编程日记 2024/12/8 13:17:17

uniapp的生命周期

在 UniApp 中，生命周期函数是指在组件（如页面、视图等）创建和销毁过程中会自动触发的一些函数。UniApp 提供了多种生命周期函数，帮助开发者在适当的时机进行相关的逻辑处理。 UniApp 的生命周期函数可以分为页面生命周期和组件…...

编程日记 2024/12/8 13:14:12

基于 RNN(GRU, LSTM)+CNN 的红点位置检测（pytorch）

文章目录 1 项目背景2 数据集3 思路4 实验结果5 代码 1 项目背景需要在图片精确识别三跟红线所在的位置，并输出这三个像素的位置。其中，每跟红线占据不止一个像素，并且像素颜色也并不是饱和度和亮度极高的红黑配色，每个红线放大…...

编程日记 2024/12/8 13:13:09

文章目录 LMDeploy 量化部署实践闯关任务环境配置W4A16 量化 KV cacheKV cache 量化Function call LMDeploy 量化部署实践闯关任务环境配置 conda create -n lmdeploy python3.10 -y conda activate lmdeploy conda install pytorch2.1.2 torchvision0.16.2 torchaudio2.1.…...

编程日记 2024/12/8 13:09:05

verilog编程规范

verilog编程规范文章目录 verilog编程规范前言一、代码划分二、verilog编码ABCDEFG 前言高内聚，低耦合，干净清爽的代码一、代码划分高内聚： 一个功能一个模块干净的接口提取公共的代码低耦合： 模块之间低耦合尽量用少量…...

编程日记 2024/12/8 13:08:02

飞飞5.4游戏源码（客户端+服务端+工具完整源代码+5.3fix+5.4patch+数据库可编译进游戏）

飞飞5.4游戏源码（客户端服务端工具完整源代码5.3fix5.4patch数据库可编译进游戏） 下载地址： 通过网盘分享的文件：【源码】飞飞5.4游戏源码（客户端服务端工具完整源代码5.3fix5.4patch数据库可编译进游戏） 链…...

编程日记 2024/12/8 13:04:57

K8S认证|CKS题库+答案| 11. AppArmor

目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统题目开始操作： 1）、切换集群 2）、切换节点 3）、切换到 apparmor 的目录 4）、执行 apparmor 策略模块 5）、修改 pod 文件 6）、…...

编程新知 2026/1/29 2:11:35

VB.net复制Ntag213卡写入UID

本示例使用的发卡器：https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

编程新知 2026/2/7 17:44:40

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

微软PowerBI考试 PL300-选择 Power BI 模型框架 20 多年来，Microsoft 持续对企业商业智能 (BI) 进行大量投资。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于无数企业使用的成熟的 BI 数据建模技术。同样的技术也是 Power BI 数据…...

编程新知 2026/2/1 19:08:45

解决Ubuntu22.04 VMware失败的问题 ubuntu入门之二十八

现象1 打开VMware失败 Ubuntu升级之后打开VMware上报需要安装vmmon和vmnet，点击确认后如下提示最终上报fail 解决方法内核升级导致，需要在新内核下重新下载编译安装查看版本 $ vmware -v VMware Workstation 17.5.1 build-23298084$ lsb_release…...

编程新知 2026/1/24 10:07:40

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06（十亿美元）。漏洞扫描服务市场行业预计将从 2024 年的 3.48（十亿美元）增长到 2032 年的 9.54（十亿美元）。预测期内漏洞扫描服务市场 CAGR（增长率&…...

编程新知 2026/2/4 12:43:08

ServerTrust 并非唯一

NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念点说明authenticationMethodURLAuthenticationChallenge.protectionS…...

编程新知 2026/1/29 5:29:57

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题安装 flash-attn 会一直卡在 build 那一步或者运行报错解决办法是因为你安装的 flash-attn 版本没有对应上，所以报错，到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本，cu、torch、cp 的版本一定要对…...

编程新知 2025/11/3 2:11:24

听写流程自动化实践，轻量级教育辅助

随着智能教育工具的发展，越来越多的传统学习方式正在被数字化、自动化所优化。听写作为语文、英语等学科中重要的基础训练形式，也迎来了更高效的解决方案。这是一款轻量但功能强大的听写辅助工具。它是基于本地词库与可选在线语音引擎构建，…...

编程新知 2026/1/30 1:47:17

DingDing机器人群消息推送

文章目录 1 新建机器人2 API文档说明3 代码编写 1 新建机器人点击群设置下滑到群管理的机器人，点击进入添加机器人选择自定义Webhook服务点击添加设置安全设置，详见说明文档成功后，记录Webhook 2 API文档说明点击设置说明查看自…...

编程新知 2026/1/30 4:18:53

Redis：现代应用开发的高效内存数据存储利器

一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发，其初衷是为了满足他自己的一个项目需求，即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源，Redis凭借其简单易用、…...

编程新知 2025/11/15 1:41:43

RNN的变体

前言

一、长短期记忆网络（LSTM）

1.1 LSTM结构分析

1.1.1 遗忘门

1.1.1.1 遗忘门结构图与计算公式

1.1.1.2 结构分析

1.1.1.3 遗忘门的由来

1.1.1.4 遗忘门的内部演示

1.1.2 输入门

1.1.2.1 输入门结构图与计算公式

1.1.2.2 结构分析

1.1.2.3 输入门的内部演示

1.1.3 细胞状态

1.1.3.1 细胞状态结构图与计算公式

1.1.3.2 结构分析

1.1.3.3 细胞状态的内部演示

1.1.4 输出门

1.1.4.1 输出门的结构和计算公式

1.1.4.2 结构分析

1.1.4.3 输出门的内部演示

1.2 Bi-LSTM介绍

1.2.1 Bi-LSTM结构示意图

1.2.2 Bi-LSTM结构分析

1.3 代码演示

1.4 LSTM 的优缺点

二、门控循环单元（GRU）

2.1 概述

2.2 GRU内部结构图和计算公式

2.3 结构分析

2.4 Bi-GRU介绍

2.5 代码演示

2.6 GRU的优缺点

总结

相关文章：