当前位置：首页 > news >正文

【深度学习】05-RNN循环神经网络-02- RNN循环神经网络的发展历史与演化趋势/LSTM/GRU/Transformer

news 2026/2/8 20:34:19

RNN网络的发展历史与演化趋势

RNN（Recurrent Neural Network，循环神经网络）是一类用于处理序列数据的神经网络，特别擅长捕捉数据的时间或上下文依赖性。在其发展的过程中，不断出现各种改进和变体，以解决不同的问题。我们可以从时间线的角度来梳理RNN的历史发展、发明背景、以及关键应用

1. 1980s-1990s：RNN的早期提出与梯度问题

1986年：反向传播算法

背景：在此之前，神经网络的训练是一个巨大的挑战，尤其是在多层网络的情况下。训练复杂网络需要传播误差信息，但没有有效的方法来解决这个问题。
提出者：David Rumelhart 等人。
贡献：提出了反向传播算法（Backpropagation），为训练多层神经网络提供了理论基础。随后，反向传播算法被扩展为通过时间的反向传播（Backpropagation Through Time, BPTT），使得RNN可以在时间维度上传播误差信息并更新参数。
局限性：尽管BPTT为训练RNN提供了方法，但RNN仍然面临着梯度消失和梯度爆炸问题，特别是在处理长时间序列时。梯度在反向传播的过程中要么变得过小，导致无法有效更新参数，要么过大，导致梯度爆炸，无法收敛。

1990年：Hopfield网络与递归网络

背景：Hopfield网络是早期递归网络的一种形式，主要用于记忆模型和时间序列数据。
提出者：John Hopfield。
贡献：提出了将神经网络用于动力学系统和联想记忆的概念。虽然Hopfield网络的思路启发了后续递归网络的研究，但它在处理复杂长时间依赖任务时效果有限。
局限性：与早期RNN一样，Hopfield网络难以处理长时间依赖，因为它无法有效解决梯度消失问题。

2. 1997年：LSTM的提出（为了解决梯度消失问题）

背景

问题：传统RNN由于梯度消失问题，难以捕捉长时间序列中的依赖关系，模型无法记住远距离的上下文信息，尤其在长时间序列的数据处理任务（如文本、时间序列预测）中，表现受限。

解决方案：LSTM（Long Short-Term Memory，长短期记忆网络）的引入就是为了解决梯度消失问题，使得RNN能够有效地记住长期依赖。

提出者

Sepp Hochreiter 和 Jürgen Schmidhuber。

LSTM的核心机制

记忆单元和门控机制：LSTM通过设计输入门、遗忘门和输出门来控制信息在网络中的流动：

这种设计使得LSTM能够动态调节信息的保留和遗忘，从而更好地捕捉长期依赖关系。

输入门决定新信息如何进入单元。
遗忘门决定旧信息是否应该被丢弃。
输出门决定当前时刻的输出。

应用场景

自然语言处理（NLP）：LSTM能够在长文本的处理过程中捕捉到远距离的依赖关系，提升了翻译、文本生成等任务的性能。
语音识别：语音识别任务中的语音信号具有长时间依赖性，LSTM在捕捉语音片段间的关联上表现出色。

3. 2014年：GRU的提出（简化LSTM）

背景

问题：尽管LSTM解决了梯度消失问题，但其结构较为复杂，计算开销较大。为提高计算效率，同时保留长时间依赖的处理能力，研究者们希望设计出更简洁的网络结构。
解决方案：门控循环单元（Gated Recurrent Unit, GRU）的提出，是对LSTM的简化版本。

提出者

Kyunghyun Cho等人。

GRU的核心机制

两门机制：GRU去掉了LSTM中的输出门，只保留了重置门和更新门，从而简化了网络结构。

重置门：控制当前输入与过去信息的融合程度。
更新门：控制新旧信息的交换程度，类似于LSTM的遗忘门。

优势

GRU在某些任务中的表现与LSTM相当，但由于结构更简单，GRU具有更快的训练速度和更低的计算成本。

应用场景

文本分类、文本生成：GRU因其计算效率，在自然语言处理的多个任务中被广泛应用，特别是文本分类和机器翻译。

4. 2017年：注意力机制与Transformer的提出

背景

问题：尽管LSTM和GRU在处理长时间依赖任务中表现优秀，但RNN的序列化处理特性使得它无法并行计算，训练速度相对较慢，尤其是处理超长序列时效率较低。
解决方案：Transformer模型通过引入自注意力机制（Self-Attention），彻底摆脱了RNN的循环结构，可以并行处理序列数据，极大提升了训练速度和性能。

提出者

Ashish Vaswani 等人在2017年提出。

Transformer的核心机制

自注意力机制：每个输入单元通过计算与序列中所有其他单元的关系，生成上下文依赖。这样，Transformer无需依赖时间步的前后顺序即可捕捉到序列中的远距离依赖。
并行处理：Transformer允许序列中的每个位置并行处理数据，解决了RNN不能并行处理的局限性。

应用场景

自然语言处理（NLP）：Transformer在NLP任务中迅速崛起，特别是在机器翻译、文本生成和语言建模等任务中大放异彩。基于Transformer的模型，如BERT和GPT，已经成为主流模型，几乎取代了RNN在许多任务中的地位。

BERT（Bidirectional Encoder Representations from Transformers）：Google在2018年发布的预训练模型，利用双向Transformer捕捉上下文依赖，广泛应用于问答、分类、情感分析等任务。
GPT（Generative Pre-trained Transformer）：OpenAI基于Transformer架构提出的生成模型，能够进行高质量的文本生成和对话系统构建，极大提升了自然语言生成任务的性能。

语音识别与合成：Transformer也被应用于语音识别与语音合成任务中，如Transformer-TTS，使得语音合成质量更自然。

5. RNN的改进与变体

随着时间推移，研究者们不断对RNN进行改进，以增强其对复杂序列数据的处理能力。这些变体在不同任务中发挥了独特作用。

5.1. 双向RNN（Bidirectional RNN）

问题：在许多任务中，单向RNN只能从前向后处理序列信息，但实际序列中的信息可能同时依赖于前后文。
解决方案：双向RNN通过在两个方向上同时处理序列信息，使得模型既可以依赖前序信息，也可以利用后序信息。

提出者

Mike Schuster 和 Kuldip K. Paliwal 在1997年提出。

双向RNN的优势

在自然语言处理任务中，当前单词不仅依赖于前面的单词，也依赖于后面的单词。例如，处理句子“我爱你”的时候，双向RNN能够更好地理解“我”与“你”之间的联系。

应用场景

语音识别：双向RNN（如双向LSTM）在语音识别任务中表现尤为优异。例如，Google的语音助手、百度的Deep Speech等语音识别系统广泛采用双向LSTM来处理语音信号。
机器翻译：双向RNN在机器翻译任务中，通过同时捕捉源语言和目标语言的上下文信息，提升了翻译的准确性和流畅度。

5.2. 深度RNN（Deep RNN）

问题：原始的RNN层数较少，无法充分捕捉复杂序列中的深层次依赖。
解决方案：通过堆叠多个RNN层形成深度RNN，可以提升模型的表达能力和对复杂时序任务的处理效果。

提出者

Alex Graves等人在2013年率先提出深度RNN，通过增加网络层数来提升模型的表达能力。

深度RNN的优势

处理复杂序列依赖：通过多层RNN堆叠，深度RNN能够捕捉到更复杂的时间序列关系，并具备更高的特征抽象能力。

应用场景

语音识别：Baidu的Deep Speech 2系统采用了深度双向LSTM，通过训练深度网络，语音识别的准确率得到了显著提升，特别是在嘈杂环境下的表现更加优异。
时间序列预测：深度RNN在金融、气象等领域的时间序列预测任务中表现突出，能够捕捉更复杂的模式。

6. RNN的局限与Transformer的崛起

6.1. RNN的局限性

尽管RNN及其变体（LSTM、GRU）解决了很多序列处理中的问题，但仍存在以下局限：

并行化困难：RNN由于其依赖于前后时间步的计算结果，难以并行处理，训练速度较慢。
长距离依赖问题：即使是LSTM和GRU，在处理极长的序列时，仍然面临一定程度的长距离依赖困难，信息可能随着时间步衰减。

6.2. Transformer的崛起（2017年）

背景：RNN的计算限制（如不能并行化）推动了新的模型结构的探索。Transformer通过自注意力机制完全摆脱了循环结构，使得模型能够并行处理序列，并极大提升了长距离依赖问题的解决能力。
Transformer的优势：
- 并行计算：序列中的所有位置都可以同时进行计算，大大提高了训练速度。
- 长距离依赖：自注意力机制能够捕捉到序列中任意距离的依赖关系，而无需像RNN那样逐步传递信息。
应用场景：Transformer的出现使得RNN在NLP中的地位逐渐被取代。
- BERT和GPT等基于Transformer的模型在机器翻译、文本生成、文本分类等任务中表现优异，已成为NLP领域的标准模型。

7. 近期RNN的应用与未来趋势

尽管Transformer在NLP等领域迅速崛起，但RNN及其变体（LSTM、GRU）仍在许多领域发挥着重要作用，特别是在处理需要时间序列建模的任务中。

7.1. 近期应用

金融领域：LSTM和GRU仍然广泛应用于股票市场预测、期货分析等金融时间序列数据的建模中。
医疗领域：在医学诊断、病人生命体征监控等任务中，LSTM用于处理复杂的时间序列数据，帮助预测病情发展。
语音处理：尽管Transformer模型逐步进入语音识别领域，但在低资源和小规模的应用场景中，RNN（尤其是GRU）仍然表现优异。

7.2. 未来趋势

Transformer模型的进一步扩展：Transformer模型已经在自然语言处理和计算机视觉领域取得了显著成果，未来的趋势是更多任务和领域转向Transformer架构。
RNN与其他网络的结合：未来可能会出现更多RNN与CNN、RNN与Transformer结合的混合模型，以充分利用不同模型的优势。

总结

RNN的早期发展：RNN的提出解决了序列数据的建模问题，但面临梯度消失和梯度爆炸的挑战。
LSTM和GRU的提出：LSTM和GRU通过门控机制缓解了梯度消失问题，使得RNN能够有效处理长时间依赖。
Transformer的崛起：Transformer通过自注意力机制替代了RNN，解决了并行化和长距离依赖的问题，逐渐取代RNN成为NLP中的主流模型。
RNN的应用与未来：尽管Transformer正在许多领域取代RNN，但RNN仍在时间序列预测、语音处理和金融分析等领域发挥着重要作用。未来，RNN与其他模型的结合将成为重要发展方向。

【深度学习】05-RNN循环神经网络-02- RNN循环神经网络的发展历史与演化趋势/LSTM/GRU/Transformer

RNN网络的发展历史与演化趋势 RNN（Recurrent Neural Network，循环神经网络）是一类用于处理序列数据的神经网络，特别擅长捕捉数据的时间或上下文依赖性。在其发展的过程中，不断出现各种改进和变体，以解决不…...

编程日记 2024/9/28 9:39:08

C++学习9.27

1、顺序表、栈、队列都更改成模板类 （1）顺序表 #include <iostream> #include <cstring>using namespace std;template <typename T1,typename T2,typename T3> class My_string { private:T1 *ptr; //指向字符数组的指针T2…...

编程日记 2024/9/28 9:38:07

【STM32开发环境搭建】-1-Keil(MDK) 5.27软件安装和注册教程

目录 1 安装前装备工作 2 安装KEIL(MDK-ARM) 5.27软件 3 注册KEIL(MDK-ARM) 5.27软件，获取License许可证 4 手动安装STM32F0，STM32F1，STM32F4，STM32F7，STM32H7的支持包 4.1 下载STM32的支持包 4.2 安装STM32的支…...

编程日记 2024/9/28 9:36:05

武汉正向科技格雷母线公司，无人天车系统，采用格雷母线定位技术

正向科技-格雷母线高精确定位技术-实操视频高精度格雷母线内胆采用刚性内胆，基板采用精密度数控加工工艺，穿线卡采用高精度模具制作，不采用泡沫板填充，提高了地址检测精度和线性度。最新一代的格雷母线定位技术特点是全数字化检…...

编程日记 2024/9/28 9:32:01

【保姆级教程】批量下载Pexels视频Python脚本（以HumanVid数据集为例）

目录方案一：转换链接为download模式方案二：获取源链接后下载附录：HumanVid链接方案一：转换链接为download模式将下载链接的后缀加入 /download 然后用下面的脚本下载： import argparse import json import o…...

编程日记 2024/9/28 9:31:00

Python画笔案例-067 绘制配乐七角星

1、绘制橙子通过 python 的turtle 库绘制配乐七角星，如下图： 2、实现代码绘制配乐七角星，以下为实现代码： """配乐七角星.py本程序需要coloradd模块支持,安装方法:pip install coloradd""" import turtle from coloradd import color…...

编程日记 2024/9/28 9:29:59

Spark Job 对象详解

在 Apache Spark 中，Job 对象是执行逻辑的核心组件之一，它代表了对一系列数据操作（如 transformations 和 actions）的提交。理解 Job 的本质和它在 Spark 中的运行机制，有助于深入理解 Spark 的任务调度、执行模型和容…...

编程日记 2024/9/28 9:27:57

C#中NModbus4中常用的方法

NModbus4 是一个用于 Modbus 协议通信的 C# 库，它支持串行 ASCII、RTU、TCP 和 UDP 协议。以下是 NModbus4 中常用的一些方法： 创建连接： ModbusSerialMaster.CreateRtu(SerialPort serialPort): 创建一个 RTU 串行连接。ModbusSerialMaster.…...

编程日记 2024/9/28 9:23:52

【Linux】线程同步与互斥

一、线程间互斥 1 .进程线程间的互斥相关概念临界资源：多线程执行流共享的资源就叫做临界资源临界区：每个线程内部，访问临界资源的代码，就叫做临界区互斥：任何时刻，互斥保证有且只有一个执行流进入临界…...

编程日记 2024/9/28 9:22:51

1. nginx配置404跳转回默认路由 https://blog.csdn.net/masteryee/article/details/83689954 https://blog.csdn.net/IbcVue/article/details/133230460 https://www.jb51.net/server/317970ynk.htm https://blog.csdn.net/u014438244/article/details/120531287 https://blog…...

编程日记 2024/9/28 9:20:49

Eclipse 快捷键：提高开发效率的利器

Eclipse 快捷键：提高开发效率的利器 Eclipse 是一款广泛使用的集成开发环境（IDE），它为Java、C、PHP等编程语言提供了强大的开发支持。对于开发者来说，熟练掌握Eclipse的快捷键不仅能提高编码效率，还能减少…...

编程日记 2024/9/28 9:19:48

Agent智能体

Agent（智能体）是一个能够感知环境并采取行动的自主实体，通常被设计用于在特定的环境中执行任务。智能体可以通过学习、推理等方式来决策，目标是最大化某种效用或实现某个预定的目标。它们广泛应用于自动化系统、游戏AI、机器人、自…...

编程日记 2024/9/28 9:17:47

用Promise实现前端并发请求

/** * 构造假请求 */ async function request(url) {return new Promise((resolve) > {setTimeout(() > {resolve(url);},// Math.random() * 500 800,1000,);}); }请求一次，查看耗时，预计应该是1s： async function requestOnce() {c…...

编程日记 2024/9/28 9:16:46

通过队列实现栈

请你仅使用两个队列实现一个后入先出（LIFO）的栈，并支持普通栈的全部四种操作（push、top、pop 和 empty）。实现 MyStack 类： void push(int x) 将元素 x 压入栈顶。int pop() 移除并返回栈顶元素。int to…...

编程日记 2024/9/28 9:14:44

Mac下可以平替paste的软件pastemate，在windows上也能用，还可以实现数据多端同步

Mac平台上非常经典的剪贴板管理工具：「Paste」。作为一款功能完善且易用的工具，「Paste」在实际使用中体现出了许多令人欣赏的特点。但是它是一个收费软件，一年至少要24美元. 现有一平替软件pastemate,功能更加丰富,使用更加方便。下载地址…...

编程日记 2024/9/28 9:13:43

106. 从中序与后序遍历序列构造二叉树

文章目录 106. 从中序与后序遍历序列构造二叉树思路 105. 从前序与中序遍历序列构造二叉树思路思考 106. 从中序与后序遍历序列构造二叉树 106. 从中序与后序遍历序列构造二叉树给定两个整数数组 inorder 和postorder，其中 inorder 是二叉树的中序遍历&#xff…...

编程日记 2024/9/28 9:11:41

监控和日志管理：深入了解Nagios、Zabbix和Prometheus

在现代IT运维中，监控和日志管理是确保系统稳定性和性能的关键环节。本文将介绍三种流行的监控工具：Nagios、Zabbix和Prometheus，帮助您了解它们的特点、使用场景以及如何进行基本配置。一、Nagios Nagios 是一个强大的开源监控系统&#x…...

编程日记 2024/9/28 9:10:40

Win10下载Python：一步步指南

Win10下载Python：一步步指南在Win10操作系统中下载并安装Python可能是一项挑战性的任务，但是在本文中，我们将向您提供三个不同的方法，以便轻松地完成这项任务。方法一：使用Microsoft Store Microsoft Store是一个…...

编程日记 2024/9/28 9:09:38

Race Karts Pack 全管线卡丁车赛车模型素材

是8辆高细节、可定制的赛车，内部有纹理。经过优化，可在手机游戏中使用。Unity车辆系统已实施-准备驾驶。此套装包含8种不同的车辆，每种车辆有8-10种颜色变化，总共有75种车辆变化！技术细节： -每辆卡丁车模型使用4种材料（车身、玻璃、车轮和BrakeFlare）纹理大小： -车…...

编程日记 2024/9/28 9:08:37

C#——switch案例讲解

案例：根据输入的内容判断执行哪一条输出语句 string number txtUserName.Text; switch(number) { case"101":MessageBox.Show("您进入了101房间");break; case"102":MessageBox.Show("您进入了102房间");break; case&quo…...

编程日记 2024/9/28 9:07:35

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2026/1/27 18:11:42

【论文笔记】若干矿井粉尘检测算法概述

总的来说，传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度，通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

编程新知 2025/10/14 10:52:24

【决胜公务员考试】求职OMG——见面课测验1

2025最新版！！！6.8截至答题，大家注意呀！ 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:（ B ） A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

编程新知 2025/11/8 16:25:01

SpringTask-03.入门案例

一.入门案例启动类： package com.sky;import lombok.extern.slf4j.Slf4j; import org.springframework.boot.SpringApplication; import org.springframework.boot.autoconfigure.SpringBootApplication; import org.springframework.cache.annotation.EnableCach…...

编程新知 2026/2/2 0:35:08

算法：模拟

1.替换所有的问号 1576. 替换所有的问号 - 力扣（LeetCode） 遍历字符串：通过外层循环逐一检查每个字符。遇到 ? 时处理： 内层循环遍历小写字母（a 到 z）。对每个字母检查是否满足： 与…...

编程新知 2026/1/25 10:01:01

[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好，我是java1234_小锋老师，看到一个不错的微信小程序问卷调查系统(SpringBoot后端Vue管理端)【论文源码SQL脚本】，分享下哈。项目视频演示【免费】微信小程序问卷调查系统(SpringBoot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibili 项…...

编程新知 2026/1/29 5:39:49

【Linux手册】探秘系统世界：从用户交互到硬件底层的全链路工作之旅

目录前言操作系统与驱动程序是什么，为什么怎么做 system call 用户操作接口总结前言日常生活中，我们在使用电子设备时，我们所输入执行的每一条指令最终大多都会作用到硬件上，比如下载一款软件最终会下载到硬盘上&am…...

编程新知 2026/2/6 5:39:10

Linux部署私有文件管理系统MinIO

最近需要用到一个文件管理服务，但是又不想花钱，所以就想着自己搭建一个，刚好我们用的一个开源框架已经集成了MinIO，所以就选了这个我这边对文件服务性能要求不是太高，单机版就可以安装非常简单，几个命令就…...

编程新知 2026/2/7 17:45:38

rknn toolkit2搭建和推理

安装Miniconda Miniconda - Anaconda Miniconda 选择一个新的版本 ，不用和RKNN的python版本保持一致使用 ./xxx.sh进行安装下面配置一下载源 # 清华大学源（最常用） conda config --add channels https://mirrors.tuna.tsinghua.edu.cn…...

编程新知 2026/2/7 7:52:41

小智AI+MCP

什么是小智AI和MCP 如果还不清楚的先看往期文章手搓小智AI聊天机器人 MCP 深度解析：AI 的USB接口如何使用小智MCP 1.刷支持mcp的小智固件 2.下载官方MCP的示例代码 Github：https://github.com/78/mcp-calculator 安这个步骤执行其中MCP_ENDPOI…...

编程新知 2026/2/8 11:51:37

RNN网络的发展历史与演化趋势

1. 1980s-1990s：RNN的早期提出与梯度问题

1986年：反向传播算法

1990年：Hopfield网络与递归网络

2. 1997年：LSTM的提出（为了解决梯度消失问题）

背景

LSTM的核心机制

应用场景

3. 2014年：GRU的提出（简化LSTM）

背景

提出者

GRU的核心机制

优势

应用场景

4. 2017年：注意力机制与Transformer的提出

背景

提出者

Transformer的核心机制

应用场景

5. RNN的改进与变体

5.1. 双向RNN（Bidirectional RNN）

提出者

双向RNN的优势

应用场景

5.2. 深度RNN（Deep RNN）

提出者

深度RNN的优势

应用场景

6. RNN的局限与Transformer的崛起

6.1. RNN的局限性

6.2. Transformer的崛起（2017年）

7. 近期RNN的应用与未来趋势

7.1. 近期应用

7.2. 未来趋势

总结

相关文章：