当前位置：首页 > news >正文

七、传统循环神经网络(RNN)

news 2025/7/8 14:14:45

传统循环神经网络 RNN

前言
一、RNN 是什么？
- 1.1 RNN 的结构
- 1.2 结构举例
二、RNN 模型的分类
- 2.1 按照输入跟输出的结构分类
- 2.2 按照内部结构分类
三、传统 RNN 模型
- 3.1 RNN内部结构图
- 3.2 内部计算公式
- 3.3 其中 tanh 激活函数的作用
- 3.4 传统RNN优缺点
四、代码演示
总结

前言

前面我们学习了卷积神经网络CNN，通过对图像做卷积运算来提取到图片的局部特征，但是在文本中，我们该怎么对文本进行张量转换，并且让机器学习到文本前后的联系呢，接下里我们将对文本领域的循环神经网络进行讲解。

一、RNN 是什么？

RNN(Recurrent Neural Network)，中文称作循环神经网络：它一般以序列数据为输入，通过网络内部的结构设计有效捕捉序列之间的关系特征，一般也是以序列形式进行输出。

1.1 RNN 的结构

一般单层神经网络结构：
RNN单层网络结构：
以时间步对RNN进行展开后的单层网络结构：
RNN 的循环机制能够使模型的隐藏层上一步产生的结果，作为当下时间步输入的一部分（当下时间步的输入除了正常输入之外，还包括上一步的隐层输出）对当下时间步的输出产生影响。

1.2 结构举例

我们前面说RNN能有效捕捉序列之间的关系特征，下边我们举个例子：
假如用户输入了一段话：“What time is it ?”，那么机器是怎么捕捉他们之间的序列关系的呢？
- 第一步：先对输入的 “What time is it ?” 进行分词，因为RNN是按照输入顺序来工作的，每次都接受一个单词进行处理。
- 第二步：首先将一个单词 “What” 输入进RNN，他将产生一个输出 $O 1$
- 第三步：继续将单词 “time” 输入到 RNN，此时 RNN 不仅利用 “time” 来产生 $O 2$ ，还会使用上次隐藏层的输出 $O 1$ 作为输入信息
- 第四步：重复第三步，知道将所有单词输入
- 第五步：最后将隐藏层的输出 $O 5$ 进行处理来理解用户意图

二、RNN 模型的分类

2.1 按照输入跟输出的结构分类

N vs N
- 这种结构是RNN最基础的机构形式，最大的特点就是：输入跟输出序列是等长的
- 由于这种限制的存在，使其适用范围较小，可以用于生成的等长的诗句或对联。
N vs 1
- 当我们输入的问题是一个序列，而要求输出是单个的一个值而不是序列，这时候我们就要在最后一个隐藏层的输出上进行线性变化了。
- 大部分情况下，为了更好的明确结果，还要使用 sigmoid 或者 softmax 进行处理，这样的结构经常用于文本分类问题上。
1 vs N
- 如果输入的不是一个序列，而要求输出是一个序列，那我们就要让每次的输入都作用到每次的输出上
- 一般用来将图片生成文字任务、
N vs M
- 这是一种不限输入输出长度的RNN结构，它由编码器和解码器两部分组成，两者的内部结构都是某类RNN，它也被称为 seq2seq 架构
- 输入数据首先通过编码器，最终输出一个隐含变量 $c$ ，之后最常用的做法是使用这个隐含变量 $c$ 作用在解码器进行解码的每一步上，以保证输入信息被有效利用。
seq2seq架构最早被提出应用于机器翻译，因为其输入输出不受限制，如今也是应用最广的RNN模型结构。
在机器翻译, 阅读理解, 文本摘要等众多领域都进行了非常多的应用实践。

2.2 按照内部结构分类

我们先介绍分为几种，对于其工作原理
在之后的章节中，我们再进行详细讨论
- 传统RNN
- LSTM
- Bi-LSTM
- GRU
- Bi-GRU

三、传统 RNN 模型

3.1 RNN内部结构图

在这里插入图片描述

解释：
- 隐藏层也就是循环层接收到的是当前时间步的输入 $X_t$ 和上个时间步的隐藏层的输出 $h_{t-1}$
- 这两个进入RNN结构体中，各自有跟权重矩阵进行运算以后，会融合到一起（也就是拼接到一起），形成新的张量 $X_t , h_{t-1}]$
- 之后这个张量经过一个全连接层（线性层），该层使用 tanh 作为激活函数，最终得到当前时间步的输出 $h_t$
- 最后，当前时间步的输出 $h_t$ 将和下一个时间步的输入 $X_{t+1}$ 一起进入结构体

3.2 内部计算公式

在这里插入图片描述
$h_t = \tanh(X_t W_{ih}^T + b_{ih} + h_{t-1}W_{hh}^T + b_{hh})$

$W_{ih}$ 表示输入数据的权重
$b_{ih}$ 表示输入数据的偏置
$W_{hh}$ 表示隐藏状态的权重
$b_{hh}$ 表示隐藏状态的偏置

3.3 其中 tanh 激活函数的作用

非线性映射：
- RNN中的线性层（也称为全连接层或仿射变换）仅仅是对输入进行线性组合，而tanh函数则引入了非线性特性。这使得RNN能够学习和表示更复杂的输入-输出关系，因为非线性映射能够捕捉数据中的非线性特征。
值域限制：
- tanh函数的输出值域为(-1, 1)，这有助于将神经元的输出限制在一个合理的范围内。与sigmoid函数类似，tanh函数也能够在一定程度上缓解梯度消失的问题（尽管在非常深的网络中仍然可能存在），因为梯度在值域内不会趋于零。
中心化输出：
- tanh函数的输出是中心化的，即均值为0。这有助于在训练过程中保持数据的分布相对稳定，有助于加快收敛速度和提高模型的稳定性。
梯度传播：
- 在反向传播过程中，tanh函数的导数（即梯度）在输入接近0时最大，而在输入接近-1或1时接近0。这意味着当神经元的输出接近极端值时，梯度会变小，可能导致梯度消失问题。

3.4 传统RNN优缺点

优势
- 由于内部结构简单，对计算资源要求低，相比之后我们要学习的RNN变体：LSTM和GRU模型参数总量少了很多，在短序列任务上性能和效果都表现优异
缺点
- 传统RNN在解决长序列之间的关联时，通过实践，证明经典RNN表现很差，原因是在进行反向传播的时候，过长的序列导致梯度的计算异常，发生梯度消失或爆炸。

四、代码演示

演示代码 1 ：

import torch
from torch import nndef my_rnn_dm01():'''RNN 的三个参数的含义第一个参数：input_size(输入张量 x 的维度)第二个参数：hidden_size(隐藏层的维度,隐藏层的神经元个数)第三个参数：num_layer(隐藏层的数量)'''rnn = nn.RNN(5, 6, 1)'''input 的三个参数的含义第一个参数：sequence_length(输入序列的长度)第二个参数：batch_size(批次的样本数量)第三个参数：input_size(输入张量的维度)'''input = torch.randn(5, 3, 5)'''output 的三个参数的含义第一个参数：num_layer * num_directions(层数*网络方向)第二个参数：batch_size(批次的样本数)第三个参数：hidden_size(隐藏层的维度, 隐藏层神经元的个数)'''# h0 = torch.randn(1, 5, 6) # output, hn = rnn(input, h0) # h0 可以传也可以不传output, hn = rnn(input)print(output.shape)  # torch.Size([5, 3, 6])print(output)# print(hn.shape)# print(hn)

演示代码 2 ：

def my_rnn_dm02():'''RNN 的三个参数的含义第一个参数：input_size(输入张量 x 的维度)第二个参数：hidden_size(隐藏层的维度,隐藏层的神经元个数)第三个参数：num_layer(隐藏层的数量)第四个参数：输入层可以把 batch_size参数 放在一个位置'''rnn = nn.RNN(5, 6, 1, batch_first=True)'''input 的三个参数的含义第一个参数：batch_size(批次的样本数量)第二个参数：sequence_length(输入序列的长度)第三个参数：input_size(输入张量的维度)'''input = torch.randn(3, 20, 5)'''output 的三个参数的含义第一个参数：num_layer * num_directions(层数*网络方向)第二个参数：batch_size(批次的样本数)第三个参数：hidden_size(隐藏层的维度, 隐藏层神经元的个数)'''output, hn = rnn(input)print(output.shape)  # torch.Size([3, 20, 6])print(output)

总结

以上就是传统RNN的基本内容

七、传统循环神经网络(RNN)

传统循环神经网络 RNN 前言一、RNN 是什么？1.1 RNN 的结构1.2 结构举例二、RNN 模型的分类2.1 按照输入跟输出的结构分类2.2 按照内部结构分类三、传统 RNN 模型3.1 RNN内部结构图3.2 内部计算公式3.3 其中 tanh 激活函数的作用3.4 传统RNN优缺点四、代码演示…...

编程日记 2024/11/28 16:21:36

LeetCode：19.删除链表倒数第N个节点

跟着carl学算法，本系列博客仅做个人记录，建议大家都去看carl本人的博客，写的真的很好的！ 代码随想录 LeetCode：19.删除链表倒数第N个节点给你一个链表，删除链表的倒数第 n 个结点，并且返回链表…...

编程日记 2024/11/28 16:19:33

【RISC-V CPU debug 专栏 2 -- Debug Module (DM), non-ISA】

文章目录调试模块（DM）功能必须支持的功能可选支持的功能兼容性要求规模限制Debug Module Interface (DMI)总线类型地址与操作地址空间控制机制Debug Module Interface Signals请求信号响应信号信号流程Reset Control复位控制方法全局复位 (`ndmreset`)Hart 复位 (`hartreset…...

编程日记 2024/11/28 16:18:32

单片机学习笔记 11. 外部中断

更多单片机学习笔记：单片机学习笔记 1. 点亮一个LED灯单片机学习笔记 2. LED灯闪烁单片机学习笔记 3. LED灯流水灯单片机学习笔记 4. 蜂鸣器滴~滴~滴~单片机学习笔记 5. 数码管静态显示单片机学习笔记 6. 数码管动态显示单片机学习笔记 7. 独立键盘单片机学习笔记 8…...

编程日记 2024/11/28 16:17:30

基于stm32的智能教室管理系统/智能家居系统

基于stm32的智能教室管理系统/智能家居系统持续更新，欢迎关注!!! ** 基于stm32的智能教室管理系统/智能家居系统 ** 目前，物联网已广泛应用在我们的生活中。智慧校园是将校园中的生活、学习、工作等相关的资源联系在一起，实现管理的智能化…...

编程日记 2024/11/28 16:16:28

基于 Qt 和 GStreamer 的环境中构建播放器

一、功能与需求分析功能描述播放本地视频文件（如 MP4、MKV）。支持基本控制功能（播放、暂停、停止、跳转）。提供音量调节功能。在 Windows 环境下使用 Visual Studio 2022 编译。技术选型 Qt：用于构建用户界面。 GStreamer：负责视频解码和播放。 Visual Studio 202…...

编程日记 2024/11/28 16:15:27

windows docker 入门

这个教程将指导你如何安装Docker、运行第一个容器以及理解一些基本概念。第一步：安装Docker Desktop for Windows 系统要求： Windows 10 64位版本（专业版、企业版或教育版）。启用Hyper-V和Windows Subsystem for Linux (WSL 2)。…...

编程日记 2024/11/28 16:14:26

1 主要异常信息 Error creating bean with name dataSource 但是有个重要提示 dynamic-datasource Please check the setting of primary 解决方法： <dependency><groupId>com.baomidou</groupId><artifactId>dynamic-datasource-spring…...

编程日记 2024/11/28 16:12:23

深度学习中的正则化模型是什么意思？

一、定义在深度学习中，正则化是一种用于防止过拟合的技术。过拟合是指模型在训练数据上表现非常好，但在新的、未见过的数据（测试数据）上表现很差的情况。正则化模型就是通过在损失函数中添加额外的项来约束模型的复杂度&#xf…...

编程日记 2024/11/28 16:11:21

修改IDEA配置导致Spring Boot项目读取application.properties中文乱码问题

之前很多配置都是放在nacos里面，然后这次同事有个配置写在application.properties中，这个配置含有中文，启动之后发现拿到的中文值会乱码，然后就帮忙看了一下问题。排查问题经过不停的百度、排查发现，spring读取app…...

编程日记 2024/11/28 16:10:19

Flink 热存储维表使用 Guava Cache 减轻访问压力

目录背景 Guava Cache 简介实现方案 1. 项目依赖 2. Guava Cache 集成到 Flink (1) 定义 Cache (2) 使用 Cache 优化维表查询 3. 应用运行效果 (1) 维表查询逻辑优化 (2) 减少存储压力 Guava Cache 配置优化总结背景在实时计算场景中，Flink 应用中…...

编程日记 2024/11/28 16:09:16

深入探索SenseVoiceSmall：高效多语言语音识别与处理模型

引言随着人工智能技术的飞速发展，语音识别技术已经广泛应用于智能助手、客户服务、智能家居等多个领域。然而，现有的语音识别模型往往存在资源消耗大、多语言支持不足等问题。今天，我们要介绍的是来自ModelScope平台的SenseVoiceSmall模型&…...

编程日记 2024/11/28 16:08:14

Flink--API 之Transformation-转换算子的使用解析

目录一、常用转换算子详解 （一）map 算子 （二）flatMap 算子 （三）filter 算子 （四）keyBy 算子元组类型 POJO （五）reduce 算子二、合并与连接操作 …...

编程日记 2024/11/28 16:01:05

每日十题八股-2024年11月27日

1.类型互转会出现什么问题吗？ 2.为什么用bigDecimal 不用double ？ 3.装箱和拆箱是什么？ 4.Java为什么要有Integer？ 5.Integer相比int有什么优点？ 6.那为什么还要保留int类型？ 7.说一下 integer的缓存 8.怎么…...

编程日记 2024/11/28 16:00:03

OpenCV截取指定图片区域

import cv2 img cv2.imread(F:/2024/Python/demo1/test1/man.jpg) cv2.imshow(Image, img) # 显示图片 #cv2.waitKey(0) # 等待按键x, y, w, h 500, 100, 200, 200 # 示例坐标 roi img[y:yh, x:xw] # 截取指定区域 cv2.imshow(ROI, roi) cv2.waitKey(0) cv…...

编程日记 2024/11/28 15:57:00

Java部分新特性

模式匹配 instance of 模式匹配之前写法 public void print(Object o) {if (o instanceof String){String str (String) obj;System.out.println("This is a String of length " s.length());} else {System.out.println("This is not a String");} …...

编程日记 2024/11/28 15:55:59

【SpringBoot】28 API接口防刷（Redis + 拦截器）

Gitee仓库 https://gitee.com/Lin_DH/system 介绍常用的 API 安全措施包括：防火墙、验证码、鉴权、IP限制、数据加密、限流、监控、网关等，以确保接口的安全性。常见措施 1）防火墙防火墙是网络安全中最基本的安全设备之一&#xff0c…...

编程日记 2024/11/28 15:53:57

IT运维专家给年轻人一些职业上的建议

运维工作在现代企业中是非常重要的一环，保证系统的稳定性、可用性以及安全性对企业的正常运营至关重要。以下是我给年轻人的一些职业发展建议，希望能够帮助你们在运维领域找到方向并取得成功。 1. 夯实基础，扎实技术功底精通操作系统与网络：运维工作需要深入理解操作系统…...

编程日记 2024/11/28 15:48:51

Django基础之路由

一.前言前面我们说了django的安装于基础配置，基础知识点我就细分下来，每天和大家讲一点，今天就要和大家说django的基础知识点了，我们今天先来讲路由，内容不多，希望大家记住二.传统路由路由就是前面一个…...

编程日记 2024/11/28 15:45:46

Python实例化中默认值的行为及应用

Python实例化中默认值的行为及应用适合初学者阅读本文要点使用可变对象作为默认参数会导致所有实例共享同一对象，引发意外的数据修改。不可变对象作为默认参数时，每次实例化都会创建新的对象，不会共享数据。推荐使用None作为默认值&…...

编程日记 2024/11/28 15:43:42

铭豹扩展坞 USB转网口突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别，但在其他电脑上正常工作时，问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤，帮助你快速找到故障原因：背景：一个M-pard（铭豹）扩展坞的网卡突然无法识别了，扩展出来的三个USB接口正常。…...

编程新知 2025/7/7 5:19:14

AI-调查研究-01-正念冥想有用吗？对健康的影响及科学指南

点一下关注吧！！！非常感谢！！持续更新！！！ 🚀 AI篇持续更新中！（长期更新） 目前2025年06月05日更新到： AI炼丹日志-28 - Aud…...

编程新知 2025/7/8 12:04:41

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

微软PowerBI考试 PL300-选择 Power BI 模型框架 20 多年来，Microsoft 持续对企业商业智能 (BI) 进行大量投资。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于无数企业使用的成熟的 BI 数据建模技术。同样的技术也是 Power BI 数据…...

编程新知 2025/7/8 7:24:54

【位运算】消失的两个数字（hard）

消失的两个数字（hard） 题⽬描述：解法（位运算）：Java 算法代码：更简便代码题⽬链接：⾯试题 17.19. 消失的两个数字题⽬描述： 给定⼀个数组，包含从 1 到 N 所有…...

编程新知 2025/7/8 4:43:23

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块，用户不点击提交按钮，只要输入框失去焦点，就会提前提示验证码是否正确。一，模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

编程新知 2025/7/7 20:47:23

JUC笔记(上)-复习涉及死锁 volatile synchronized CAS 原子操作

一、上下文切换即使单核CPU也可以进行多线程执行代码，CPU会给每个线程分配CPU时间片来实现这个机制。时间片非常短，所以CPU会不断地切换线程执行，从而让我们感觉多个线程是同时执行的。时间片一般是十几毫秒(ms)。通过时间片分配算法执行。…...

编程新知 2025/7/6 21:36:13

第 86 场周赛：矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词

Q1、[中等] 矩阵中的幻方 1、题目描述 3 x 3 的幻方是一个填充有从 1 到 9 的不同数字的 3 x 3 矩阵，其中每行，每列以及两条对角线上的各数之和都相等。给定一个由整数组成的row x col 的 grid，其中有多少个 3 3 的 “幻方” 子矩阵&am…...

编程新知 2025/7/8 3:25:42

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象，只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意：它移动的位置必须是相连的有内容的单元格…...

编程新知 2025/7/6 14:32:21

有限自动机到正规文法转换器v1.0

1 项目简介这是一个功能强大的有限自动机（Finite Automaton, FA）到正规文法（Regular Grammar）转换器，它配备了一个直观且完整的图形用户界面，使用户能够轻松地进行操作和观察。该程序基于编译原理中的经典…...

编程新知 2025/7/7 6:14:27

面向无人机海岸带生态系统监测的语义分割基准数据集

描述：海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而，目前该领域仍面临一个挑战，即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

编程新知 2025/7/8 7:50:08