当前位置：首页 > news >正文

深度学习--------------------------------门控循环单元GRU

news 2026/2/8 2:04:05

门

$R_t$ 就是重置， $Z_t$ 就是更新
门是跟隐藏状态同样长度的一个向量，计算方式跟RNN的隐藏状态是一样的。
在这里插入图片描述

在这里插入图片描述

候选隐状态

在这里插入图片描述

在这里插入图片描述
假设 $R_t$ 里面的元素靠近零的话，那么 $R_t$ 点乘 $H_{t-1}$ 就会变得像零。（就等于是把上一个时刻的隐藏状态忘掉。）
如果全部设成0就变成了初始状态，等于这个时刻开始前面的信息全部不要。
如果全部设成1，就表示所有前面的信息全部拿过来做当前的更新。

隐状态

在这里插入图片描述

$H_t$ 等于 $Z_t$ 按元素点乘上一次的隐藏状态+(1- $Z_t$ )按元素点乘候选隐藏状态

$Z_t$ 是一个控制单元，叫做update gate。它是在0-1之间的数字。
假设 $Z_t$ 都等于1。（就是不更新过去的状态，把过去的状态放到现在）

在这里插入图片描述
假设 $Z_t$ 都等于0。（不直接拿过去的状态了，基本上看现在的更新状态）

$Z_t$ 里面全0，且 $R_t$ 里面全1的时候就回到我们RNN的情况下。

门控循环单元GRU从零开始实现代码

import torch
from torch import nn
from d2l import torch as d2lbatch_size, num_steps = 32, 3
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

初始化模型参数

def get_params(vocab_size, num_hiddens, device):num_inputs = num_outputs = vocab_sizedef normal(shape):return torch.randn(size=shape, device=device) * 0.01# 定义一个函数，生成三组权重和偏置张量，用于不同的门控机制def three():return (normal((num_inputs, num_hiddens)),normal((num_hiddens, num_hiddens)),torch.zeros(num_hiddens, device=device))W_xz, W_hz, b_z = three()  # GRU多了这两行,更新门的权重和偏置W_xr, W_hr, b_r = three()  # GRU多了这两行，重置门的权重和偏置W_xh, W_hh, b_h = three()  # 候选隐藏状态的权重和偏置# 隐藏状态到输出的权重W_hq = normal((num_hiddens, num_outputs))# 输出的偏置b_q = torch.zeros(num_outputs, device=device)params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q]# 遍历参数列表中所有参数for param in params:param.requires_grad_(True)return params

定义隐藏状态的初始化函数

定义隐状态的初始化函数init_gru_state。与之前定义的init_rnn_state函数一样，此函数返回一个形状为（批量大小，隐藏单元个数）的张量，张量的值全部为零。

def init_gru_state(batch_size, num_hiddens, device):return (torch.zeros((batch_size, num_hiddens), device=device), )

定义门控循环单元模型

def gru(inputs, state, params):W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = paramsH, = stateoutputs = []for X in inputs:Z = torch.sigmoid((X @ W_xz) + (H @ W_hz) + b_z)R = torch.sigmoid((X @ W_xr) + (H @ W_hr) + b_r)H_tilda = torch.tanh((X @ W_xh) + ((R * H) @ W_hh) + b_h)H = Z * H + (1 - Z) * H_tildaY = H @ W_hq + b_qoutputs.append(Y)return torch.cat(outputs, dim=0), (H,)

训练

vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()
num_epochs, lr = 500, 1
model = d2l.RNNModelScratch(len(vocab), num_hiddens, device, get_params,init_gru_state, gru)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

该部分总代码

import torch
from torch import nn
from d2l import torch as d2l# 初始化模型参数
def get_params(vocab_size, num_hiddens, device):num_inputs = num_outputs = vocab_sizedef normal(shape):return torch.randn(size=shape, device=device) * 0.01# 定义一个函数，生成三组权重和偏置张量，用于不同的门控机制def three():return (normal((num_inputs, num_hiddens)),normal((num_hiddens, num_hiddens)),torch.zeros(num_hiddens, device=device))# 初始化GRU中的权重和偏置# 权重和偏置用于控制更新门W_xz, W_hz, b_z = three()  # GRU多了这两行# 权重和偏置用于控制重置门W_xr, W_hr, b_r = three()  # GRU多了这两行W_xh, W_hh, b_h = three()W_hq = normal((num_hiddens, num_outputs))b_q = torch.zeros(num_outputs, device=device)params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q]for param in params:param.requires_grad_(True)return params# 定义隐藏状态的初始化函数
def init_gru_state(batch_size, num_hiddens, device):return (torch.zeros((batch_size, num_hiddens), device=device),)# 定义门控循环单元模型
def gru(inputs, state, params):# 参数 params 解包为多个变量，分别表示模型中的权重和偏置W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = paramsH, = stateoutputs = []# 遍历输入序列中的每个时间步for X in inputs:# 更新门控机制 ZZ = torch.sigmoid((X @ W_xz) + (H @ W_hz) + b_z)# 重置门控机制 RR = torch.sigmoid((X @ W_xr) + (H @ W_hr) + b_r)H_tilda = torch.tanh((X @ W_xh) + ((R * H) @ W_hh) + b_h)H = Z * H + (1 - Z) * H_tildaY = H @ W_hq + b_qoutputs.append(Y)# 将所有输出拼接在一起，并返回拼接后的结果和最终的隐藏状态return torch.cat(outputs, dim=0), (H,)batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()
num_epochs, lr = 500, 1
model = d2l.RNNModelScratch(len(vocab), num_hiddens, device, get_params, init_gru_state, gru)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)
d2l.plt.show()

在这里插入图片描述

简洁代码实现

from torch import nn
from d2l import torch as d2lbatch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()
num_epochs, lr = 500, 1
num_inputs = vocab_size
gru_layer = nn.GRU(num_inputs, num_hiddens)
model = d2l.RNNModel(gru_layer, len(vocab))
model = model.to(device)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)
d2l.plt.show()

在这里插入图片描述

深度学习--------------------------------门控循环单元GRU

目录门候选隐状态隐状态门控循环单元GRU从零开始实现代码初始化模型参数定义隐藏状态的初始化函数定义门控循环单元模型训练该部分总代码简洁代码实现做RNN的时候处理不了太长的序列，这是因为把整个序列信息全部放在隐藏状态里面，当时间很长的话&#…...

编程日记 2024/9/29 15:19:23

【实战】| X小程序任意用户登录

复现步骤在登陆时，弹出这个页面时抓包，观察数据包的内容会发现有mobile值（密文）和iv值（随机数），拿到密文，肯定时想到解密，想要解密就必须知道密文，…...

编程日记 2024/9/29 15:18:21

计算机毕业设计之：云中e百货微信小程序设计与实现（源码+文档+定制）

博主介绍： ✌我是阿龙，一名专注于Java技术领域的程序员，全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师，我在计算机毕业设计开发方面积累了丰富的经验。同时，我也是掘金、华为云、阿里云、InfoQ等平台…...

编程日记 2024/9/29 15:16:19

CEX上币趋势分析：Infra赛道与Ton生态的未来

在当前的加密市场中，CEX（中心化交易所）上币的选择愈发重要，尤其是对项目方而言。根据 FMG 的整理，结合「杀破狼」的交易所上币信息，显然 Infra 赛道成为了交易所的热门选择，而 Ton 生态也展现出…...

编程日记 2024/9/29 15:14:17

数组基础（c++）

第1题精挑细选时限：1s 空间：256m 小王是公司的仓库管理员，一天，他接到了这样一个任务：从仓库中找出一根钢管。这听起来不算什么，但是这根钢管的要求可真是让他犯难了，要求如下&#x…...

编程日记 2024/9/29 15:13:15

第十三届蓝桥杯真题Python c组A.排列字母(持续更新)

博客主页：音符犹如代码系列专栏：蓝桥杯关注博主，后期持续更新系列文章如果有错误感谢请大家批评指出，及时修改感谢大家点赞👍收藏⭐评论✍ 【问题描述】小蓝要把一个字符串中的字母按其在字母表中的顺序排列。例如&a…...

编程日记 2024/9/29 15:12:14

IDEA自动清理类中未使用的import包

目录 1.建议清理包的理由 2.清理未使用包的方式 2.1 手动快捷键清理 2.2 设置自动清理 1.建议清理包的理由有时候项目类文件中会有很多包被引入了，但是并没有被使用，这会增加项目的编译时间并且代码可读性也会变差。在开发过程中，建议设…...

编程日记 2024/9/29 15:11:13

加工零件C++

题目: 样例解释： 样例#1： 编号为 1 的工人想生产第 1 阶段的零件，需要编号为 2 的工人提供原材料。编号为 2 的工人想生产第 1 阶段的零件，需要编号为 1 和 3 的工人提供原材料。编号为 3 的工人想生产第 1 阶段的零件&#x…...

编程日记 2024/9/29 15:10:12

Etcd 是一个分布式的键值存储系统，用于共享配置和服务发现

Etcd 是一个分布式的键值存储系统，用于共享配置和服务发现。它最初由 CoreOS 开发，并已成为许多分布式系统中的关键组件之一，特别是在 Kubernetes 中扮演着核心角色。Etcd 的设计目标是简单、可靠、安全，并且易于使用。 Etcd 的特…...

编程日记 2024/9/29 15:09:11

如何帮助我们改造升级原有架构——基于TDengine 平台

一、简介 TDengine 核心是一款高性能、集群开源、云原生的时序数据库（Time Series Database，TSDB），专为物联网IoT平台、工业互联网、电力、IT 运维等场景设计并优化，具有极强的弹性伸缩能力。同时它还带有内建的缓存、…...

编程日记 2024/9/29 15:07:09

MySQl查询分析工具 EXPLAIN ANALYZE

文章目录 EXPLAIN ANALYZE是什么Iterator 输出内容解读EXPLAIN ANALYZE和EXPLAIN FORMATTREE的区别单个 Iterator 内容解读案例分析案例1 文件排序案例2 简单的JOIN查询参考资料：https://hackmysql.com/book-2/ EXPLAIN ANALYZE是什么 EXPLAIN ANALYZE是MySQL8.…...

编程日记 2024/9/29 15:06:08

RestClientException异常

什么情况下会抛出RestClientException异常 RestClientException 异常通常在使用 Spring 的 RestTemplate 进行 RESTful API 调用时抛出。以下是一些常见的情况： 网络问题：当无法连接到目标服务器时，例如网络中断或服务器不可达。 HTTP 状态…...

编程日记 2024/9/29 15:05:07

poi如何实现自定义导出Excel-纵向横向合并单元格，自定义填充数据列

前情提要首先需要明确自己需要导出的excel构成是如何的，比如我需要导出一个自定义表头的excel表格，第一行A到X是标题需要横向合并单元格，第二行和第三行是表头，A到J需要第二行和第三行纵向合并单元格，K到N的第二行需…...

编程日记 2024/9/29 15:03:03

6--苍穹外卖-SpringBoot项目中菜品管理详解(二）

目录菜品分页查询需求分析和设计代码开发设计DTO类设计VO类 Controller层 Service层接口 Service层实现类 Mapper层功能测试删除菜品需求设计和分析代码开发 Controller层 Service层接口 Service层实现类 Mapper层功能测试修改菜品需求分析和设…...

编程日记 2024/9/29 15:01:00

游戏怎么录制？王者荣耀游戏录制指南：iOS与电脑端全面教程

在王者荣耀的战场上，每一个五杀、每一次极限逃生都可能成为你游戏生涯中的高光时刻。但这些瞬间往往转瞬即逝，如何将它们永久保存，成为你游戏历程中不可磨灭的印记呢？本文将为你揭晓答案。无论你是手持iPhone的iOS用户&#xff0c…...

编程日记 2024/9/29 14:59:59

Vue.js组件开发指南

Vue.js组件开发指南 Vue.js 是一个渐进式的 JavaScript 框架，用于构建用户界面。它的核心是基于组件的开发模式。通过将页面分解为多个独立的、可复用的组件，开发者能够更轻松地构建复杂的应用。本文将深入探讨 Vue.js 组件开发的基础知识，并…...

编程日记 2024/9/29 14:57:57

【流计算】流计算概论

前言作者在之前写过一个大数据的专栏，包含GFS、BigTable、MapReduce、HDFS、Hadoop、LSM树、HBase、Spark，专栏地址： https://blog.csdn.net/joker_zjn/category_12631789.html?fromshareblogcolumn&sharetypeblogcolumn&sharerI…...

编程日记 2024/9/29 14:56:56

20230819盘锦锦州葫芦岛自驾

2023年08月19日，上午带娃和老人驾车前往朝阳，逛凤凰山，中午吃了免费的素面味道不错。下午开车去鸟化石公园单独买儿童票43元。晚上驾车到盘锦，住红海滩民宿95元。 2023年08月20日，逛盘锦红海滩一天，有稻田画…...

编程日记 2024/9/29 14:53:53

Unity 与虚幻引擎对比：两大游戏开发引擎的优劣分析

在游戏开发领域，Unity 和虚幻引擎（Unreal Engine）是两款最为知名且广泛使用的引擎。它们各有特点，适合不同类型的开发者和项目。在这篇博客中，我们将深入探讨这两大引擎的核心功能、适用场景、优缺点，以及如…...

编程日记 2024/9/29 14:52:52

目录一. DTC 二. 0x14服务三. 0x19服务 3.1 0x19服务 3.2 0x01子功能 3.3 0x02子功能 3.4 0x04子功能 3.5 0x06子功能 3.6 0x0A子功能一. DTC 》DTC-Diagnostic Trouble Code J1939-73 DTCFormat DTC SPN FMI CM OC 8-1位 8-1位 8-6位 5-1位 8位 7-1位字节1 字节…...

编程日记 2024/9/29 14:49:49

进程地址空间（比特课总结）

一、进程地址空间 1. 环境变量 1 ）⽤户级环境变量与系统级环境变量全局属性：环境变量具有全局属性，会被⼦进程继承。例如当bash启动⼦进程时，环境变量会⾃动传递给⼦进程。本地变量限制：本地变量只在当前进程(ba…...

编程新知 2025/11/15 6:48:52

练习（含atoi的模拟实现,自定义类型等练习）

一、结构体大小的计算及位段 （结构体大小计算及位段详解请看：自定义类型：结构体进阶-CSDN博客） 1.在32位系统环境，编译选项为4字节对齐，那么sizeof(A)和sizeof(B)是多少？ #pragma pack(4)st…...

编程新知 2026/1/30 15:16:30

为什么需要建设工程项目管理？工程项目管理有哪些亮点功能？

在建筑行业，项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升，传统的管理模式已经难以满足现代工程的需求。过去，许多企业依赖手工记录、口头沟通和分散的信息管理，导致效率低下、成本失控、风险频发。例如&#…...

编程新知 2026/2/4 12:35:34

React Native在HarmonyOS 5.0阅读类应用开发中的实践

一、技术选型背景随着HarmonyOS 5.0对Web兼容层的增强，React Native作为跨平台框架可通过重新编译ArkTS组件实现85%以上的代码复用率。阅读类应用具有UI复杂度低、数据流清晰的特点。二、核心实现方案 1. 环境配置 （1）使用React Native…...

编程新知 2025/8/19 2:57:37

江苏艾立泰跨国资源接力：废料变黄金的绿色供应链革命

在华东塑料包装行业面临限塑令深度调整的背景下，江苏艾立泰以一场跨国资源接力的创新实践，重新定义了绿色供应链的边界。跨国回收网络：废料变黄金的全球棋局艾立泰在欧洲、东南亚建立再生塑料回收点，将海外废弃包装箱通过标准…...

编程新知 2026/1/31 13:42:15

令牌桶滑动窗口-＞限流分布式信号量-＞限并发的原理 lua脚本分析介绍

文章目录前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结： 滑动窗口代码实现结果分析lua脚本原理解析限并发分布式信号量代码实现结果分析lua脚本实现原理双注解去实现限流并发结果分析： 实际业务去理解体会统一注…...

编程新知 2026/1/29 16:36:27

PL0语法，分析器实现！

简介 PL/0 是一种简单的编程语言，通常用于教学编译原理。它的语法结构清晰，功能包括常量定义、变量声明、过程（子程序）定义以及基本的控制结构（如条件语句和循环语句）。 PL/0 语法规范 PL/0 是一种教学用的小型编程语言，由 Niklaus Wirth 设计，用于展示编译原理的核…...

编程新知 2026/1/29 17:06:33

Ascend NPU上适配Step-Audio模型

1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤）&#x…...

编程新知 2026/1/31 4:37:39

【Oracle】分区表

个人主页：Guiat 归属专栏：Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

编程新知 2026/1/20 21:59:36

打手机检测算法AI智能分析网关V4守护公共/工业/医疗等多场景安全应用

一、方案背景在现代生产与生活场景中，如工厂高危作业区、医院手术室、公共场景等，人员违规打手机的行为潜藏着巨大风险。传统依靠人工巡查的监管方式，存在效率低、覆盖面不足、判断主观性强等问题，难以满足对人员打手机行为精…...

编程新知 2026/2/7 21:37:35

目录

门

候选隐状态

隐状态

门控循环单元GRU从零开始实现代码

初始化模型参数

定义隐藏状态的初始化函数

定义门控循环单元模型

训练

该部分总代码

简洁代码实现

相关文章：