当前位置：首页 > news >正文

深度学习：模型训练过程中Trying to backward through the graph a second time解决方案

news 文章来源：https://blog.csdn.net/lsb2002/article/details/133317064 2025/2/13 1:01:40

1 问题描述

在训练lstm网络过程中出现如下错误：

Traceback (most recent call last):File "D:\code\lstm_emotion_analyse\text_analyse.py", line 82, in <module>loss.backward()File "C:\Users\lishu\anaconda3\envs\pt2\lib\site-packages\torch\_tensor.py", line 487, in backwardtorch.autograd.backward(File "C:\Users\lishu\anaconda3\envs\pt2\lib\site-packages\torch\autograd\__init__.py", line 200, in backwardVariable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass
RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.

2 问题分析

按照错误提示查阅相关资料了解到，实际上在大多数情况下retain_graph都应采用默认的False，除了几种特殊情况：

一个网络有两个output分别执行backward进行回传的时候: output1.backward(), output2.backward().
一个网络有两个loss需要分别执行backward进行回传的时候: loss1.backward(), loss2.backward().

但本项目的LSTM训练模型不属于以上情况，再次查找资料，在在pytorch的官方论坛上找到了真正的原因：

如截图中的描述，只要我们对变量进行运算了，就会加进计算图中。所以本项目的问题在于在for循环梯度反向传播中，使用了循环外部的变量h，如下所示：

epochs = 128step = 0model.train()  # 开启训练模式for epoch in range(epochs):h = model.init_hidden(batch_size)  # 初始化第一个Hidden_statefor data in tqdm(train_loader):x_train, y_train = datax_train, y_train = x_train.to(device), y_train.to(device)step += 1  # 训练次数+1x_input = x_train.to(device)model.zero_grad()output, h = model(x_input, h)# 计算损失loss = criterion(output, y_train.float().view(-1))loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=5)optimizer.step()if step % 10 == 0:print("Epoch: {}/{}...".format(epoch + 1, epochs),"Step: {}...".format(step),"Loss: {:.6f}...".format(loss.item()))

3 问题解决

代码修改如下：

epochs = 128step = 0model.train()  # 开启训练模式for epoch in range(epochs):h = model.init_hidden(batch_size)  # 初始化第一个Hidden_statefor data in tqdm(train_loader):x_train, y_train = datax_train, y_train = x_train.to(device), y_train.to(device)step += 1  # 训练次数+1x_input = x_train.to(device)model.zero_grad()h = tuple([e.data for e in h])output, h = model(x_input, h)# 计算损失loss = criterion(output, y_train.float().view(-1))loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=5)optimizer.step()if step % 10 == 0:print("Epoch: {}/{}...".format(epoch + 1, epochs),"Step: {}...".format(step),"Loss: {:.6f}...".format(loss.item()))

增加for循环内部变量，对外部变量进行复制，内部变量参与梯度传播，问题解决。

深度学习：模型训练过程中Trying to backward through the graph a second time解决方案

1 问题描述在训练lstm网络过程中出现如下错误： Traceback (most recent call last):File "D:\code\lstm_emotion_analyse\text_analyse.py", line 82, in <module>loss.backward()File "C:\Users\lishu\anaconda3\envs\pt2\lib\site-packag…...

编程日记 2023/9/27 7:20:35

【数值计算方法】非线性方程（组）和最优化问题的计算方法：非线性方程式求根的二分法、迭代法、Newton 迭代法及其Python实现

目录一、非线性方程式求根 1、二分法（Bisection Method、对分法） a. 理论简介 b. python实现 2、迭代法（Iterative Method） a. 理论简介 b. python实现 3、Newton 迭代法（Newtons Method） a. 理论…...

编程日记 2023/9/27 7:18:33

linux主机名

title: linux主机名 createTime: 2020-10-29 18:05:52 updateTime: 2020-10-29 18:05:52 categories: linux tags: Linux系统的主机名查询主机名 hostnamehostnamectl 修改主机名 hostnamectl set-hostname <newhostname>...

编程日记 2023/9/27 7:17:32

前端uniapp图片select联动文本切换

图片代码 <template><uni-data-select v-model"pay_type" :localdata"range" change"handleSelectChange"></uni-data-select><image :src"dynamicImage&qu…...

编程日记 2023/9/27 7:15:31

java - 包装类

目录前言一什么是包装类? 1.获取包装类的两种方式(了解)(已经淘汰) 2.两种方式获取对象的区别(掌握) 3.自动装箱&&自动装箱 4.Integer常用方法总结前言大家好,今天给大家讲解一下包装类一什么是包装类? 在Java中，每个基本数据类型都有对应…...

编程日记 2023/9/27 7:14:30

防火墙基础

目录 1、防火墙支持那些NAT技术，主要应用场景是什么？ 2、当内网PC通过公网域名解析访问内网服务器时，会存在什么问题，如何解决？ 3、防火墙使用VRRP实现双机热备时会遇到什么问题，如何解决？ 4…...

编程日记 2023/9/27 7:12:28

服务断路器_Resilience4j的断路器

断路器（CircuitBreaker）相对于前面几个熔断机制更复杂，CircuitBreaker通常存在三种状态（CLOSE、OPEN、HALF_OPEN），并通过一个时间或数量窗口来记录当前的请求成功率或慢速率，从而根据这些指标来…...

编程日记 2023/9/27 7:11:27

微信小程序学习笔记3.0

第3章资讯类：仿今日头条微信小程序 3.1 需求描述及交互分析需求描述仿今日头条微信小程序，要具有以下功能。（1）首页新闻频道框架设计，包括底部标签导航设计、新闻检索框设计及新闻频道滑动效果设计。（2）首页新闻内容设计，包括新闻标题、新闻图片及新闻评论设计…...

编程日记 2023/9/27 7:09:26

nginx 反向代理负载均衡动静分离

一样东西的诞生通常都是为了解决某些问题，对于 Nginx 而言，也是如此。比如，你出于无聊写了一个小网站，部署到 tomcat 之后可以正常访问但是后来，你的这个小网站因为内容很诱人逐步的火了，用户越来越多&a…...

编程日记 2023/9/27 7:08:24

Codeanalysis（tca）后端二次开发环境搭建

先试用官方脚本文件件quick_install.sh将整个项目启动起来，然后到每个微服务下查看每个服务的pid进程，需要调试哪个先把对应的微服务关闭手动启动，具体启动流程如下： cd 到项目根目录下 source script\config.sh # 激活系统环境…...

编程日记 2023/9/27 7:07:23

JS前端树形Tree数据结构使用

前端开发中会经常用到树形结构数据，如多级菜单、商品的多级分类等。数据库的设计和存储都是扁平结构，就会用到各种Tree树结构的转换操作，本文就尝试全面总结一下。如下示例数据，关键字段id为唯一标识，pid为父级id&am…...

编程日记 2023/9/27 7:06:22

Automation Anywhere推出新的生成式AI自动化平台，加速提高企业生产力

在9 月 19 日的Imagine 2023 大会上，智能自动化领域的领导者 Automation Anywhere 宣布对其自动化平台进行扩展。推出了新的 Responsible AI Layer，并宣布了四项关键产品更新，包括全新的 Autopilot，它可以利用生成式 AI &#xff…...

编程日记 2023/9/27 7:05:22

电缆隧道在线监测系统：提升电力设施安全与效率的关键

随着城市化进程的加快，电力电缆隧道在保障城市电力供应方面的地位日益重要。然而，电缆隧道环境复杂，容易受到多种因素影响，如温度、湿度、烟雾、水位等，严重威胁电力设施的安全与稳定运行。在此背景下，电缆…...

编程日记 2023/9/27 7:04:21

Java BigDecimal 详解

目录一、BigDecimal 1、简介 2、构造器描述 3、方法描述 4、使用一、BigDecimal float和double类型的主要设计目标是为了科学计算和工程计算。他们执行二进制浮点运算，这是为了在广域数值范围上提供较为精确的快速近似计算而精心设计的。然而，它…...

编程日记 2023/9/27 7:02:19

简述信息论与采样定理

信息论香农信息论发表于1948/1949年，它由三部分组成：信号采样、信源编码、信道编码； 信号采样：采样理论研究在何种条件下对连续信号进行采样，从而得到的离散型号可以可逆地恢复出采样前的连续信号。采样得到的离散实…...

编程日记 2023/9/27 7:01:19

网络安全之网站常见的攻击方式

这是作者自学的哈，不算课程内容。网页中出现大量黑链网站看着很正常，但是会隐藏一些链接。网页的链接几乎都是标签，这种黑链就是通过链接标签<a></a>或者script在里面链入恶意脚本，等待浏览者的访问，通…...

编程日记 2023/9/27 7:00:18

iOS Swift 拍照识别数字（Recognizing Text in Images）

可以用腾讯云 OCR的iOS demo - 腾讯云苹果官方的解决方案（识别度太低） Recognizing Text in Images - apple developer Extracting phone numbers from text in images(Sample Code) - apple developer import UIKit import Visionclass ViewContro…...

编程日记 2023/9/27 6:58:16

数学建模：智能优化算法及其python实现

数学建模：智能优化算法及其python实现智能优化算法简介差分进化算法（Differential Evolution，DE）遗传算法（Genetic Algorithm，GA）粒子群优化算法（Particle Swarm Optimization，PSO）模拟退火算法（Simulated Annealing，SA）蚁群算法（Ant Colony Optimization，ACO）…...

编程日记 2023/9/27 6:57:16

monkeyrunner环境搭建和初步用法

一、打开模拟器运行monkeyrunner之前必须先运行相应的模拟器，不然monkeyrunner无法连接设备。用Elipse打开Android模拟器或在CMD中用Android命令打开模拟器。这里重点讲一下在CMD中用Android命令打开模拟器命令：emulator -avd test （注…...

编程日记 2023/9/27 6:55:14

2024华为校招面试真题汇总及其解答（一）

1. 我问你点java基础的问题吧，你平时都用什么集合啊，都什么情况下使用在 Java 中，常用的集合有以下几种： List：有序集合，可以重复，常用实现类有 ArrayList、LinkedList、Vector。Set：无序集合，不能重复，常用实现类有 HashSet、TreeSet。Map：键值对集合，键不能重复…...

编程日记 2023/9/27 6:53:13

css调整字体间距以及让倾斜字体

调整字体间距 .element {letter-spacing: 2px; /* 调整为适当的值 */ }倾斜字体1 .element {font-style: italic; }请注意，不是所有的字体都有斜体样式可用。如果字体本身没有斜体版本，则可能无法实现完全的斜体效果。倾斜字体2 <span class"…...

编程日记 2023/9/27 6:52:11

工具篇 | Gradle入门与使用指南 - 附Github仓库地址

介绍 1.1 什么是Gradle？ Gradle是一个开源构建自动化工具，专为大型项目设计。它基于DSL（领域特定语言）编写，该语言是用Groovy编写的，使得构建脚本更加简洁和强大。Gradle不仅可以构建Java应用程序&#x…...

编程日记 2023/9/27 6:51:10

使用 Python 函数callable和isinstance的意义

一、说明在这篇博客中，我们将探讨两个python函数：1 callable 中的函数及其有趣的应用程序。该callable函数用于检查对象是否可调用，这意味着它可以作为函数调用。2 isinstance这个内置函数允许我们比较两种不同的数据类型并确定它们是否相…...

编程日记 2023/9/27 6:50:10

Netty场景及其原理

Netty场景及其原理 Netty简化Java NIO的类库的使用，包括Selector、 ServerSocketChannel、 SocketChannel、ByteBuffer，解决了断线重连、网络闪断、心跳处理、半包读写、网络拥塞和异常流的处理等。Netty拥有高性能、吞吐量更高，延迟更低…...

编程日记 2023/9/27 6:49:09

Java接口和接口继承

Java接口和接口继承接口在抽象类中，抽象方法本质上是定义接口规范，即规定高层类的接口，从而保证所有子类都有相同的接口实现，这样，多态就能发挥出威力。如果一个抽象类没有字段，所有方法全部都是抽象方…...

编程日记 2023/9/27 6:48:08

2023 年解锁网络安全即服务

在当今快速发展的数字世界中，强大的网络安全机制的重要性怎么强调都不为过。对于越来越多地发现自己成为网络威胁焦点的小型企业来说尤其如此。那么，“网络安全即服务”到底是什么？为什么它对小型企业至关重要？ 网络安全即服务…...

编程日记 2023/9/27 6:47:07

python基于轻量级卷积神经网络模型GhostNet开发构建养殖场景下生猪行为识别系统

养殖业的数字化和智能化是一个综合应用了互联网、物联网、人工智能、大数据、云计算、区块链等数字技术的过程，旨在提高养殖效率、提升产品质量以及促进产业升级。在这个过程中，养殖生猪的数字化智能化可以识别并管理猪的行为。通过数字化智能化系统&…...

编程日记 2023/9/27 6:45:05

Selenium自动化测试 —— 通过cookie绕过验证码的操作！

验证码的处理对于web应用，很多地方比如登录、发帖都需要输入验证码，类型也多种多样；登录/核心操作过程中，系统会产生随机的验证码图片，进行验证才能进行后续操作解决验证码的方法如下： 1、开发做个万能…...

编程日记 2023/9/27 6:43:03

链表（单链表、双链表）

前言：链表是算法中比较难理解的部分，本博客记录单链表、双链表学习，理解节点和指针的使用，主要内容包括：使用python创建链表、实现链表常见的操作。目录单链表双链表单链表引入链表的背景： 先来看…...

编程日记 2023/9/27 6:42:02

面试题08.05.递归算法

递归乘法。写一个递归函数，不使用 * 运算符， 实现两个正整数的相乘。可以使用加号、减号、位移，但要吝啬一些。示例1: 输入：A 1, B 10输出：10示例2: 输入：A 3, B 4输出：12提示: 保证乘法…...

编程日记 2023/9/27 6:40:01

双语外贸网站源码/百度权重域名

领取成功您已领取成功！您可以进入Android/iOS/Kindle平台的多看阅读客户端，刷新个人中心的已购列表，即可下载图书，享受精品阅读时光啦！-|回复不要太快哦~回复内容不能为空哦回复已提交审核...快登录帐号来一起讨论吧&a…...

编程日记 2025/2/12 23:51:48

新视网站建设联系qq/北京建站

Tyvj P1305最大子序和《进阶指南》单调队列例题连续子序和一般转化为前缀和维护， 记为sum数组， 连续的子序列[l, r] 的和即为sum[r] - sum[l - 1] 原问题转化为找到两个位置l, r ， 使得sum[l] - sum[r] 最大且 r - l < m。所以单调队…...

编程日记 2025/2/12 16:32:35

机械网站案例/百度搜索网页

大家好，我是煎鱼。最近我有一个朋友公司踩了不少消息队列（MQ）的坑，让人无奈不已。因此计划写 MQ 系列的技术文章，来科普更多这块的知识。目前 MQ 也是互联网应用中非常常用的基础组件了，面试特爱问。基本有…...

编程日记 2025/2/12 16:20:29

官方网站管理办法/电脑优化

前一篇介绍了怎么从手机中读取图片文件，放入组件GridView实现网格效果的缩略图显示。今天研究了对GridView中的子项（各张小图片）进行删除的操作，参考已有软件，长按图片跳出删除确认框。 GridView长按事件为OnItemLong…...

编程日记 2025/2/12 14:46:58

龙岗网站制作公司/获客渠道有哪些

插件名说明open in browser浏览器中打开live server实时预览prettier代码格式化 Auto Close Tag Chinese (Simplified) Auto Rename Tag Beautify BEM Helper Code Runner CSS Tree Easy LESS EditorConfig for VS Code Git Graph GitHub Copilot HTML CSS Support Live Server…...

编程日记 2025/2/12 13:09:49

做网站说要自己贴税点是怎么回事呀/近期新闻热点

推荐地址：推荐这款软件源码模板资料.rar 001 01.第1章内容介绍.flv 003 03.项目介绍-项目概述.flv 004 04.项目介绍-功能模块和业务流程.flv 005 05.项目技术架构-软件架构的演进-从单体到SOA.flv 006 06.项目技术架构-软件架构的演进-微服务架构.flv 007 07.项目…...

编程日记 2025/2/12 11:46:58

1 问题描述

2 问题分析

3 问题解决

相关文章：