当前位置: 首页 > news >正文

Ubuntu运行深度学习代码,代码随机epoch中断没有任何报错

深度学习运行代码直接中断

文章目录

  • 深度学习运行代码直接中断
    • 问题描述
    • 设备信息
    • 问题补充
    • ```解决思路```
    • ```问题发现及正确解决思路```
    • 新问题出现
    • 最终问题:ubuntu系统,4090显卡安装英伟达驱动535.x外的驱动会导致开机无法进入桌面
    • 问题记录


问题描述

运行深度学习代码,然后直接中断,就是停止不运行,显卡也停下来,没有任何报错提示。不是在固定的Epoch发生的,像是随机的。中断出现的epoch不确定,时而运行1-2个小时中断,时而运行数10个小时再发生中断。


设备信息

硬件:4090(24G,电竞判客)+i9-14900K+DDR5
系统:Ubuntu22.04.3;
深度学习环境:Pytorch112,cuda12.0,英伟达驱动535.183.01;
代码:计算机视觉相关的代码,相同能够在其它服务器上运行,应该不是代码的问题。
运行方式:使用nohup后台运行,输出的内容会用tqdm包裹。


问题补充

偶尔出现的硬件问题:
服务器的所有外接设备失效,比如网线、鼠标键盘插进去都没有什么反应,需要重启。


解决思路

以下是我排查过的问题和思路,并没有发现问题所在

已排查的错误:

  1. 显卡、内存等进行压力测试,并没有报任何错误;
  2. 主机盖打开,增加散热能力;
  3. 重装系统n次:重装之后一般能解决,但是过一段时间又出现;最近又重装了ubuntu22.04.3,第一次运行就发生了中断;
  4. 限制cpu功率,没办法解决;
  5. num_works设为0,仍然出现该问题;
  6. pin_memory关闭,还是存在该问题;
  7. 环境不兼容?cuda改成11.8还是有问题,Pytorch环境倒是没有尝试用其它的,感觉不是这个问题吧;
  8. Pytorch从1.12换成2.0.0,代码运行了12小时后中断;
  9. batch_size调小,显存只占用17G左右,还是会中断;
  10. 不使用nohup后台运行,仍然运行一会后会中断;
  11. 正在尝试将tqdm版本切换与另外一台服务器的相同版本,代码还是会中断;
  12. 每一步主要的程序使用print输出,用于定位问题所在。

问题发现及正确解决思路

代码在一台服务器上能够正常运行,在4090上运行异常,代码中断不报错。

因此,以后当大家第一时间遇见这个问题的时候,就应该主动去查看系统的运行日志,定位代码停止运行时刻对应的日志。

(1)输出系统日志,然后查看代码中断时间的日志记录

# journalctl输出系统日志,后面是将输出重定位的journal.log文件
journalctl > journal.log

(2)查看系统对应的日志记录

在这里插入图片描述

7月 25 12:54:04 4090 kernel: show_signal_msg: 50 callbacks suppressed
7月 25 12:54:04 4090 kernel: yida_24-0725-09[1030438]: segfault at 8 ip 000061cc54bfdefa sp 00007fff10053f90 error 4 in python3.9[61cc54a89000+223000] likely on CPU 7 (core 12, socket 0)
7月 25 12:54:04 4090 kernel: Code: 04 24 4c 8d 15 a7 e8 19 00 41 89 7e 68 49 83 c4 02 0f b6 d0 0f b6 cc 49 89 d0 41 89 c9 41 ff 24 d2 4c 8b 7d f8 44 89 4c 24 20 <49> 8b 47 08 4c 89 ff ff 90 e0 00 00 00 4c 63 4c 24 20 48 85 c0 0f

(3) 定位问题出现的原因
通过baidu发现问题出现的潜在原因,发现是底层的计算错误。因此,我去比对2台服务器的Python版本,发现正常运行代码的一台服务器gcc是11.x,另外异常的一台服务器是gcc7.x。
在这里插入图片描述

(4) 解决问题
最终,我通过新建Python环境并更新gcc,发现能够解决该中断问题!!!

(5) 问题由来
问题是由于安装较为老旧的miniconda,其中Python3.9的gcc是7.x,导致了这个底层的问题和计算bug。终于TMD解决这“悄无声息”的问题!!!哈哈哈哈


新问题出现

虽然,代码不会中断了,但是代码的运行偶尔会让系统崩溃!!!又尝试了多种问题均无法解决该问题。无奈,只能重装升级ubuntu23.04,成功解决系统崩溃的问题!!!这ubuntu22.04.3真的是服了!


最终问题:ubuntu系统,4090显卡安装英伟达驱动535.x外的驱动会导致开机无法进入桌面

查找到一个教程似乎能够解决该问题,将发起最终的冲刺解决全部问题。


问题记录

  • 2024年08月01日21:02:23,完成bug的记录及问题解决思路;
  • 感激CSDN豪俊的帮助及引导;
  • 下次更新将解决安装英伟达驱动无法开机进入桌面的问题。

相关文章:

Ubuntu运行深度学习代码,代码随机epoch中断没有任何报错

深度学习运行代码直接中断 文章目录 深度学习运行代码直接中断问题描述设备信息问题补充解决思路问题发现及正确解决思路新问题出现最终问题&#xff1a;ubuntu系统&#xff0c;4090显卡安装英伟达驱动535.x外的驱动会导致开机无法进入桌面问题记录 问题描述 运行深度学习代码…...

只有4%知道的Linux,看了你也能上手Ubuntu桌面系统,Ubuntu简易设置,源更新,root密码,远程服务...

创作不易 只因热爱!! 热衷分享&#xff0c;一起成长! “你的鼓励就是我努力付出的动力” 最近常提的一句话&#xff0c;那就是“但行好事&#xff0c;莫问前程"! 与辉同行的董工说​&#xff1a;​守正出奇。坚持分享&#xff0c;坚持付出&#xff0c;坚持奉献&#xff0c…...

Tomcat部署——个人笔记

Tomcat部署——个人笔记 文章目录 [toc]简介安装配置文件WEB项目的标准结构WEB项目部署IDEA中开发并部署运行WEB项目 本学习笔记参考尚硅谷等教程。 简介 Apache Tomcat 官网 Tomcat是Apache 软件基金会&#xff08;Apache Software Foundation&#xff09;的Jakarta 项目中…...

常见且重要的用户体验原则

以下是一些常见且重要的用户体验原则&#xff1a; 1. 以用户为中心 - 深入了解用户的需求、期望、目标和行为习惯。通过用户研究、调查、访谈等方法获取真实的用户反馈&#xff0c;以此来设计产品或服务。 - 例如&#xff0c;在设计一款老年手机时&#xff0c;充分考虑老年…...

web基础及nginx搭建

第四周 上午 静态资源 根据开发者保存在项目资源目录中的路径访问静态资源 html 图片 js css 音乐 视频 f12 &#xff0c;开发者工具&#xff0c;网络 1 、 web 基本概念 web 服务器&#xff08; web server &#xff09;&#xff1a;也称 HTTP 服务器&#xff08; HTTP …...

C++ 布隆过滤器

1. 布隆过滤器提出 我们在使用新闻客户端看新闻时&#xff0c;它会给我们不停地推荐新的内容&#xff0c;它每次推荐时要去重&#xff0c;去掉 那些已经看过的内容。问题来了&#xff0c;新闻客户端推荐系统如何实现推送去重的&#xff1f; 用服务器记录了用 户看过的所有历史…...

使用HTML创建用户注册表单

在当今数字化时代&#xff0c;网页表单对于收集用户信息和促进网站交互至关重要。无论您设计简单的注册表单还是复杂的调查表&#xff0c;了解HTML的基础知识可以帮助您构建有效的用户界面。在本教程中&#xff0c;我们将详细介绍如何使用HTML创建基本的用户注册表单。 第一步…...

Python零基础入门教程

Python零基础详细入门教程可以从以下几个方面进行学习和掌握&#xff1a; 一、Python基础认知 1. Python简介 由来与发展&#xff1a;Python是一种广泛使用的高级编程语言&#xff0c;由Guido van Rossum&#xff08;吉多范罗苏姆&#xff09;于1991年首次发布。Python以其简…...

成为git砖家(10): 根据文件内容生成SHA-1

文章目录 1. .git/objects 目录2. git cat-file 命令3. 根据文件内容生成 sha-14. 结语5. References 1. .git/objects 目录 git 是一个根据文件内容进行检索的系统。 当创建 hello.py, 填入 print("hello, world")的内容&#xff0c; 并执行 git add hello.py gi…...

园区导航小程序:一站式解决园区导航问题,释放存储,优化访客体验

随着园区的规模不断扩大&#xff0c;功能区划分日益复杂&#xff0c;导致访客和新员工在没有有效导航的情况下容易迷路。传统APP导航虽能解决部分问题&#xff0c;但其下载安装繁琐、占用手机内存大、且非高频使用导致的闲置&#xff0c;让许多用户望而却步。园区导航小程序的出…...

对于n进制转十进制的解法及代码(干货!)

对于p进制转十进制&#xff0c;我们有&#xff1a;(x)pa[0]*p^0a[1]*p^1a[2]*p^2...a[n]*p^n 举个例子&#xff1a;&#xff08;11001&#xff09;21*10*20*41*81*1625 &#xff08;9FA&#xff09;1610*16^015*16^19*16^22554 据此&#xff0c;我们可以编出c代码来解决问题 …...

当代互联网打工人的生存现状,看完泪流满面!

欢迎私信小编&#xff0c;了解更多产品信息呦~...

花几千上万学习Java,真没必要!(三十八)

测试代码1&#xff1a; package iotest.com; import java.nio.charset.StandardCharsets; import java.io.UnsupportedEncodingException; public class StringByteConversion { public static void main(String[] args) throws UnsupportedEncodingException { // 原始字…...

Zilliz 2025届校园招聘正式启动,寻找向量数据库内核开发工程师

为了解决非结构化数据处理问题&#xff0c;我们构建了向量数据库-Milvus! Milvus 数据库不仅是顶级开源基金会 LF AI&Data 的毕业项目&#xff0c;还曾登上数据库顶会SIGMOD、VLDB&#xff0c;在全球首届向量检索比赛中夺冠。目前&#xff0c;Milvus 项目已获得超过 2.8w s…...

TwinCAT3 新建项目教程

文章目录 打开TwinCAT 新建项目&#xff08;通过TcXaeShell&#xff09; 新建项目&#xff08;通过VS 2019&#xff09;...

大模型算法面试题(十九)

本系列收纳各种大模型面试题及答案。 1、SFT&#xff08;有监督微调&#xff09;、RM&#xff08;奖励模型&#xff09;、PPO&#xff08;强化学习&#xff09;的数据集格式&#xff1f; SFT&#xff08;有监督微调&#xff09;、RM&#xff08;奖励模型&#xff09;、PPO&…...

应用地址信息获取新技巧:Xinstall来助力

在移动互联网时代&#xff0c;应用获取用户地址信息的需求越来越普遍。无论是为了提供个性化服务&#xff0c;还是进行精准营销&#xff0c;地址信息都扮演着至关重要的角色。然而&#xff0c;如何合规、准确地获取这一信息&#xff0c;却是许多开发者面临的挑战。今天&#xf…...

图的最短路径算法:Dijkstra、Floyd-Warshall、Bellman-Ford

本文意在探讨图中最短路径算法 Dijkstra、Floyd-Warshall、Bellman-Ford 的对比和细节 整体分为如下四部分 总结性的比较了 Dijkstra、Floyd-Warshall、Bellman-FordDijkstra 算法介绍Floyd-Warshall 算法介绍Bellman-Ford 算法介绍 其中1、2、3 算法介绍部分会比较简洁&…...

Camera的pipline(TODO)

&#xff08;TODO&#xff09;...

非关系数据库-非关系数据库入门指南

非关系数据库入门指南 1. 引言&#xff1a;非关系数据库的兴起​ 在互联网技术飞速发展的今天&#xff0c;传统的关系型数据库面对海量数据和高并发访问时逐渐显得力不从心。于是&#xff0c;非关系数据库&#xff08;NoSQL&#xff0c;Not Only SQL&#xff09;应运而生&…...

EDAN工具解析:HPC内存优化与执行DAG分析

1. EDAN工具与HPC内存优化概述在现代高性能计算(HPC)领域&#xff0c;内存子系统性能已成为制约整体计算效率的关键瓶颈。随着计算单元与内存资源在物理上的解耦趋势&#xff08;即资源解耦架构&#xff09;&#xff0c;内存访问延迟问题变得愈发突出。传统服务器架构中&#x…...

LLM 模型架构:从GPT到Claude

LLM 模型架构&#xff1a;从GPT到Claude 1. 大型语言模型的发展历程 大型语言模型&#xff08;LLM&#xff09;的发展经历了从早期的统计语言模型到现代深度学习模型的演变过程。特别是自2017年Transformer架构提出以来&#xff0c;LLM的性能得到了质的飞跃。 1.1 早期语言模型…...

终极鼠标键盘自动化神器:KeymouseGo完整使用指南

终极鼠标键盘自动化神器&#xff1a;KeymouseGo完整使用指南 【免费下载链接】KeymouseGo 类似按键精灵的鼠标键盘录制和自动化操作 模拟点击和键入 | automate mouse clicks and keyboard input 项目地址: https://gitcode.com/gh_mirrors/ke/KeymouseGo 你是否厌倦了每…...

Nature Reviews Cancer(IF=66.8)澳门科技大学张康教授等团队:人工智能推动多组学与临床数据整合在基础和转化癌症研究中的进展

01文献学习今天分享的文献是由澳门科技大学、中国医学科学院肿瘤医院张康教授等团队于2026年4月21日在肿瘤学领域顶尖综述期刊《Nature Reviews Cancer》&#xff08;中科院1区top&#xff0c;IF66.8&#xff09;上发表的研究“Advancing AI for multi-omics and clinical data…...

ARM架构异常处理机制与ESR寄存器解析

1. ARM架构异常处理机制概述异常处理是现代处理器架构的核心功能之一&#xff0c;它使处理器能够响应硬件中断、指令执行错误、系统调用等突发事件。在ARMv8/v9架构中&#xff0c;异常处理机制经过精心设计&#xff0c;特别是在支持多异常级别&#xff08;EL0-EL3&#xff09;和…...

麒麟V10SP1环境搭建(qt5.12.6+mysql5.7.42+ni-visa)

银河麒麟V10环境搭建 以下是根据您提供的环境搭建笔记整理的详细指南。内容基于银河麒麟桌面操作系统V10(SP1) 2403版本&#xff0c;软件版本包括MySQL 5.7.42、Qt 5.12.6、g 9.4.0和gcc 9.4.0。指南结构清晰&#xff0c;分为资源准备、安装步骤和验证环节&#xff0c;确保真实…...

开源大模型构建新闻代理系统:技术栈与实现

1. 项目概述&#xff1a;基于开源大模型的新闻代理系统这个项目展示了如何整合当前最热门的开源AI工具链&#xff0c;构建一个能自动处理新闻内容的智能代理系统。核心思路是利用GPT-OSS作为内容生成引擎&#xff0c;Hugging Face的模型库提供专业能力支持&#xff0c;最后通过…...

2026年量子计算与人工智能国际学术会议(ICQCAI 2026)

2026 年量子计算与人工智能国际学术会议&#xff08;ICQCAI 2026&#xff09;将于 2026 年5月8 - 10日在北京举行。本次会议聚焦量子计算与人工智能的融合发展趋势&#xff0c;为全球学者、研究人员和行业专家搭建交流平台。近年来&#xff0c;量子计算与人工智能的融合成为科技…...

别让你的验证码形同虚设:滑块验证码技术实现与最佳实践

验证码这玩意儿&#xff0c;做过爬虫的兄弟应该都不陌生。早年间随便搞个图片识别就能绕过去&#xff0c;现在可没那么简单了。 今天想聊聊滑块验证码这个东西&#xff0c;不是那种"5分钟入门"的浅尝辄止&#xff0c;而是从技术原理、架构设计到企业级实战落地的完整…...

ElementUI表格进阶:手把手教你为el-table添加‘滑动选择’和‘鼠标悬停高亮’功能

ElementUI表格交互升级&#xff1a;滑动选择与悬停高亮的工程化实现 在数据密集型的后台系统中&#xff0c;表格组件承载着核心的人机交互功能。ElementUI的el-table虽然提供了基础的行选择能力&#xff0c;但在需要连续选择多行或快速定位目标数据时&#xff0c;原生交互方式往…...