当前位置：首页 > news >正文

Win10微调大语言模型ChatGLM2-6B

news 文章来源：https://blog.csdn.net/zouxin_88/article/details/145060825 2025/2/9 7:41:55

在《Win10本地部署大语言模型ChatGLM2-6B-CSDN博客》基础上进行，官方文档在这里，参考了这篇文章

首先确保ChatGLM2-6B下的有ptuning

AdvertiseGen下载地址1，地址2，文件中数据留几行

模型文件下载地址（注意：ChatGLM2-6B对话用到的的模型文件不能简单的用到这里，bin文件可以复用，但其他文件一定要重新下载，否则要报一些错)

anaconda prompt中运行，进行虚拟环境

cd /d D:\openai.wiki\ChatGLM2-6B
conda activate D:\openai.wiki\ChatGLM2-6B\ENV

运行微调除 ChatGLM2-6B 的依赖之外，还需要安装以下依赖

pip install rouge_chinese nltk jieba datasets

先了解一下train.sh(仅在Linux中使用)里面各行的意义

PRE_SEQ_LEN=128 #  soft prompt 长度
LR=2e-2     # 训练学习率
NUM_GPUS=2  # GPU卡的数量torchrun --standalone --nnodes=1 --nproc-per-node=$NUM_GPUS main.py \--do_train \   # 执行训练功能，还可以执行评估功能--train_file AdvertiseGen/train.json \   # 训练文件目录--validation_file AdvertiseGen/fval.json \   # 验证文件目录--prompt_column content \       # 训练集中prompt提示名称，对应训练文件，测试文件的"content"--response_column summary \      # 训练集中答案名称，对应训练文件，测试文件的"summary"--overwrite_cache \              # 缓存，重复训练一次的时候可删除--model_name_or_path THUDM/chatglm-6b \  # 加载模型文件目录，也可修改为本地模型的路径--output_dir output/adgen-chatglm-6b-pt-$PRE_SEQ_LEN-$LR \    # 保存训练模型文件目录--overwrite_output_dir \     # 覆盖训练文件目录--max_source_length 64 \     # 最大输入文本的长度--max_target_length 128 \--per_device_train_batch_size 1 \    # batch_size 训练批次根据显存调节--per_device_eval_batch_size 1 \     # 验证批次--gradient_accumulation_steps 16 \   # 梯度累加的步数--predict_with_generate \--max_steps 3000 \    # 最大训练模型的步数--logging_steps 10 \  # 多少步打印日志一次--save_steps 1000 \    # 多少步保存模型一次--learning_rate $LR \  # 学习率--pre_seq_len $PRE_SEQ_LEN \--quantization_bit 4   # 量化，也可修改为int8

Windows下用以下的train.bat

因我的电脑显存只有8G，故将per_device_train_batch_size改为8

去掉--quantization_bit 4

set PRE_SEQ_LEN=128
set LR=1e-4python main.py ^--do_train ^--train_file AdvertiseGen/train.json ^--validation_file AdvertiseGen/dev.json ^--preprocessing_num_workers 10 ^--prompt_column content ^--response_column summary ^--overwrite_cache ^--model_name_or_path D:\\openai.wiki\\ChatGLM2-6B\\ptuning\\THUDM\\chatglm2-6b ^--output_dir D:/openai.wiki/ChatGLM2-6B/ptuning/output ^--overwrite_output_dir ^--max_source_length 64 ^--max_target_length 128 ^--per_device_train_batch_size 8 ^# batch_size 训练批次根据显存调节--per_device_eval_batch_size 1 ^--gradient_accumulation_steps 16 ^--predict_with_generate ^--max_steps 3000 ^--logging_steps 10 ^--save_steps 1000 ^--learning_rate %LR% ^--pre_seq_len %PRE_SEQ_LEN%

进入ptuning文件夹

cd ptuning

运行train.bat，即可开始训练（有问题的话继续往后看）

train.bat

可能遇到的几个问题

问题一

TypeError: JsonConfig.init() got an unexpected keyword argument 'use_auth_token’

解决方式

pip uninstall datasets
pip install datasets==2.21.0

问题二

name ‘round_up‘ is not defined

解决方式

将train.bat中的–quantization_bit 4删除

或者pip install cpm_kernels

问题三

AttributeError: ‘ChatGLMModel‘ object has no attribute ‘prefix_encoder‘

解决方式

https://huggingface.co/THUDM/chatglm2-6b/tree/main

下载除bin文件以外的最新文件

Win10微调大语言模型ChatGLM2-6B

在《Win10本地部署大语言模型ChatGLM2-6B-CSDN博客》基础上进行，官方文档在这里，参考了这篇文章首先确保ChatGLM2-6B下的有ptuning AdvertiseGen下载地址1，地址2，文件中数据留几行模型文件下载地址 （注意&#xff1…...

编程日记 2025/1/12 3:30:17

什么叫区块链？怎么保证区块链的安全性？

区块链（Blockchain）是一种分布式数据库或账本技术，它通过去中心化的方式记录交易或其他数据，并确保这些记录是安全、透明和不可篡改的。区块链最初是作为比特币（Bitcoin）加密货币的基础技术而被公众所知&am…...

编程日记 2025/1/12 3:29:16

一、智能体强化学习——强化学习基础

1.1 强化学习与深度学习的基本概念 1.1.1 强化学习的核心思想什么是强化学习？ 强化学习（Reinforcement Learning, RL）：指在与环境（Environment）的反复交互中，智能体（Agent&#x…...

编程日记 2025/1/12 3:28:15

【DES加密】

什么是DES DES(Data Encryption Standard) 是一种对称加密算法。它的设计目标是提供高度的数据安全性和性能。 DES的概念 DES使用56位的密钥和64位的明文块进行加密。DES算法的分组大小是64位，因此，如果需要加密的明文长度不足64位，需要进…...

编程日记 2025/1/12 3:26:13

.NET中的框架和运行环境

在.NET生态系统中，框架和运行环境是两个不同的概念，它们各自扮演着重要的角色。下面我将分别介绍.NET中的框架和运行环境，并解释它们之间的区别。 .NET 框架（Frameworks） 框架提供了一套预定义的类库、工具和服务&…...

编程日记 2025/1/12 3:19:05

探索微软 M365 安全：全方位守护数字世界

在当今这个科技呈井喷式飞速发展，数字化浪潮以汹涌澎湃、锐不可当之势席卷全球的时代，企业与个人仿若置身于一片浩瀚无垠、信息奔涌的海洋之中，尽情畅享着技术革新所带来的无穷无尽便利。然而，恰如平静海面下潜藏着暗礁与汹涌暗流，网络安全问题恰似隐匿在暗处、随时可能给…...

编程日记 2025/1/12 3:16:01

深入探索AI核心模型：CNN、RNN、GAN与Transformer

在人工智能的飞速发展中，众多深度学习模型和算法不断涌现，推动了许多领域的进步。特别是在图像识别、自然语言处理、生成建模等方向，AI模型的应用越来越广泛。本文将介绍几种最常用的AI模型，包括卷积神经网络（CNN&…...

编程日记 2025/1/12 3:14:58

Java - Http 通讯

Java - Http 通讯 PS： 1. Http 协议 POST | GET 请求； 2. 支持报头、报文、参数自定义配置； 3. GET 返回支持 String | Stream; 4. 相关依赖： <dependency><groupId>org.apache.httpcomponents</groupId><…...

编程日记 2025/1/12 3:13:56

C++ Qt练习项目 QChar功能测试

个人学习笔记代码仓库 GitCode - 全球开发者的开源社区,开源代码托管平台新建项目设计UI 1、拖入group box去掉名字 2、拖入2个LineEdit 3、拖入两个Label 4、拖入两个PushButton 5、点栅格布局 1、拖入GroupBox 2、拖入4个PushButton 3、点栅格布局 1、拖入GroupBo…...

编程日记 2025/1/12 3:11:54

android 官网刷机和线刷

nexus、pixel可使用google官网线上刷机的方法。网址：https://flash.android.com/ 本文使用google线上刷机，将Android14 刷为Android12 以下是失败的线刷经历。准备工作下载升级包。https://developers.google.com/android/images?hlzh-cn 注意&…...

编程日记 2025/1/12 3:10:53

二叉树层序遍历 Leetcode102.二叉树的层序遍历

二叉树的层序遍历相当于图论的广度优先搜索，用队列来实现 （二叉树的递归遍历相当于图论的深度优先搜索） 102.二叉树的层序遍历给你二叉树的根节点 root ，返回其节点值的层序遍历。 （即逐层地，从左到右…...

编程日记 2025/1/12 3:07:50

DELTA并联机械手视觉方案荣获2024年度机器人应用典型案例奖

直击现场 2025年1月9日晚，2024深圳市机器人年度评选颁奖典礼在深圳市南山区圣淘沙酒店正式拉开帷幕。本次颁奖活动由中国科学院深圳先进技术研究院指导，深圳市机器人协会与《机器人与智能系统》杂志组织承办。正运动公司受邀参与此次典礼，…...

编程日记 2025/1/12 3:06:49

Netty 入门学习

前言学习Spark源码绕不开通信，Spark通信是基于Netty实现的，所以先简单学习总结一下Netty。 Spark 通信历史最开始: Akka Spark 1.3： 开始引入Netty，为了解决大块数据（如Shuffle）的传输问题 Spark 1.6&…...

编程日记 2025/1/12 3:02:45

Magentic-One、AutoGen、LangGraph、CrewAI 或 OpenAI Swarm：哪种多 AI 代理框架最好？

目录一、说明二、 AutoGen-自动生成（微软） 2.1 特征 2.2 局限性三、 CrewAI 3.1 特征 3.2 限制： 四、LangGraph 4.1 特征： 4.2 限制： 五、OpenAI Swarm 5.1 特征 5.2 限制六、Magentic-One 6.1 特征 6.2 限制七、…...

编程日记 2025/1/12 2:59:40

openstack下如何生成centos9 centos10 和Ubuntu24 镜像

如何生成一个centos 10和centos 9 的镜像1. 下载对应的版本 wget https://cloud.centos.org/centos/10-stream/x86_64/images/CentOS-Stream-GenericCloud-x86_64-10-latest.x86_64.qcow2 wget https://cloud.centos.org/centos/9-stream/x86_64/images/CentOS-Stream-Gener…...

编程日记 2025/1/12 2:58:38

Kivy App开发之UX控件Slider滑块

在app中可能会调节如音量，亮度等，可以使用Slider来实现，该控件调用方便，兼容性好，滑动平稳。在一些参数设置中，也可以用来调整数值。支持水平和垂直方向，可以设置默认值，最小及最大值。使用方法，需用引入Slider类，通过Slider类生成一个滑块并设置相关的样式后，再…...

编程日记 2025/1/12 2:55:34

CSS——22.静态伪类（伪类是选择不同元素状态）

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>静态伪类</title> </head><body><a href"#">我爱学习</a></body> </html>单击链接前的样式左键单击（且…...

编程日记 2025/1/12 2:54:32

python学opencv|读取图像（三十）使用cv2.getAffineTransform()函数倾斜拉伸图像

【1】引言前序已经学习了如何平移和旋转缩放图像，相关文章链接为： python学opencv|读取图像（二十七）使用cv2.warpAffine（）函数平移图像-CSDN博客 python学opencv|读取图像（二十八&#xff0…...

编程日记 2025/1/12 2:52:29

Unity3D中基于ILRuntime的组件化开发详解

前言在Unity3D开发中，组件化开发是一种高效且灵活的软件架构方式。通过将游戏功能拆分为独立的、可重用的组件，开发者可以更容易地管理、扩展和维护代码。而ILRuntime作为一款基于C#的热更新框架，为Unity3D开发者提供了一种高效的热更新和组…...

编程日记 2025/1/12 2:50:27

ELK的搭建

ELK elk：elasticsearch logstatsh kibana统一日志收集系统 elasticsearch：分布式的全文索引引擎点非关系型数据库,存储所有的日志信息，主和从，最少需要2台 logstatsh：动态的从各种指定的数据源，获取数据…...

编程日记 2025/1/12 2:49:26

国产信创实践（国能磐石服务器操作系统CEOS +东方通TongHttpServer）

替换介绍： 国能磐石服务器操作系统CEOS 对标 Linux 服务器操作系统（Ubuntu, CentOS） 东方通TongHttpServer 对标 Nginx 负载均衡Web服务器第一步： 服务器安装CEOS映像文件，可直接安装，本文采用使用VMware …...

编程日记 2025/1/12 2:47:24

C#里使用libxl读取EXCEL文件里的图片并保存出来

有时候需要读取EXCEL里的图片文件，因为很多用户喜欢使用图片保存在EXCEL里，比如用户保存一些现场整改的图片。如果需要把这些图片抽取出来，再保存到系统里，就需要读取这些图片数据，生成合适的文件再保存。在libxl里也提供了这样的方法，如下： var picType = boo…...

编程日记 2025/1/12 2:43:20

【开源免费】基于SpringBoot+Vue.JS企业级工位管理系统（JAVA毕业设计）

本文项目编号 T 127 ，文末自助获取源码 \color{red}{T127，文末自助获取源码} T127，文末自助获取源码目录一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程四、功能截图五、文案资料5.1 选题背景5.2 国内…...

编程日记 2025/1/12 2:42:17

美国大学的计算机科学专业排名

美国的计算机科学专业在全球范围内享有盛誉，许多大学在该领域具有卓越的教学和研究实力。以下是根据最新的排名和信息整理的美国计算机科学专业顶尖大学列表： 2025年 U.S. News 美国本科计算机科学专业排名： 斯坦福大学（Stanfor…...

编程日记 2025/1/12 2:38:13

机器学习实战——决策树：从原理到应用的深度解析

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 决策树（Decision Tree）是一种简单而直观的分类与回归模型，在机器学习中广泛应用。它的…...

编程日记 2025/1/12 2:36:12

开源生成式物理引擎Genesis，可模拟世界万物

这是生成大模型时代 —— 它们能生成文本、图像、音频、视频、3D 对象…… 而如果将所有这些组合到一起，我们可能会得到一个世界！ 现在，不管是 LeCun 正在探索的世界模型，还是李飞飞想要攻克的空间智能，又或是其他研究…...

编程日记 2025/1/12 2:33:09

kubernetes第七天

1.影响pod调度的因素 nodeName 节点名 resources 资源限制 hostNetwork 宿主机网络污点污点容忍 Pod亲和性 Pod反亲和性节点亲和性 2.污点通常是作用于worker节点上，其可以影响pod的调度语法：key[value]:effect effect:[ɪˈfek…...

编程日记 2025/1/12 2:31:07

RK3588上CPU和GPU算力以及opencv resize的性能对比测试

RK3588上CPU和GPU算力以及opencv resize的性能对比测试一.背景二.小结三.相关链接四.操作步骤1.环境搭建A.安装依赖B.设置GPU为高性能模式C.获取GPU信息D.获取CPU信息 2.调用OpenCL SDK获取GPU信息3.使用OpenCL API计算矩阵乘4.使用clpeak测试GPU的性能5.使用OpenBLAS测试CPU的…...

编程日记 2025/1/12 2:30:06

基于Centos 7系统的安全加固方案

创作不易，麻烦点个免费的赞和关注吧！ 声明！ 免责声明：本教程作者及相关参与人员对于任何直接或间接使用本教程内容而导致的任何形式的损失或损害，包括但不限于数据丢失、系统损坏、个人隐私泄露或经济损失等&#xf…...

编程日记 2025/1/12 2:29:05

IT行业的发展趋势

一、引言 IT（信息技术）行业自诞生以来，就以惊人的速度发展，不断改变着我们的生活、工作和社会结构。如今，随着技术的持续创新、市场需求的演变以及全球经济格局的变化，IT行业正迈向新的发展阶段&#xff0…...

编程日记 2025/1/12 2:27:03

开源b2b网站源码建设/如何制作网页设计

文章目录一、简介二、HBase相关概念列式存储Row Key (行键)Column Family（列族）Column Qualifier (列限定符)Column(列)CellTimestamp(时间戳)RegionRegion Server三、HBase系统架构ZookeeperMasterRegion Server四、操作HBasePhoenix五、Hbase 协处理器…...

编程日记 2025/2/9 7:26:43

公司做网站一定要钱吗/seo推广网址

1、word表格分页保留标题行备注：鼠标必须选中或者放在第一行，然后再点击“布局” ——》“重复标题行”。 2、word表格放在页面任意位置，可以随意拖拽图片中已经标记出来是放在纸张的最下面，即下图中说的相对于页面，…...

编程日记 2025/2/9 2:49:20

wordpress基本教程/微商软文范例大全100

Java Number内置数据类型：byte int long short double 等int i 10；float i 10.5f;实际开发中，经常遇到使用对象，而不是内置数据类型,包装类(Integer Long Double Float Short)都是抽象类 Number的子类内置数据类型被当作对象使用…...

编程日记 2025/2/9 2:17:03

6免费网站建站/南宁求介绍seo软件

githttps://github.com/sea-boat/mysql-protocol概况mysql客户端连接上mysql服务端后，当需要退出断开连接时则向服务端发送退出命令。服务端可以直接关闭连接或返回OK包。mysql通信报文结构类型名字描述int<3>payload长度按照the least significant byte firs…...

编程日记 2025/2/9 1:40:40

wordpress速度快/北京seo学校

Silverlight奇技银巧系列： 所有该系列中的文章只为介绍一些Silverlight中或隐藏在Silverlight .NET framework鲜为人知的知识和技巧。这些文章并非教程，也是不是什么技术指导，您只需对文章介绍的内容保有印象。这些知识和技巧也许会在不经意间…...

编程日记 2025/2/8 23:12:51

网站备案信息真实性/西安百度关键词排名服务

std::move函数可以以非常简单的方式将左值引用转换为右值引用。（左值、左值引用、右值、右值引用参见：http://www.cnblogs.com/SZxiaochun/p/8017475.html） 通过std::move，可以避免不必要的拷贝操作。 std::move是为性能而生。…...

编程日记 2025/2/8 21:44:24

相关文章：