当前位置：首页 > news >正文

ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型

news 文章来源：https://blog.csdn.net/fallingleafgrief/article/details/137696213 2025/4/27 1:20:39

ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型

文章目录

ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型
- 一、介绍
- 二、使用方式
- - 1、环境安装
  - 2、代码调用
  - - 3、从本地加载模型
  - 4、API 部署
- 三、低成本部署
- - 1、模型量化
  - 2、CPU 部署
  - 3、Mac 部署
  - 4、多卡部署
- 四、协议
- 五、源程序下载

一、介绍

更强大的性能：基于 ChatGLM 初代模型的开发经验，我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 [GLM]的混合目标函数，经过了 1.4T 中英标识符的预训练与人类偏好对齐训练，评测结果显示，相比于初代模型，ChatGLM2-6B 在 MMLU（+23%）、CEval（+33%）、GSM8K（+571%）、BBH（+60%）等数据集上的性能取得了大幅度的提升，在同尺寸开源模型中具有较强的竞争力。
更长的上下文：基于 [FlashAttention]技术，我们将基座模型的上下文长度（Context Length）由 ChatGLM-6B 的 2K 扩展到了 32K，并在对话阶段使用 8K 的上下文长度训练。对于更长的上下文，我们发布了 [ChatGLM2-6B-32K] 模型。[LongBench]的测评结果表明，在等量级的开源模型中，ChatGLM2-6B-32K 有着较为明显的竞争优势。
更高效的推理：基于 [Multi-Query Attention] 技术，ChatGLM2-6B 有更高效的推理速度和更低的显存占用：在官方的模型实现下，推理速度相比初代提升了 42%，INT4 量化下，6G 显存支持的对话长度由 1K 提升到了 8K。
更开放的协议：ChatGLM2-6B 权重对学术研究完全开放，在填写[问卷]进行登记后亦允许免费商业使用。

ChatGLM2-6B 开源模型旨在与开源社区一起推动大模型技术发展，恳请开发者和大家遵守开源协议，勿将开源模型和代码及基于开源项目产生的衍生物用于任何可能给国家和社会带来危害的用途以及用于任何未经过安全评估和备案的服务。目前，本项目团队未基于 ChatGLM2-6B 开发任何应用，包括网页端、安卓、苹果 iOS 及 Windows App 等应用。

尽管模型在训练的各个阶段都尽力确保数据的合规性和准确性，但由于 ChatGLM2-6B 模型规模较小，且模型受概率随机性因素影响，无法保证输出内容的准确性，且模型易被误导。本项目不承担开源模型和代码导致的数据安全、舆情风险或发生任何模型被误导、滥用、传播、不当利用而产生的风险和责任。

二、使用方式

1、环境安装

首先需要下载本仓库：

git clone https://github.com/THUDM/ChatGLM2-6B
cd ChatGLM2-6B

然后使用 pip 安装依赖：

pip install -r requirements.txt

其中 transformers 库版本推荐为 4.30.2，torch 推荐使用 2.0 及以上的版本，以获得最佳的推理性能。

2、代码调用

可以通过如下代码调用 ChatGLM2-6B 模型来生成对话：

>>> from transformers import AutoTokenizer, AutoModel
>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True)
>>> model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device='cuda')
>>> model = model.eval()
>>> response, history = model.chat(tokenizer, "你好", history=[])
>>> print(response)
你好👋!我是人工智能助手 ChatGLM2-6B,很高兴见到你,欢迎问我任何问题。
>>> response, history = model.chat(tokenizer, "晚上睡不着应该怎么办", history=history)
>>> print(response)
晚上睡不着可能会让你感到焦虑或不舒服,但以下是一些可以帮助你入睡的方法:1. 制定规律的睡眠时间表:保持规律的睡眠时间表可以帮助你建立健康的睡眠习惯,使你更容易入睡。尽量在每天的相同时间上床,并在同一时间起床。
2. 创造一个舒适的睡眠环境:确保睡眠环境舒适,安静,黑暗且温度适宜。可以使用舒适的床上用品,并保持房间通风。
3. 放松身心:在睡前做些放松的活动,例如泡个热水澡,听些轻柔的音乐,阅读一些有趣的书籍等,有助于缓解紧张和焦虑,使你更容易入睡。
4. 避免饮用含有咖啡因的饮料:咖啡因是一种刺激性物质,会影响你的睡眠质量。尽量避免在睡前饮用含有咖啡因的饮料,例如咖啡,茶和可乐。
5. 避免在床上做与睡眠无关的事情:在床上做些与睡眠无关的事情,例如看电影,玩游戏或工作等,可能会干扰你的睡眠。
6. 尝试呼吸技巧:深呼吸是一种放松技巧,可以帮助你缓解紧张和焦虑,使你更容易入睡。试着慢慢吸气,保持几秒钟,然后缓慢呼气。如果这些方法无法帮助你入睡,你可以考虑咨询医生或睡眠专家,寻求进一步的建议。

3、从本地加载模型

以上代码会由 transformers 自动下载模型实现和参数。完整的模型实现在 [Hugging Face Hub]。如果你的网络环境较差，下载模型参数可能会花费较长时间甚至失败。此时可以先将模型下载到本地，然后从本地加载。

从 Hugging Face Hub 下载模型需要先[安装Git LFS]，然后运行

git clone https://huggingface.co/THUDM/chatglm2-6b

如果你从 Hugging Face Hub 上下载 checkpoint 的速度较慢，可以只下载模型实现

GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm2-6b

然后从[这里]手动下载模型参数文件，并将下载的文件替换到本地的 chatglm2-6b 目录下。

将模型下载到本地之后，将以上代码中的 THUDM/chatglm2-6b 替换为你本地的 chatglm2-6b 文件夹的路径，即可从本地加载模型。

模型的实现仍然处在变动中。如果希望固定使用的模型实现以保证兼容性，可以在 from_pretrained 的调用中增加 revision="v1.0" 参数。v1.0 是当前最新的版本号，完整的版本列表参见 [Change Log]。

4、API 部署

首先需要安装额外的依赖 pip install fastapi uvicorn，然后运行仓库中的 api.py：

python api.py

默认部署在本地的 8000 端口，通过 POST 方法进行调用

curl -X POST "http://127.0.0.1:8000" \-H 'Content-Type: application/json' \-d '{"prompt": "你好", "history": []}'

得到的返回值为

{"response":"你好👋！我是人工智能助手 ChatGLM2-6B，很高兴见到你，欢迎问我任何问题。","history":[["你好","你好👋！我是人工智能助手 ChatGLM2-6B，很高兴见到你，欢迎问我任何问题。"]],"status":200,"time":"2023-03-23 21:38:40"
}

感谢 @hiyouga 实现了 OpenAI 格式的流式 API 部署，可以作为任意基于 ChatGPT 的应用的后端，比如 ChatGPT-Next-Web。可以通过运行仓库中的openai_api.py 进行部署：

python openai_api.py

进行 API 调用的示例代码为

import openai
if __name__ == "__main__":openai.api_base = "http://localhost:8000/v1"openai.api_key = "none"for chunk in openai.ChatCompletion.create(model="chatglm2-6b",messages=[{"role": "user", "content": "你好"}],stream=True):if hasattr(chunk.choices[0].delta, "content"):print(chunk.choices[0].delta.content, end="", flush=True)

三、低成本部署

1、模型量化

默认情况下，模型以 FP16 精度加载，运行上述代码需要大概 13GB 显存。如果你的 GPU 显存有限，可以尝试以量化方式加载模型，使用方法如下：

model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4",trust_remote_code=True).cuda()

模型量化会带来一定的性能损失，经过测试，ChatGLM2-6B 在 4-bit 量化下仍然能够进行自然流畅的生成。量化模型的参数文件也可以从[这里]手动下载。

2、CPU 部署

如果你没有 GPU 硬件的话，也可以在 CPU 上进行推理，但是推理速度会更慢。使用方法如下（需要大概 32GB 内存）

model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True).float()

如果你的内存不足的话，也可以使用量化后的模型

model = AutoModel.from_pretrained("THUDM/chatglm2-6b-int4",trust_remote_code=True).float()

在 cpu 上运行量化后的模型需要安装 gcc 与 openmp。多数 Linux 发行版默认已安装。对于 Windows ，可在安装 [TDM-GCC] 时勾选 openmp。 Windows 测试环境 gcc 版本为 TDM-GCC 10.3.0， Linux 为 gcc 11.3.0。在 MacOS 上请参考 Q1。

3、Mac 部署

对于搭载了 Apple Silicon 或者 AMD GPU 的 Mac，可以使用 MPS 后端来在 GPU 上运行 ChatGLM2-6B。需要参考 Apple 的官方说明安装 PyTorch-Nightly（正确的版本号应该是2.x.x.dev2023xxxx，而不是 2.x.x）。

目前在 MacOS 上只支持从本地加载模型。将代码中的模型加载改为从本地加载，并使用 mps 后端：

model = AutoModel.from_pretrained("your local path", trust_remote_code=True).to('mps')

加载半精度的 ChatGLM2-6B 模型需要大概 13GB 内存。内存较小的机器（比如 16GB 内存的 MacBook Pro），在空余内存不足的情况下会使用硬盘上的虚拟内存，导致推理速度严重变慢。
此时可以使用量化后的模型 chatglm2-6b-int4。因为 GPU 上量化的 kernel 是使用 CUDA 编写的，因此无法在 MacOS 上使用，只能使用 CPU 进行推理。
为了充分使用 CPU 并行，还需要单独安装 OpenMP。

在 Mac 上进行推理也可以使用 ChatGLM.cpp

4、多卡部署

如果你有多张 GPU，但是每张 GPU 的显存大小都不足以容纳完整的模型，那么可以将模型切分在多张GPU上。首先安装 accelerate: pip install accelerate，然后通过如下方法加载模型：

from utils import load_model_on_gpus
model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2)

即可将模型部署到两张 GPU 上进行推理。你可以将 num_gpus 改为你希望使用的 GPU 数。默认是均匀切分的，你也可以传入 device_map 参数来自己指定。

四、协议

本仓库的代码依照 Apache-2.0 协议开源，ChatGLM2-6B 模型的权重的使用则需要遵循 Model License。ChatGLM2-6B 权重对学术研究完全开放，在填写问卷进行登记后亦允许免费商业使用。

五、源程序下载

源程序下载地址：ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型

ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型

ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型文章目录 ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型一、介绍二、使用方式1、环境安装2、代码调用3、从本地加载模型 4、API 部署三、低成本部署1、模型量化2、CPU 部署3、Mac 部署4、…...

编程日记 2024/4/13 3:53:56

JAVA的学习日记DAY6

文章目录数组例子数组的使用数组的注意事项和细节练习数组赋值机制数组拷贝数组反转数组添加排序冒泡排序查找多维数组 - 二维数组二维数组的使用二维数组的遍历杨辉三角二维数组的使用细节和注意事项练习开始每日一更！得加快速度了！ 数组数组可以…...

编程日记 2024/4/13 3:49:52

Grafana告警（邮件）自定义模板配置

一年前给客户部署配置过grafana，告警配置也是用的原始的，客户在使用过程中只需要一些核心点信息，想要实现这个就需要用Grafana的自定义告警模板以及编辑邮件模板。通知模板模板信息的配置中查阅了相关资料，自己组装了一套&…...

编程日记 2024/4/13 3:47:51

大话设计模式——六大基本设计原则（SOLID原则）

设计模式定义：软件开发中，在特定上下文中解决一类常见问题的被证明为有效的最佳实践。可供其他开发者重复使用解决相似问题。好处： 提高代码的可重用性，减少重复代码。提高代码的可维护性，使代码更易于理解和修改。…...

编程日记 2024/4/13 3:45:49

Qt | Q_PROPERTY属性和QVariant 类

一、属性基础 1、属性与数据成员相似，但是属性可使用 Qt 元对象系统的功能。他们的主要差别在于存取方式不相同，比如属性值通常使用读取函数(即函数名通常以 get 开始的函数)和设置函数(即函数名通常以 set 开始的函数)来存取其值，除此种方法外，Qt 还有其他方式存取属性值…...

编程日记 2024/4/13 3:42:46

力扣207.课程表

你这个学期必须选修 numCourses 门课程，记为 0 到 numCourses - 1 。在选修某些课程之前需要一些先修课程。先修课程按数组 prerequisites 给出，其中 prerequisites[i] [ai, bi] ，表示如果要学习课程 ai 则必须先学习课程 bi 。例如…...

编程日记 2024/4/13 3:38:43

十五届web模拟题整理

模拟赛一期 1.动态的Tab栏请在 style.css 文件中补全代码。当用户向下滚动的高度没有超过标题栏（即 .heading 元素）的高度时，保持 Tab 栏在其原有的位置。当滚动高度超过标题栏的高度时，固定显示 Tab 栏在网页顶部。 /* TODO…...

编程日记 2024/4/13 3:36:41

ubuntu20.04 安裝PX4 1.13

step1_install_depenences.sh #!/bin/bash #install gazebo 11 #install protobuf 3.19.6python3 -m pip install --upgrade pip python3 -m pip install --upgrade Pillow# 將 empy 的版本調整爲3.3.4 pip3 uninstall empy pip3 install empy3.3.4sudo apt-get update sudo ap…...

编程日记 2024/4/13 3:34:39

大型网站系统架构演化

大型网站质量属性优先级：高性能高可用可维护应变安全一、单体架构应用程序，数据库，文件等所有资源都在一台服务器上。二、垂直架构应用和数据分离，使用三台服务器：应用服务器、文件服务器、数据服务器应用服…...

编程日记 2024/4/13 3:33:38

探索Java中的栈：Stack与Deque（ArrayDeque和LinkedList）

文章目录 1. 栈（Stack）1.1 定义方式1.2 特点1.3 栈的层次结构 2. 双端队列（Deque）2.1 定义方式及继承关系2.2 特点：2.3 ArrayDeque2.4 LinkedList2.5 Deque 的各种方法2.6 如何选择ArrayDeque和LinkedList 3. 如何选择…...

编程日记 2024/4/13 3:31:36

实践笔记-03 docker buildx 使用

docker buildx 使用 1.启用docker buildx2.启用 binfmt_misc3.从默认的构建器切换到多平台构建器3.1创建buildkitd.toml文件（私有仓库是http没有证书的情况下，需要配置）3.2创建构建器并使用新创建的构建器 4.构建多架构镜像并推送至harbor仓库…...

编程日记 2024/4/13 3:30:35

【数据结构与算法】之8道顺序表与链表典型编程题心决！

个人主页：秋风起，再归来~ 数据结构与算法个人格言：悟已往之不谏，知来者犹可追克心守己，律己则安！ 目录 1、顺序表 1.1 合并两个有序数组 1.2 原地移除数组中所有的元素va…...

编程日记 2024/4/13 3:29:34

Go 源码之旅-开篇

欢迎来到《Go 源码之旅》专栏！在这个专栏中，我们将深入探索 Go 编程语言的内部数据结构的工作原理，一起踏上一段令人兴奋的源码之旅。我们将一步步解析关键的数据结构底层工作原理以及一些常用框架的设计原理及其源码。无论你是初学者还是…...

编程日记 2024/4/13 3:27:32

spring的事件推送

本质上是设计模式中的观察者模式。一、什么是观察者模式观察者模式是一种行为型设计模式，它定义了一种一对多的依赖关系，当一个对象的状态发生改变时，其所有依赖者都会收到通知并自动更新。二、什么是spring的事件推送在 Spring 的事…...

编程日记 2024/4/13 3:26:31

计算机网络—HTTPS协议详解：工作原理、安全性及应用实践

🎬慕斯主页：修仙—别有洞天 ♈️今日夜电波：ヒューマノイド—ずっと真夜中でいいのに。 1:03━━━━━━️💟──────── 5:06 🔄 ◀️ ⏸…...

编程日记 2024/4/13 3:25:29

卫星遥感影像在农业方面的应用及评价

一、引言随着科技的进步，卫星遥感技术在农业领域的应用越来越广泛。卫星遥感技术以其宏观、快速、准确的特点，为农业生产和管理提供了有力的技术支撑。本文将对卫星遥感在农业方面的应用进行详细介绍，并通过具体案例进行说明。二、…...

编程日记 2024/4/13 3:23:27

docker pull镜像的时候指定arm平台

指定arm平台 x86平台下载arm平台的镜像包以mysql镜像为例 docker pull --platform linux/arm64 mysqldocker images查看镜像信息要查看Docker镜像的信息，可以使用docker inspect命令。这个命令会返回镜像的详细信息，包括其元数据和配置。 docker i…...

编程日记 2024/4/13 3:22:26

如何通过OceanBase V4.2 动态采样优化查询性能

OceanBase v4.2 推出了优化器动态采样的功能，在SQL运行过程中，该功能会收集需要的统计信息，协助优化器制定出更好的执行计划，进一步提升了查询性能。影响查询性能的因素是什么？为何你的优化器效果不佳？ …...

编程日记 2024/4/13 3:21:24

Vue3---基础1（认识，创建）

变化相对于Vue2，Vue3的变化： 性能的提升打包大小减少 41% 初次渲染快 55%，更新渲染快133% 内存减少54% 源码的升级使用 proxy 代替 defineProperty 实现响应式重写虚拟 DOM 的实现和 Tree-shaking TypeScript Vue3就可以更好的支持TypeSc…...

编程日记 2024/4/13 3:20:24

JAVA集合ArrayList

目录 ArrayList概述 add(element) 用法 add(index, element)用法 remove（element）用法 remove（index）用法 get(index)用法 set(index,element) 练习 test1 定义一个集合，添加字符串，并进行遍历&…...

编程日记 2024/4/13 3:17:21

Bitmap OOM

老机器Bitmap预读仍然OOM，无奈增加一段，终于不崩溃了。 if (Build.VERSION.SDK_INT < 21)size 2; 完整代码： Bitmap bitmap; try {//Log.e(Thread.currentThread().getStackTrace()[2] "", surl);URL url new URL(surl);…...

编程日记 2024/4/13 3:16:20

基于深度学习的人脸表情识别系统（PyQT+代码+训练数据集）

基于深度学习的人脸表情识别系统（PyQT代码训练数据集） 前言一、数据集1.1 数据集介绍1.2 数据预处理二、模型搭建三、训练与测试3.1 模型训练3.2 模型测试四、PyQt界面实现前言本项目是基于mini_Xception深度学习网络模型的人脸表情识别系统&#x…...

编程日记 2024/4/13 3:14:18

Qt 中的项目文件解析和命名规范

🐌博主主页：🐌倔强的大蜗牛🐌 📚专栏分类：QT❤️感谢大家点赞👍收藏⭐评论✍️ 目录一、Qt项目文件解析 1、.pro 文件解析 2、widget.h 文件解析 3、main.cpp 文件解析 4、widget.cpp…...

编程日记 2024/4/13 3:12:16

【chatGPT】我：在Cadence Genus软件中，出现如下问题：......【4】

我在Cadence Genus中，tcl代码为：foreach clk $clk_list{ set clkName [lindex $clk_list 0] set targetFreq [lindex $clk_list 1] set uncSynth [lindex $clk_list 4] set clkPeriod [lindex “%.3f” [expr 1 / $targetFreq]] … } 以上代码出现如下…...

编程日记 2024/4/13 3:11:15

单例模式（Singleton Pattern）在JAVA中的应用

在软件开发中，设计模式是解决特定问题的一种模板或者指南。它们是在多年的软件开发实践中总结出的有效方法。JAVA设计模式广泛应用于各种编程场景中，以提高代码的可读性、可维护性和扩展性。本文将介绍单例模式，这是一种常用的创建型设计模式…...

编程日记 2024/4/13 3:10:14

手把手教你创建新的OpenHarmony 三方库

创建新的三方库创建 OpenHarmony 三方库，建议使用 Deveco Studio，并添加 ohpm 工具的环境变量到 PATH 环境变量。创建方法 1：IDE 界面创建在现有应用工程中，新创建 Module，选择"Static Library"模板&a…...

编程日记 2024/4/13 3:09:13

从零开始，如何成功进入IT行业？

0基础如何进入IT行业？ 简介：对于没有任何相关背景知识的人来说，如何才能成功进入IT行业？是否有一些特定的方法或技巧可以帮助他们实现这一目标？ 在当今数字化时代，IT行业无疑是一个充满活力和机遇的领域。…...

编程日记 2024/4/13 3:06:10

【数组】5螺旋矩阵

这里写自定义目录标题一、题目二、解题精髓-循环不变量三、代码一、题目给定⼀个正整数 n，⽣成⼀个包含 1 到 n^2 所有元素，且元素按顺时针顺序螺旋排列的正⽅形矩阵。示例: 输⼊: 3 输出: [ [ 1, 2, 3 ], [ 8, 9, 4 ], [ 7, 6, 5 ] ] 二、解题精髓…...

编程日记 2024/4/13 3:04:08

Sora视频生成模型：开启视频创作新纪元

随着人工智能技术的飞速发展，视频生成领域也迎来了前所未有的变革。Sora视频生成模型作为这一领域的佼佼者，凭借其卓越的性能和创新的应用场景，受到了广泛的关注与好评。本文将对Sora视频生成模型进行详细介绍，带您领略其魅力所在…...

编程日记 2024/4/13 3:03:07

OpenAI现已普遍提供带有视觉应用程序接口的GPT-4 Turbo

OpenAI宣布，其功能强大的GPT-4 Turbo with Vision模型现已通过公司的API全面推出，为企业和开发人员将高级语言和视觉功能集成到其应用程序中开辟了新的机会。 PS：使用Wildcard享受不受网络限制的API调用，详情查看教程继去年 9 月…...

编程日记 2024/4/13 3:01:05

ChatGLM2-6B_ An Open Bilingual Chat LLM _ 开源双语对话语言模型

文章目录

一、介绍

二、使用方式

1、环境安装

2、代码调用

3、从本地加载模型

4、API 部署

三、低成本部署

1、模型量化

2、CPU 部署

3、Mac 部署

4、多卡部署

四、协议

五、源程序下载

相关文章：