当前位置：首页 > news >正文

AlignBench：量身打造的中文大语言模型对齐评测

news 2026/2/8 15:46:40

对齐（Alignment），是指大语言模型（LLM）与人类意图的一致性。换言之，就是让LLM生成的结果更加符合人类的预期，包括遵循人类的指令，理解人类的意图，进而能产生有帮助的回答等。对齐是决定LLM能否在实际场景中得到真正应用的关键因素。因此，评估模型的对齐水平显得至关重要 —— 如果没有评估，我们就无法判断模型的优劣。

然而，至今为止，中文评测领域关于对齐的评测仍然是一片空白。当前广泛使用的一些评测数据集，如 MMLU，C-Eval 等，与真实使用场景的差别较大，不能有效评估模型的指令遵循能力。针对对齐水平的英文评测数据集，如 MT-Bench，AlpacaEval等，受限于其语言、数量、评测方式，也并不能有效评估中文大模型的对齐水平。考虑到以上因素，以及实际的需求，智谱清言团队推出了AlignBench。

论文：https://arxiv.org/abs/2311.18743
数据、代码：https://github.com/THUDM/AlignBench
项目网站：LLMBench

AlignBench是一个多维度、综合性的评测基准。目前来看，这是第一个专为中文大模型设计，能够在多维度上细致评测模型和人类意图对齐水平的评测基准。将 AlignBench 在评测数据和评测方法上与其他基准的对比情况总结如下：

为了让开发人员能够更加高效地完成评估，作者也开发了自动评估模型 CritiqueLLM ，它是一个能够达到 GPT-4 95% 评估能力的专用的评测模型。可以在 AlignBench 网站上使用 CritiqueLLM 进行评测。

数据集

AlignBench 从 ChatGLM 真实的使用场景中构建，经过初步构造，敏感性筛查，参考答案生成，难度筛选等步骤，构建了具有真实性、挑战性的评测数据集。AlignBench 构建了综合全面的分类体系，分为 8 个大类。

评测方法

AlignBench 使用评分模型（GPT-4，CritiqueLLM）为每个模型的回答打 1-10 的综合分数，代表其回答质量。AlignBench 构建了多维度、规则校准的模型评测方法，有效提升了模型评分和人类评分的一致性，以及模型评价的质量。

1. 多维度：AlignBench 针对每个种类定制了多个细分的评测维度（如创造性、逻辑性等等）。

2. 规则校准：AlignBench 引入了细致的打分规则，提升和人类的一致程度。

评测表明，所提出的模型评测方法提高了和人类评分的一致性。在生成的分析上，所提出的方法能够显著提高分析的质量。在对分析质量的成对评估中，所提出的方法分别以 12.4% 和 20.40% 的胜负差显著胜出。

评测结果

使用 gpt-4-0613 和 CritiqueLLM 分别作为评分模型对 17 个中文大模型进行了评测，结果分别如下。

结果表明：

1. 中文大模型相比于 gpt-4，在逻辑推理能力上差距较大。
2. 顶尖中文大模型相比于 gpt-4，在中文相关能力（尤其是中文理解类）能取得相近甚至更好的表现。
3. 中文大模型的开源活力充沛，顶尖开源模型对齐表现接近闭源模型，已处于同一梯队。

AlignBench：量身打造的中文大语言模型对齐评测

数据集

评测方法

评测结果

相关文章：

AlignBench：量身打造的中文大语言模型对齐评测

asp.net core 教程

概率论1：下象棋问题(3.5)

LLM调研笔记

K8S----RBAC

HBase 超大表迁移、备份、还原、同步演练手册：全量快照 + 实时同步（Snapshot + Replication）不停机迁移方案

统计直线上2个点的分布占比

uniapp创建/运行/发布项目

洛谷 P2367 语文成绩刷题笔记

Opencv_CUDA实现推理图像前处理与后处理

Android.bp 和 Android.mk 的对应关系

力扣-收集足够苹果的最小花园周长[思维+组合数]

【C语言】自定义类型：结构体深入解析（三）结构体实现位段最终篇

基于Hexo+GitHub Pages 的个人博客搭建

7. 结构型模式 - 代理模式

挑战Python100题(6)

gin实现登录逻辑，包含cookie，session

云原生Kubernetes：K8S集群版本升级(v1.22.14 - v1.23.14)

C++面向对象（OOP）编程-位运算详解

linux运行服务提示报错/usr/bin/java: 没有那个文件或目录

React Native 导航系统实战（React Navigation）

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

MVC 数据库

算法笔记2

MySQL账号权限管理指南：安全创建账户与精细授权技巧

使用Matplotlib创建炫酷的3D散点图：数据可视化的新维度

Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战

基于IDIG-GAN的小样本电机轴承故障诊断

Sklearn 机器学习缺失值处理获取填充失值的统计值

全面解析数据库：从基础概念到前沿应用