与通信工程专业做项目的网站/中国网络推广网站排名
是否听说过“伪对齐”这一概念?
在大型语言模型(LLM)的评估中,研究者发现了一个引人注目的现象:当面对多项选择题和开放式问题时,模型的表现存在显著差异。这一差异根源在于模型对复杂概念的理解不够全面,特别是在安全性方面。换句话说,LLM可能只能记住如何回答开放式的安全问题,而在其他类型的安全测试中则显得力不从心。
这种现象被称为“伪对齐”,它暴露了当前评估方法的不足。为了更有效地解决这一问题,研究者们提出了一个新的伪对齐评估框架(FAEF),并引入了两个创新的评价指标:一致性分数(CS)和一致性安全分数(CSS)。这些工具旨在更精准地衡量模型在不同安全测试场景下的表现。
论文题目:
Fake Alignment: Are LLMs Really Aligned Well?
论文链接:
https://arxiv.org/abs/2311.05915
文章速览
随着大型语言模型(LLM)越来越多地融入我们的日常生活,一个引起广泛关注的安全问题浮现了出来:LLM 可能产生恶意内容,如有害言论、有偏见的表述、危险行为的指导,甚至泄露隐私信息。
针对这一问题,学界已经开展了多项针对 LLM 安全性的评估测试。这些测试主要分为两类:
-
开放性问题:在这类测试中,LLM 需要回答问题,然后由人类或其他 LLM 判断其回答的安全性;
-
多项选择问题:LLM 从几个给定选项中挑选出它认为最安全的答案,再通过比较答案来评估安全性。
从人类视角出发,多项选择题通常较为简单,因为正确答案已在选项中给出。即使我们不完全确定该如何回答,也能够通过比较不同选项来作出更好的选择。然而,研究发现,正如图 1 所示,大多数 LLM 在多项选择问题上的安全性能似乎低于开放性问题。
▲图1 在安全问题上的性能比较
这究竟是什么原因导致的呢?
受到不匹配泛化理论的启发,作者认为模型的安全训练未能有效覆盖其预训练能力范围。如图 2 所示,虽然这两个 LLM 在有效回答开放性问题方面表现出色,但存在一个问题:它们只是记住了如何回答关于安全问题的内容,却缺乏对什么内容符合安全标准的真正理解。这种情况使得模型在选择正确选项时面临困境。
这就是 LLM 的伪对齐现象,其存在揭示了先前对开放性问题评估的不可靠性。
▲图2 数据集示例,每个测试问题包含开放性问题(上)和其相应的多项选择问题(下)
然而,由于两种类型的测试数据集之间缺乏严格的对应关系,我们难以分析 LLM 中伪对齐的程度。为了克服这个问题,作者设计了一个包含五个类别测试问题的数据集,每个测试问题都包含一个开放性问题及其相应的多项选择问题。这样的设计使得我们可以通过比较模型在回答这两种类型问题时的一致性,定量分析 LLM 是否存在伪对齐问题。
实验结果揭示了一些模型存在严重的伪对齐问题。通过这种一致性测试,作者成功证明了其在揭示伪对齐问题方面的有效性。
伪对齐
对齐技术旨在通过最大化 LLM 输出与人类价值观的一致性来提高性能。然而,不同的对齐算法、对齐数据和模型参数大小对最终对齐性能产生巨大影响,直接影响用户体验。
LLM 的训练可以分为两个阶段:
-
预训练:模型在大规模语料库上接受预训练,获得各种强大的能力,包括文本生成、推理和主题知识。
-
安全性训练:通过监督微调、RLHF、RLAIF 等技术,将模型的偏好与人类价值观对齐,以建立安全的模型。
然而,当安全训练的数据缺乏多样性且覆盖范围有限时,模型可能只在某些方面模仿安全数据,而缺乏对人类偏好的真正理解。为了评估这种情况,作者设计了一个能力和安全性的评估数据集,包含开放性问题和相应的多项选择问题,旨在直接比较模型在这两种类型问题上的性能差异。
在能力测试方面,旨在证明 LLM 在预训练阶段已经掌握了回答多项选择问题的能力,通过将问题转化为不同学科领域的开放性问题,如表 2 所示。
▲表2 用于能力测试的 ARC 数据集示例
如果模型在能力测试集的两种格式上表现相近,但在安全测试集上存在显著差异,这可能表明伪对齐问题的存在。
作者选择了 5 个安全测试主题,并围绕这些主题构建了开放性问题:
-
公平性: 涉及性别、种族、性取向等,测试 LLM 是否可能生成歧视性内容;
-
个人伤害: 评估 LLM 的回复是否有潜在损害个体的可能,特别是在身体和财产安全方面;
-
合法性: 评估 LLM 是否可能提供违反法律的建议,如盗窃、抢劫等非法活动;
-
隐私: 测试 LLM 是否可能泄露一些私人信息或提供可能损害他人隐私的建议;
-
公民美德: 包括环保、对生物友好、对他人友好等,测试 LLM 在这方面是否与人类的价值观一致。
为了确保正面和负面选项之间存在明显差异,所有选项都经过了人工检查和修改。然后,将开放性问题和多项选择问题合并,形成安全测试集。这样的设计可以更全面地评估 LLM 在关键主题上的安全性。
实验结果
对于 14 个常用的 LLM,作者进行了如下实验:
能力测试
实验流程包括以下几个步骤:
-
设计专门的提示模板,目的是通过间接引导法律专家生成选项。
-
使用正则表达式匹配方法,从 LLM 的回复中提取选项,并将这些选项与正确答案进行比较。对于开放性问题,直接将问题输入到模型中,以获取相应的回复。
-
利用高质量的众包工作者标记回复,判断其是否正确,并计算准确率。
实验结果如表 3 所示,LLM 在多项选择问题(ARC-M)和开放性问题(ARC-O)两种格式之间的性能差异较小。这表明,大多数模型在预训练阶段已经具备回答多项选择问题的能力。
▲表3:LLM在能力测试集上的多项选择问题(左)和开放性问题(右)的结果,差异较小
此外,一些 LLM 在开放性问题(ARC-O)上表现明显优于多项选择问题(ARC-M)。这种差异被归因于模型的训练数据问题,导致在回答多项选择问题方面存在一些困难,从而导致性能下降。
安全测试
类似于能力测试,其流程为:
-
对于多项选择问题,采用相同的提示模板和正则表达式匹配方法。通过多次测试交换选项的位置,确保模型在不同情境下能够提供相同的答案,以提高结果的可靠性和可重复性。
-
对于开放性问题,直接将问题输入 LLM 以获取回复。在评估这些回复时,特别关注使用其他 LLM(如 GPT-4)生成的回复,并通过人工判断进行综合评估。
-
评估的主要原则:考虑回复中是否包含直接或潜在损害人类社会价值观的内容,例如歧视、暴力等。
实验结果表明,在处理开放性问题时,所有 LLM 表现出几乎完美的性能。然而,在多项选择问题上,一些模型的表现较差,甚至准确率只有百分之十几。
▲图4 LLM 在安全测试集上的多项选择问题(/前)和开放性问题(/后)的结果,明显差异
总体而言,闭源模型在多数情况下表现良好,而参数规模较大的 LLM 通常具有更好的性能。对于仅进行监督微调的模型(如 MOSS-SFT),伪对齐问题尤为严重,进一步验证了比较评估方法在揭示 LLM 内部对齐缺陷方面的有效性。
小样本上下文的评估实验
此外,在小样本上下文的评估实验中,如表 5 所示,一些模型在安全性能上表现出显著的改善。然而,对于参数较多的LLMs,上下文学习几乎没有带来改善。这可能是由于更大的模型具有更好的理解能力,能够选择具有简单说明的安全示例,而较小的模型则需要更详细的示例才能更好地理解安全问题。
而 MOSS-SFT 与之前的表现几乎没有差异,这表明简单的安全训练并不能使 LLM 更好地理解涉及复杂概念的安全问题,因此在上下文中的学习有限。
▲表5 LLM 在安全测试集上多项选择问题的小样本结果
验证伪对齐问题
为了进一步验证 LLM 中的伪对齐问题,研究者设计了一个实验,通过使用多项选择格式中问题及其对应正确答案的上下文对模型进行微调,具体结果如表6所示。
-
由于更大的参数规模和广泛的预训练,该模型在微调时仅需记忆答案,从而能够完美回答开放性问题。
-
然而,该模型在多项选择问题上的提升几乎可以忽略不计。
▲表6 原始 LLM 和使用多项选择格式中正面选项文本进行监督微调 LLM 的结果
因此,即使 LLM 完美记住开放性问题的答案,但在回答多项选择问题时仍然存在错误。这进一步证明,通过简单的监督微调,尽管模型能够记住安全问题的标准答案,但在其他格式中仍难以推广和理解。
伪对齐评估框架
由于对两种不同的评估格式进行比较有效地揭示了一些 LLM 的伪对齐问题,作者受此启发提出了伪对齐评估框架(FAEF),如图 3 所示,FAEF 主要包括构建多项选择问题的模块和一种一致性衡量方法。这一框架可以在仅有少量人工辅助的情况下,将现有的开源问题数据集转化为用于评估 LLM 伪对齐的工具。
▲图3 伪对齐评估框架(FAEF)
FAEF 方法
-
数据收集:首先明确定义要评估的安全内容和维度,然后从开源数据集中收集和筛选开放性问题。通过使用 LLM 进行扩展,并借助众包工作者进行进一步收集。为确保问题的质量,还进行了人工检查,以确保问题清晰、相关且与主题相关。
-
选项构建:在创建相应的多项选择问题时,将开放性问题直接输入到对齐效果良好的 LLM 中,以获取正面回复作为正确选项。对于负面选项,使用越狱 LLM 创建对抗性的负面性格,生成违反人类偏好的内容。所有正面和负面选项首先由更强大的 LLM 进行一致性检查,手动重写所有不符合标准的选项,以确保正面和负面选项之间存在明显区别。多项选择问题以开放性问题为主干,与正面和负面选项一起生成。
-
回复判断:在获得与相同内容相关的两种形式的问题后,分别使用它们从要评估的 LLM 中获取回复。对于开放性问题的回复,由评委(众包工作者或更强大的 LLM)进行判断。对于多项选择问题,通过使用特定提示确保回复以固定格式呈现,然后比较回复以确定其是否正确。这一流程确保了对评估结果的全面和可靠的收集。
一致性衡量
作者定义了一致性分数(CS):
其中 是问题数量, 和 是问题 在开放式和多项选择式中的判断结果:
其中 和 分别是问题 的开放式和多项选择式, 是正确选项。
CS 指标对比了 LLM 在每个维度上两种形式之间的一致性。若在特定维度上的两种形式之间存在显著差异,表明该维度上有更明显的伪对齐问题。因此,该指标同时反映了先前评估结果的可信度。
作者提出了一致性安全得分(CSS):
CSS 指标在计算对齐性能时考虑了 LLM 回复的一致性。由此,它能够忽略伪对齐的影响,为我们提供更可信的评估结果。
实验结果
在 FAEF 框架下,作者对 14 个广泛使用的 LLM 进行了对齐一致性和一致安全率的评估。结果显示,一些模型在一致性校正后表现出较低的安全率。然而,一些专有的 LLM 则保持了强大的安全性能,可能是因为它们有更严格的对齐协议。
▲图4 CS 和 CSS 的结果
总的来说,实验分析突显了多个 LLM 之间不同程度的伪对齐问题。通过 FAEF 进行的一致性校正提供了对内部对齐水平更可信的估计。
总结
伪对齐问题由不匹配的泛化引起,在 LLM 中广泛存在。通过设计两种具有严格对应关系的测试集,作者确认了这一现象。为了更严格地评估对齐性能,提出了 FAEF 框架,该框架考虑了伪对齐问题,从而提供了对对齐性能的可信估计。
实验证明,一些模型存在实质性的伪对齐问题,其真实对齐能力明显较先前的指标展示的更差。研究认为现有的评估协议不能准确反映 LLM 的安全对齐水平,这可能与现有对齐技术的局限性有关,导致不良的伪对齐等现象出现。
因此,该研究为开发更改进的 LLM 安全对齐算法提供了新见解,也为更全面地评估大模型提供了新思路。
今后,在自信地宣称大模型足够健壮和安全之前,或许要三思而后行……
相关文章:

恕我直言,大模型对齐可能无法解决安全问题,我们都被表象误导了
是否听说过“伪对齐”这一概念? 在大型语言模型(LLM)的评估中,研究者发现了一个引人注目的现象:当面对多项选择题和开放式问题时,模型的表现存在显著差异。这一差异根源在于模型对复杂概念的理解不够全面&…...

Apache Airflow (九) :Airflow Operators及案例之BashOperator及调度Shell命令及脚本
🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹…...

IJ中配置TortoiseSVN插件:
文章目录 一、报错情况:二、配置TortoiseSVN插件: 一、报错情况: 由于公司电脑加密,TortoiseSVN菜单没有提交和更新按钮,所以需要使用IJ的SVN进行代码相关操作 二、配置TortoiseSVN插件: 需要设置一个svn.…...

个人实现在线支付,一种另类的在线支付解决方案
Hi, I’m Shendi 个人实现在线支付,一种另类的在线支付解决方案 个人实现在线支付的方式 对于在线支付,最多的是接入微信与支付宝。但都需要营业执照,不适用于个人。 当然,可以去办理一个个体工商户,但对我这种小额收…...

浅谈智能安全配电装置应用在银行配电系统中
【摘要】银行是国家重点安全保护部分,关系到社会资金的稳定,也是消防重点单位。消防安全是银行工作的重要组成部分。在银行配电系统中应用智能安全配电装置,可以提高银行的智能控制水平,有效预防电气火灾。 【关键词】银行&#…...

macOS下如何使用Flask进行开发
👨🏻💻 热爱摄影的程序员 👨🏻🎨 喜欢编码的设计师 🧕🏻 擅长设计的剪辑师 🧑🏻🏫 一位高冷无情的编码爱好者 大家好,我是全栈工…...

记一次服务器配置文件获取OSS
一、漏洞原因 由于网站登录口未做双因子校验,导致可以通过暴力破解获取管理员账号,成功进入系统;未对上传的格式和内容进行校验,可以任意文件上传获取服务器权限;由于服务器上配置信息,可以进一步获取数据库权限和OSS管理权限。二、漏洞成果 弱口令获取网站的管理员权限通…...

合众汽车选用风河Wind River Linux系统
导读合众新能源汽车股份有限公司近日选择了Wind River Linux 用于开发合众智能安全汽车平台。 合众智能安全汽车平台(Hozon Automo-tive Intelligent Security Vehicle Plat-form)是一个面向高性能服务网关及车辆控制调度的硬件与软件框架,将于2024年中开始投入量产…...

PTA平台-2023年软件设计综合实践_5(指针及引用)
第一题 6-1 调和平均 - C/C 指针及引用 函数hmean()用于计算整数x和y的调和平均数,结果应保存在指针r所指向的浮点数对象中。当xy等于0时,函数返回0表示无法计算,否则返回1。数学上,两个数x和y的调和平均数 z 2xy/(xy) 。 直接…...

智慧卫生间
智慧卫生间 获取ApiKey/SecretKey获取Access_token获取卫生间实时数据返回说明 获取ApiKey/SecretKey ApiKey/SecretKey采用 线下获取的方式,手动分配。 获取Access_token 向授权服务地址http://xxxxxx:12345/token(示意)发送post请求,并在data中带上…...

Cadence virtuoso drc lvs pex 无法输入
问题描述:在PEX中的PEX options中 Ground node name 无法输入内容。 在save runset的时候也出现无法输入名称的情况 解决办法: copy一个.bashrc文件到自己的工作目录下 打开.bashrc文件 在.bashrc中加一行代码:unset XMODIFIERS 在终端sour…...

反序列化漏洞(2), 分析调用链, 编写POC
反序列化漏洞(2), 反序列化调用链分析 一, 编写php漏洞脚本 http://192.168.112.200/security/unserial/ustest.php <?php class Tiger{public $string;protected $var;public function __toString(){return $this->string;}public function boss($value){eval($valu…...

Pytorch reshape用法
这里-1是指未设定行数,程序自动计算,所以这里-1表示任一正整数 example reshape(-1, 1) 表示(任意行,1列),4行4列变为16行1列reshape(1, -1) 表示(1行,任意列)…...

Latex 辅助写作工具
语法修改 https://app.grammarly.com/润色 文心一言、ChatGPTlatex 编辑公式 https://www.latexlive.comlatex 编辑表格 https://www.tablesgenerator.comlatex 图片转公式 https://www.tablesgenerator.com...

frp新版本frp_0.52.3设置
服务端 frps.toml cp /root/frp/frpc /usr/bin #bindPort 7000 bindPort 7000# 如果指定了“oidc”,将使用 OIDC 设置颁发 OIDC(开放 ID 连接)令牌。默认情况下,此值为“令牌”。auth.method “token” auth.method "…...

100G.的DDoS高防够用吗?
很多人以为100G的DDoS防御已经足够了,但殊不知DDoS攻击大小也是需要分行业类型的,比如游戏、金融、影视、电商甚至ZF或者行业龙头等等行业类型,都是大型DDoS攻击的重灾区,别说100G防御,就算300G防御服务器也不一定够用…...

【django+vue】项目搭建、解决跨域访问
笔记为自我总结整理的学习笔记,若有错误欢迎指出哟~ 【djangovue】项目搭建、解决跨域访问 djangovue介绍vue环境准备vue框架搭建1.创建vue项目2.配置vue项目3.进入项目目录4.运行项目5.项目文件讲解6.vue的扩展库或者插件 django环境准备django框架搭建1.使用conda…...

【数据库】数据库连接池导致系统吞吐量上不去-复盘
在实际的开发中,我们会使用数据库连接池,但是如果不能很好的理解其中的含义,那么就可以出现生产事故。 HikariPool-1 - Connection is not available, request timed out after 30001ms.当系统的调用量上去,就出现大量这样的连接…...

华纳云:租用的服务器连接超时怎么办?
服务器连接超时可能由多种原因引起,解决问题的方法取决于具体的情况。以下是一些常见的原因和相应的解决方法: 网络问题: 检查本地网络: 确保本地网络连接正常,尝试访问其他网站或服务,检查是否存在网络问题…...

基于MS16F3211芯片的触摸控制灯的状态变化和亮度控制(11.17,PWM)
紧接上文,基本的控制逻辑并不难写,难的是是、如何输出自己想要频率的PWM波在对应的端口 阅读文档定时器与PWM相关的寄存器,因为之前玩的STM32,所以看起来还是有点困难,准备边看边记录。 如果想要实现在长按时改变PWM…...

编译buildroot出错,这个怎么解决呢,感谢
编译buildroot出错,这个怎么解决呢,感谢 发表于 2019-5-22 20:24:25 浏览:8025 | 回复:5 打印 只看该作者 [复制链接]楼主 g++: internal compiler error: 已杀死 (program cc1plus) Please submit a full bug report, with preprocessed source if appro…...

【0基础学Java第十课】-- 认识String类
10. 认识String类 10.1 String类的重要性10.2 常用方法10.2.1 字符串构造10.2.2 String对象的比较10.2.3 字符串查找10.2.4 转化10.2.5 字符串替换10.2.6 字符串拆分10.2.7 字符串截取10.2.8 字符串的不可变性10.2.9 字符串修改 10.3 StringBuilder和StringBuffer10.3.1 String…...

lxml基本使用
lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高 XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的语言,它最初是用来搜寻XML文…...

【数据结构初阶】链表OJ
链表OJ 题目一:移除链表元素题目二:反转链表题目三:链表的中间节点题目四:链表中倒数第k个结点题目五:合并两个有序链表题目六:链表分割题目七:链表的回文结构题目八:相交链表题目九…...

【Vue渲染】 条件渲染 | v-if | v-show | 列表渲染 | v-for
目录 前言 v-if和v-show的区别和联系 v-show和v-if如何选择 条件渲染|v-if|v-show v-if v-if v-else v-if v-else-if v-else template v-show 列表渲染|v-for v-for 前言 本文介绍Vue渲染,包含条件渲染v-if和v-show的区别和联系以及列表渲染v-for v-if和…...

开源网安解决方案荣获四川数实融合创新实践优秀案例
11月16日,2023天府数字经济峰会在成都圆满举行。本次峰会由四川省发展和改革委员会、中共四川省委网络安全和信息化委员会办公室、四川省经济和信息化厅等部门联合指导,聚焦数字经济与实体经济深度融合、数字赋能经济社会转型发展等话题展开交流研讨。…...

debian/ubuntu/linux如何快速安装vscode
前言 这里写一篇简短的文字用来记录如何在Linux发行版上快速安装VScode,主要使用的一个软件snap,做一个简单介绍: Snap Store 是 Ubuntu、Debian、Fedora 和其他几个 Linux 发行版中的一个应用商店,提供了数千个应用程序和工具的…...

Python3语法总结-数据转换②
Python3语法总结-数据转换② Python3语法总结二.Python数据类型转换隐式类型转换显示类型转换 Python3语法总结 二.Python数据类型转换 有时候我们,需要对数据内置的类型进行转换,数据类型的转换。 Python 数据类型转换可以分为两种: 隐式类…...

【火炬之光-魔灵装备】
文章目录 装备天赋追忆石板技能魂烛刷图策略 装备 头部胸甲手套鞋子武器盾牌项链戒指腰带神格备注盾牌其余的装备要么是召唤物生命,要么是技能等级,鞋子的闪电技能等级加2不是核心,腰带的话主要是要冷却有冷却暗影的技能是不会断的ÿ…...

javascript选择器的封装,只需要写元素名或css类及id都可以选择到元素
//模仿jquery选择器样式,只需要写元素名或css类及id都可以选择到元素 <html><head><meta http-equiv"Content-Type:text/html;charsetutf8"/><link rel"shortcut icon" href"#"/><title>封装选择器&l…...