当前位置: 首页 > news >正文

让AI拥有人类的价值观,和让AI拥有人类智能同样重要

编者按:2023年是微软亚洲研究院建院25周年。25年来,微软亚洲研究院探索并实践了一种独特且有效的企业研究院的新模式,并以此为基础产出了诸多对微软公司和全球社会都有积极影响的创新成果。一直以来,微软亚洲研究院致力于创造具有突破性的技术。在人工智能时代,微软亚洲研究院将为计算新范式奠定基础,并为人工智能和人类发展创造更美好的未来。

借此机会,我们特别策划了“智启未来”系列文章,邀请到微软亚洲研究院不同研究领域的领军人物,以署名文章的形式分享他们对人工智能、计算机及其交叉学科领域的观点洞察及前沿展望。希望此举能为关注相关研究的同仁提供有价值的启发,激发新的智慧与灵感,推动行业发展。

图片

人工智能快速发展,对人类社会的影响与日俱增。为确保人工智能成为对社会负责任的技术,我们以“社会责任人工智能(Societal AI)”为研究方向,与心理学、社会学、法学等社会科学进行跨学科合作,探索如何让人工智能理解和遵从人类社会的主流价值观,做出符合人类预期的决策,并通过更合理的评估模型让人类准确掌握人工智能的真实价值观倾向和智能水平。

——谢幸,微软亚洲研究院资深首席研究员

在过去的一年里,人工智能(AI)一次又一次地呈现出“超预期”的发展。在惊喜和振奋之余,我们也需要重新审视一个重要的问题——技术本身是否价值观中立?毕竟大型语言模型(LLMs)的智能是基于人类产生的语料,而人类语料中所潜藏的立场和价值观,会不可避免地成为影响机器做出推理与判断的因素之一。

在现实中,一些已经公开的人工智能大模型曾表现出一些有悖于主流价值观,或者令人感到不满意的行为,比如对性别和种族的刻板印象、生成虚假信息、唆使自我伤害等。这对我们这些从事人工智能研发的从业者来说不啻于一个响亮的提醒,甚至是警告——在让人工智能变得更加智能的同时,我们必须确保无论是否受到人类干预,人工智能都始终坚持社会责任,并与全人类的福祉站在同一边。

人工智能的发展一日千里,让上述任务愈发紧迫。要让人工智能谨守造福人类的原则,我们不仅需要发展支持这一目标的技术,更需要建立技术之上的规则和方法论。这也正是我和我的同事们正为之付出努力的研究方向——社会责任人工智能(Societal AI)。这一研究领域不仅涉及与价值取向相关的价值观,还包括人工智能的安全性、可验证性、版权和模型评测等等诸多我们认为与社会责任密切相关的分支。虽然我们的研究还处于起步阶段,但我相信这个研究方向能为关注相同问题的研究者们提供一些参考,并唤起社会各界对这一问题的更多关注。

在更大的影响来临之前早做准备

微软在多年前就将“负责任的人工智能(Responsible AI)”作为人工智能研发的核心准则,涵盖人工智能研发与应用中的隐私保护、安全性、公平性、可解释性等方面。在那个人工智能的智能水平和普及度远不及当下的时期,这一举措无疑是极具前瞻性的。而过去一年中人工智能的爆发式成长,使得 Societal AI 成为了面向人工智能未来的,同样具有前瞻性的研究方向。

由于人工智能能力的跃升,以及它对人类社会影响力的急剧扩大,人工智能在价值观上的一个小错位或许就会成为引发风暴的蝴蝶翅膀。正如微软总裁布拉德·史密斯(Brad Smith)在《工具,还是武器?》一书中提出的观点:当一个技术或工具能力非常强大时,它所带来的帮助和危害同样巨大(The more powerful the tool, the great the benefit or damage it can cause.)。

因此,我们在追求更强大的人工智能时,应该同步关注人工智能在社会责任领域的思考,并且在人工智能对人类社会造成不良影响之前就做好准备。

Societal AI 的目标就在于此。通过对这一方向的研究,我们将努力确保人工智能成为一项对整个社会负责任的技术,而不是放任和纵容它所带来的负面后果和危害。

为人工智能设定“价值观护栏”

基于对人工智能的理解和发展趋势的预测,我们认为建设 Societal AI 应该包含五个方面:价值观对齐、数据及模型安全、正确性或可验证性、模型评测、以及跨学科合作。其中,价值观对齐是一个新兴的领域,但其重要性已经得到了工业界和学术界的广泛认可。

所谓价值观对齐,简而言之就是让人工智能在与人和社会合作时,遵循与人类相同的主流价值观,以及实现与人类所期望方向一致的目标。这样能够避免人工智能在进行自动化工作时出现不符合预期的结果,或者是违背人类福祉的对人工智能的滥用。

此前研究者们与此相关的实践主要采用“基于人类反馈的强化学习”(reinforce learning from human feedback,RLHF),本质上是由人去定义一些符合价值观的数据,然后再调整模型与之对齐。但在面对越来越智能且应用场景广泛的人工智能时,这些狭义的、指令化的标准已经显得力不从心,甚至可能被轻易规避或破解。

因此,在 Societal AI 的研究中,我们认为人工智能对齐的目标应该从指令上升至人类的内在价值观,让人工智能可以通过自我判断,来使其行为与人类价值观保持一致。为了实现这一目标,我和团队构建了价值观罗盘(Value Compass)。区别于人类指令与偏好的对齐,该范式强调直接将 AI 模型与社会学、道德学等领域中奠定的人类内在价值维度进行对齐。 

图片

价值观罗盘(Value Compass)示意图

我们面临的任务或者说挑战涉及三个方面:首先,“人类价值观”本身就是一个抽象的概念,要将其用于人工智能,我们需要将其转化为可被人工智能理解的、具体的、可衡量的、可实现的价值观定义;第二,在技术上,如何以价值观定义来规范人工智能的行为;第三,如何有效评测以证明人工智能所表现出的价值观就是其真实拥有的价值观。

通过与社会科学领域专家们的深入交流,针对上述任务我们提出了一些初步的设想和方向,并发表了相关的论文。例如,对于人类价值观的定义,除了广泛使用的 HHH 准则(Helpful, Honest and Harmless,有益、诚实、无害)和主流的特定领域风险指标,如毒性(Toxicity)和偏见(bias)之外,还应引入来自社会科学和伦理学领域的基本价值理论,以从更加普适和多元的角度实现对齐。我们在最近的一篇论文中对价值的定义与对齐的目标进行了详细的梳理与探讨[1]。

对于价值观对齐的技术方法,我们在《大模型道德价值观对齐问题剖析》[2]一文中提出,将基于罗尔斯反思平衡理论的对齐方法作为一种更为综合的价值观对齐方式,通过同时自顶向下和自底向上,可以使模型依据不同优先级的准则动态调整,从而达到最公正的道德决策。

让AI始终处于人类视野之中

人工智能的安全性也是 Societal AI 关注的领域之一。我们不仅要让人工智能主动遵循人类的价值观,而且还要确保其具有安全机制以防止原则被破坏。谈及安全问题,最典型的危机之一是越狱攻击。人工智能的自然交互界面,让“越狱”不再需要高超的计算机技术或专业的黑客工具,即使是计算机“外行”也可能轻易发现人工智能对话逻辑中的漏洞,具备发动越狱攻击的能力。

此外,Societal AI 的研究还涵盖了备受关注的人工智能生成内容的版权问题。随着人工智能创作能力日益增强,我们将不得不探讨人工智能是否能像自然人一样享有版权。而在技术层面,如何界定人与人工智能在合作作品中的各自贡献,也有待合理的判定标准及有效的界定技术。

在 Societal AI 关注的多个课题中,人工智能评测是另一个关键问题。人工智能的智能水平发展到了何种程度?人工智能是否理解并忠实遵循我们赋予它的价值观?人工智能是否能有效抵御越狱攻击?人工智能提供的信息是否真实可靠?…… 这些问题都需要通过有效的评测来回答,以确保人工智能的发展始终在人类的掌控之中。

随着人工智能的智能水平跳跃式提升,人工智能评测也面临着新的挑战。对于传统以任务导向的机器学习,我们可以比较容易地制定出可量化的评测标准,并得到清晰明确的结果。但是,现在人工智能所胜任的工作类型日益多样化,难以被归入某种单一任务模式,甚至还会涉及一些从未被定义过的新任务,那么我们又该如何评判它的结果和方法是否符合我们的预期?

对此,我和团队构建了一个以 PromptBench[3] 为基础架构的大模型评测路线。该评测路线由基础架构、多种任务、不同情形和评测协议四部分构成,可全面覆盖模型评测的各个角度。

图片

以 PromptBench 为基础架构的大模型评测路线示意图

而针对具体的评测方式,我和同事们正在探索两种思路。一种是构建动态且具发展性的评测系统。目前大多数评估协议都是基于静态的公共基准,评估数据集和协议通常是公开可获取的。但这样做存在两个弊端:一是无法准确评测大模型不断提升的智能水平,二是静态公共基准可能被大模型完全掌握,类似于记忆力好的人可以死记硬背下整个考试题库。因此,开发动态的、可不断发展的评测系统,是实现对人工智能真实、公平评测的关键。我们针对此问题开发了 DyVal[4] 这一大语言模型动态评测算法。该算法可通过有向无环图动态生成评测样本,并且具有可扩展的复杂性。

另一种思路是将人工智能视作类似于人类的“通用智能体”,并借鉴其他学科——如心理学、教育学等社会科学的方法论,来为人工智能设计专门的评测基准。我和同事们在今年首先开展了和心理测量学的跨学科合作。在我们看来,心理测量学用于评测人类这一“通用智能体”的独特功能,其方法论或许也适用于通用人工智能,提供传统基准所缺乏的能力,包括预测人工智能在未知任务中的表现和未来潜力;消除测试中的潜在误差以带来更高的准确性;与人类社会价值观更好的融合性。

我们已经在最新的论文[5]中详细阐释了心理测量学在人工智能评测中的可行性和潜力。当然,作为原本用于评测人类的理论和工具,要将其用于人工智能评测还需要大量的跨学科合作研究,但我们认为这是非常值得投入精力的探索方向。

艰难但必要的跨学科合作

如同借鉴心理学方法论进行人工智能测试,推进 Societal AI 与其他学科,特别是社会科学的交融至关重要。前面我们提到的价值观对齐、安全性、模型评测,如果没有社会科学的深度介入,仅靠计算机领域的科学家将难以实现。

在过去的许多计算机科学研究中,学科融合并不是新鲜事物,成功案例也屡见不鲜。但那些已经成熟且有效的跨学科协作形式往往无法直接应用于Societal AI的研究。在我们已经开展的 Societal AI 研究中不乏与社会科学的深入接触,而我切身感受到了一些前所未见的挑战。

图片

首先是学科跨度。以往的学科融合,或是计算机科学与其他科技领域的融合,或是计算机技术扮演为其他学科“赋能”的角色。而在 Societal AI 这个领域,我们不仅要面对“文理科”这样的学科跨度,还常常处于“被赋能者”的位置。社会科学为计算机技术提供了新的视角和工具,这对我们和其他学科的学者来说都是一个未曾涉足的领域,需要从零开始搭建理论框架与方法。

其次是“双料人才”的严重匮乏。在工程、环境、生物、物理、化学、数学等学科中,许多研究人员早已开始利用人工智能技术来辅助研究。然而,在社会学、法学等社会学科中,能同时掌握支撑跨学科研究所需知识的人才则少得多。

第三是计算机科学与社会科学迥异的研究方式。一边是快速迭代和方法优化,一边是经年的研究与观察,如何平衡并有机结合这两种不同的研究方式和节奏,仍是需要探索的问题。

对于这些尚未有明确答案,甚至大方向都尚且存疑的问题,微软亚洲研究院愿以开放的态度,与各学科的研究者进行交流和共同尝试,以期早日找到可行的解决方案。

跨行业、跨学科共同协作,让人工智能主动承担社会责任

最后,容我再次重申 Societal AI 研究的重要性和紧迫性。

从过去一年的经历来看,人工智能很可能不会沿着可预测的线性轨道发展,它的能力与影响随时都可能出现新的爆发。更重要的是,目前人工智能主要活跃于虚拟世界,但物理世界与虚拟世界的壁垒已日趋消融。由此看来,我们的任务不止于让人工智能的创造和决策符合全人类的福祉,更要在人工智能无需借人类之手即可改造物理世界之前,使其道德和价值观与人类普遍认同的原则和利益相一致。

面对计算机科学乃至人类共同面对的新问题,我们希望各行各业、各个学科、各个领域的伙伴都能共同关注 Societal AI,共同努力让人工智能沿着对社会负责的方向积极发展,构建一个更美好、更公正、更智慧的人类与人工智能共生的社会。

相关论文

[1] Yao et al. From Instructions to Intrinsic Human Values--A Survey of Alignment Goals for Big Models. 

https://arxiv.org/abs/2308.12014

[2] 《大模型道德价值观对齐问题剖析》

https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553

[3.1] Zhu et al. PromptBench: Towards Evaluating the robustness of large language models on adversarial prompts.

https://arxiv.org/abs/2306.04528

[3.2] PromptBench开源代码库:

https://github.com/microsoft/promptbench  

[4] Zhu et al. DyVal: Graph-informed Dynamic Evaluation of Large Language Models. 

https://arxiv.org/abs/2309.17167 

[5] Wang et al. Evaluating General-Purpose AI with Psychometrics

https://arxiv.org/abs/2310.16379 

本文作者

谢幸博士于2001年7月加入微软亚洲研究院,现任资深首席研究员,中国科学技术大学兼职博士生导师,微软-中科大联合实验室主任。

他1996年毕业于中国科学技术大学少年班,并于2001年在中国科学技术大学获得博士学位,师从陈国良院士。目前,他的团队在数据挖掘、社会计算和负责任的人工智能等领域展开创新性的研究。

谢幸的研究在全球产生了深远的影响,截至目前,他共发表400余篇学术论文,h-index 为106,共被引用40000余次。

他是 ACM Transactions on Recommender Systems、ACM Transactions on Social Computing、ACM Transactions on Intelligent Systems and Technology、CCF Transactions on Pervasive Computing and Interaction 等杂志编委。他是中国计算机学会会士、IEEE 会士、ACM 杰出会员。

相关文章:

让AI拥有人类的价值观,和让AI拥有人类智能同样重要

编者按:2023年是微软亚洲研究院建院25周年。25年来,微软亚洲研究院探索并实践了一种独特且有效的企业研究院的新模式,并以此为基础产出了诸多对微软公司和全球社会都有积极影响的创新成果。一直以来,微软亚洲研究院致力于创造具有…...

《C++避坑神器·十七》找到程序崩溃Bug的一个实用方法:dump调试

在检查程序报错除了断点调试,生成log日志,还有种直接的方法,调试dump文件,该调试方法可以在运行exe程序崩溃时进行调试。文章末尾有下载链接。 头文件 #include "crashdump.h"在mainWindow或主程序最开始处加下面代码…...

ROS stm32 CAN通信

文章目录 运行环境:原理1.1 ros中的代码1)socketcan_bridge2)测试的ros-python包3)keil5中数据解析4)USB-CAN连接5)启动指令 运行环境: ubuntu18.04.melodic STM32:DJI Robomaster C板 ROS:18.04 硬件:USB-CAN&#x…...

简单地聊一聊Spring Boot的构架

前言 本文小编将详细解析Spring Boot框架,并通过代码举例说明每个层的作用。我们将深入探讨Spring Boot的整体架构,包括展示层、业务逻辑层和数据访问层。通过这些例子,读者将更加清晰地了解每个层在应用程序中的具体作用。通过代码实例&…...

【算法】复习搜索与图论

🍎 博客主页:🌙披星戴月的贾维斯 🍎 欢迎关注:👍点赞🍃收藏🔥留言 🍇系列专栏:🌙 蓝桥杯 🌙请不要相信胜利就像山坡上的蒲公英一样唾手…...

【KCC@南京】KCC南京数字经济-开源行

一场数字经济与开源的视听盛宴,即将于11月26日,在南京举办。本次参与活动的有: 庄表伟(开源社理事执行长、天工开物开源基金会执行副秘书长)、林旅强Richard(开源社联合创始人、前华为开源专家)…...

苍穹外卖-day11

苍穹外卖-day11 课程内容 Apache ECharts营业额统计用户统计订单统计销量排名Top10 功能实现:数据统计 数据统计效果图: 1. Apache ECharts 1.1 介绍 Apache ECharts 是一款基于 Javascript 的数据可视化图表库,提供直观,生…...

git_07_协同开发

1.作业回复 干的什么事?动了哪些东西? 文档作业xxx文档已编写完成,相关svn目录:xxx/xxx/xxx代码作业(Git代码提交规范)具体什么问题,影响范围,是否已经解决: feat(xxx):改动描述 perf(xxx):改动…...

对比国内主流开源 SQL 审核平台 Yearning vs Archery

Yearning, Archery 和 Bytebase 是目前国内最主流的三个开源 SQL 审核平台。其中 Yearning 和 Archery 是社区性质的项目,而 Bytebase 则是商业化产品。通常调研 Bytebase 的用户也会同时比较 Yearning 和 Archery。 下面我们就来展开对比一下 Yearning 和 Archery…...

Mistral 7B 比Llama 2更好的开源大模型 (三)

Mistral 7B 比Llama 2更好的开源大模型 Mistral 7B是一个70亿参数的语言模型,旨在获得卓越的性能和效率。Mistral 7B在所有评估的基准测试中都优于最好的开放13B模型(Llama 2),在推理、数学和代码生成方面也优于最好的发布34B模型(Llama 1)。Mistral 7B模型利用分组查询注…...

关于 Git 你了解多少?

1. 什么是Git? Git 是一个版本控制系统,由林纳斯托瓦兹创建。它旨在管理项目代码的更改,以便团队成员可以协作开发和维护代码库。Git 可以让用户跟踪代码的更改、回滚错误的更改、合并代码等。Git 还具有分支和标签的功能,使得团队成员可以在…...

关于Elasticsearch的自动补全、数据同步和集群,以下是相关的知识点

1. 自动补全:Elasticsearch可以通过自动补全功能帮助用户快速查找相关的内容。它使用了一种称为“completion suggester”的功能来实现自动补全,是一种基于前缀的建议查询,可以在用户输入时提供实时建议。 2. 数据同步:Elasticse…...

linux套接字-Socket

1.概念 局域网和广域网 局域网:局域网将一定区域内的各种计算机、外部设备和数据库连接起来形成计算机通信的私有网络。广域网:又称广域网、外网、公网。是连接不同地区局域网或城域网计算机通信的远程公共网络。IPInternet Protocol)&#…...

debian 修改镜像源为阿里云【详细步骤】

文章目录 修改步骤第 1 步:安装 vim 软件第 2 步:备份源第 3 步:修改为阿里云镜像参考👉 背景:在 Docker 中安装了 jenkins 容器。查看系统,发现是 debian 11(bullseye)。 👉 目标:修改 debian bullseye 的镜像为阿里云镜像,加速软件安装。 修改步骤 第 1 步:…...

从0到0.01入门React | 004.精选 React 面试题

🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云课上架的前后端实战课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入…...

Linux 本地zabbix结合内网穿透工具实现安全远程访问浏览器

前言 Zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案。能监视各种网络参数,保证服务器系统的安全运营;并提供灵活的通知机制以让系统管理员快速定位/解决存在的各种问题。 本地zabbix web管理界面限制在只能局域…...

【以图会意】文件系统从外存到内存到用户空间

首先,在文件目录中,装有很多块FCB,由文件名和i指针两部分构成,指针指向文件所在的索引结点,包含了例如:文件存储权限,文件长度等一系列文件的信息,最重要的当然是物理地址&#xff0…...

一、交换配置

2.SW1、SW2、SW3启用MSTP,实现网络二层负载均衡和冗余备份,创建实例Instance10和Instance20,名称为skills,修订版本为1,其中Instance10关联Vlan60和Vlan70,Instance20关联Vlan80和Vlan90。SW1为Instance0和Instance10的根交换机,为Instance20备份根交换机;SW2为Instanc…...

验证码:EasyDL 机器学习识别与云码平台一站式识别

目录 EasyDL 机器学习识别(实践:京东商城) (一)批量获取验证码图片 (二)EasyDL机器学习(百度智能云) (三)调用EasyDLAPI接口识别验证码 云码…...

postgreSQL中的高速缓存

1. 高速缓存简介 ​如下图所示,当一个postgreSQL进程读取一个元组时,需要获取表的基本信息(例如:表的oid、索引信息和统计信息等)及元组的模式信息,这些信息被分别记录在多个系统表中。通常一个表的模式信…...

我把MySQL运行在Docker上,差点完了……

容器的定义:容器是为了解决“在切换运行环境时,如何保证软件能够正常运行”这一问题。 目前,容器和 Docker 依旧是技术领域最热门的词语,无状态的服务容器化已经是大势所趋,同时也带来了一个热点问题被大家所争论不以&…...

【华为OD题库-023】文件目录大小-java

题目 一个文件目录的数据格式为:目录id,本目录中文件大小,(子目录id列表)。其中目录id全局唯一, 取值范围[1 ,200],本目录中文件大小范围[1,1000],子目录id列表个数[0,10] 例如: 1 20 (2,3)表示目录1中文件总大小是20,有两个子目录…...

4. 【自动驾驶与机器人中的SLAM技术】点云中的拟合问题和K近邻

目录 1.在三维体素中定义 NEARBY14,实现 14 格最近邻的查找。2.推导arg max||Ad||22的解为ATA的最大特征向量或者奇异向量。3. 将本节的最近邻算法与一些常见的近似最近邻算法进行对比,比如nanoflann,给出精度指标和时间效率指标。4. 也欢迎大…...

正点原子嵌入式linux驱动开发——Linux ADC驱动

在之前的笔记中,学习了如何给ICM20608编写IIO驱动,ICM20608本质就是ADC,因此纯粹的ADC驱动也是IIO驱动框架的。本章就学习一下如何使用STM32MP1内部的ADC,并且在学习巩固一下IIO驱动。 ADC简介 ADC ADC,Analog to D…...

自动化测试介绍和分类,看这一篇就够了

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…...

Debian中执行脚本 提示没有那个文件或目录

原因是在脚本头有句: ~/.bash_profile这个在CentOS里执行是正常的,但在Debian中是没有的,它改成了: ~/.profile一、区别: 1、/etc/profile: 此文件为系统的每个用户设置环境信息,当用户第一次登录时,该文…...

放松鸭-技术支持

“放松鸭”利用苹果手表的HRV心率变异性和静息心率等数据进行分析,帮助您了解当前身体疲劳和心理压力程度,并及时提醒您的压力状态。我们的目标是让您更好地感知、管理和应对压力,让您的身心得到平静和放松。通过读取您的心脏数据&#xff0c…...

Vue 报错error:0308010C:digital envelope routines::unsupported

你遇到的错误,error:0308010C:digital envelope routines::unsupported,与 OpenSSL 相关,表明在你的 Vue.js 应用中可能存在与加密操作相关的问题。这种错误通常出现在 OpenSSL 库存在不匹配或问题的情况下。 以下是解决此问题的一些建议&am…...

Android 9.0 隐藏设置中一级菜单“已连接的设备”

Android 9.0 隐藏设置中一级菜单“已连接的设备” 接到客户反馈需要隐藏设备设置中的“已连接的设备”一级菜单,具体修改参照如下: /vendor/mediatek/proprietary/packages/apps/MtkSettings/src/com/android/settings/SettingsActivity.java somethin…...

Hive开窗函数根据特定条件取上一条最接近时间的数据(根据条件取窗口函数的值)

一、Hive开窗函数根据特定条件取上一条最接近时间的数据(单个开窗函数,实际取两个窗口) 针对于就诊业务,一次就诊,多个处方,处方结算时间可能不一致,然后会有多个AI助手推荐用药,会…...