当前位置: 首页 > news >正文

有待挖掘的金矿:大模型的幻觉之境

      人工智能正在迅速变得无处不在,在科学和学术研究中,自回归的大型语言模型(LLM)走在了前列。自从LLM的概念被整合到自然语言处理(NLP)的讨论中以来,LLM中的幻觉现象一直被广泛视为一个显著的社会危害和一个关键的瓶颈,阻碍了LLM在现实世界中的应用。无论是在流行且全面的学术调查中,还是在面向公众的技术报告中,都将幻觉问题定位为LLM的主要伦理和安全陷阱之一,应该与其他问题(如偏见和毒性)一起得到严重缓解。因此,将幻觉减少到可以忽略不计的水平的承诺,不仅被视为一个技术挑战,也是更广泛使命的关键组成部分,以减轻与LLM的广泛部署和广泛采用相关的社会污名和系统风险。

     然而,一小部分工作提出了一种观点,即幻觉并非本质上有害。这种探索性的观点强调了幻觉的潜在价值和合理必要性。最近的研究表明,幻觉是统计上的必然,并且由于创造性、生成性和信息准确性之间的权衡,从LLM中消除幻觉是不可能的。此外,在许多特定领域的应用中,实现创造性和事实性之间的优化平衡,比仅仅试图消除幻觉更能有效地最大化LLM的效用。幻觉可能特别有价值的LLM用例包括发现新型蛋白质、为创意写作提供灵感以及制定创新的法律类比。

    在本文中,我们试图扩大幻觉的概念,并认为幻觉更接近于“虚构”这一概念,这一术语已经在关于AI的公共话语中获得了流行,但尚未在学术文献中广泛传播。

1 “虚构”(confabulation)VS“幻觉”(hallucination)

"Confabulation" 和 "hallucination" 都是从精神病学借用过来的人化类比,但"confabulation"因避免了暗示LLMs具有感官体验或意识的棘手含义,且更中性,因此在AI公共话语中被视为"hallucination"的首选替代词

1.1 现有定义的局限性

现有的定义主要关注伪造与事实不符的特征,忽略了其在人类交流中的社会和认知效益。

这些定义没有充分考虑人类在填补知识空白时,倾向于使用叙事作为认知资源的倾向。

1.2 新的定义

伪造是一种叙事冲动,即生成更具实质性、更连贯的输出的倾向。这种冲动体现了人类利用叙事进行理解和交流的倾向。

伪造可以产生虚构但可信的信息,帮助人们填补知识空白,并构建连贯的语义意义。

2 数据、方法和结果

2.1 基准数据集

FaithDial:一个无幻觉的对话基准,介于寻求信息的用户和聊天机器人之间,改编自“维基百科巫师”。Mechanical Turk注释器将WoW的人类生成响应标记为“幻觉”或真实响应。真实响应被细分为三个类别:“蕴含”(Entailment)、“不合作”(Uncooperative)和“通用”(Generic),并对21445个原始响应进行了忠实且基于知识的编辑。

BEGIN是对FaithDial进行的初步研究,旨在选择一个现有的基准进行后续的大规模注释和编辑。作为一个较小的专家策划集,它包括信息寻求查询以及人类编写和模型生成(GPT-2、DoHA和CRTL)的响应,每种响应都使用与FaithDial略有不同的幻觉分类法进行标记(增加了“部分幻觉”作为标签),由专家注释器完成。我们采用BEGIN作为对我们在HaluEval上发现的叙事模式的模型和数据集的一致性和鲁棒性的验证,以确认不同数据集和模型之间叙事模式的一致性和鲁棒性。

HaluEval是一个全面的数据集,展示了合理但幻觉的ChatGPT生成与其真相对应物。与FaithDial和BEGIN更细粒度的幻觉标签不同,HaluEval只区分幻觉和真相响应。我们只使用HaluEval的对话部分,包含10000个样本,以保持与其他基准的领域一致性。

对于FaithDial和BEGIN数据集,我们将所有不包含“幻觉”标签的输出视为“真相”,并将所有包含“幻觉”标签以及一个额外真实标签的输出视为“部分”幻觉/真相。这种聚合允许跨数据集进行更直接的比较。如下所示:虚构文本表现出更高水平的叙事性,因此可以被视为一种叙事丰富的行为。

2.2 方法

  • 叙事性评估: 使用微调后的 ELECTRA-large 模型,对幻觉文本和真实文本进行叙事性评估,并比较两组文本的叙事性得分。
  • 叙事性与幻觉标签的相关性分析: 使用二元逻辑回归模型,分析叙事性得分与幻觉标签之间的预测关系,以确定叙事性是否可以预测幻觉标签。
  • 叙事性与连贯性的相关性分析: 使用贝塔回归模型,分析叙事性得分与对话连贯性得分之间的相关性,以确定叙事性是否与连贯性相关。

2.3 结果

  • 叙事性: 在所有三个基准数据集中,幻觉文本的叙事性得分都显著高于部分幻觉文本和非幻觉文本,以及它们的真实回复
  • 叙事性与幻觉标签: 叙事性得分可以显著预测幻觉标签,即叙事性越高的文本,更有可能被标注为幻觉。
  • 叙事性与连贯性: 叙事性得分与对话连贯性得分之间存在显著正相关关系,即叙事性越高的文本,对话的连贯性也越高。

3 虚构价值有待挖掘

我们认为,虚构的叙事丰富特性不应被视为缺陷,而是LLM与人类使用叙事作为说服、身份构建和社会协商多功能工具的既定倾向相一致的标志。反过来,规范观点对虚构的不加思索的否定将冒着从LLM的能力中消除对沟通和意义构建至关重要的行为和认知能力的风险。虚构价值有待进一步挖掘:

  • 叙事性增强: 伪造的输出往往具有更高的叙事性,即内容更加连贯和有故事性。这与人类倾向于使用叙事来理解和沟通的方式相似,因此可能更易于理解和接受。
  • 启发式工具: 伪造的输出可以作为启发式工具,帮助人们探索特定领域的场景,并利用伪造的特性进行创造性思维。
  • 对抗样本: 伪造的输出可以用于构建对抗样本,帮助提高模型的鲁棒性和可靠性。
  • 合成训练数据: 伪造的输出可以作为合成训练数据,用于增强模型的泛化能力。

4 未来研究方向

我们提出对LLM虚构现象作为潜在资源的系统性辩护,而不是一个绝对的负面陷阱。我们认为,认为LLM产生幻觉是因为它们不可靠、不忠实,最终不像人类的观点过于简化。相反,它们虚构并表现出与人类讲故事冲动非常相似的叙事丰富行为模式——也许幻觉使它们比我们愿意承认的更像我们

  • 因果关系未明确:尽管研究发现叙述性与连贯性之间存在关联,但研究并未断言叙述性直接驱动连贯性,这需要更全面的方法来阐明。
  • 跨学科视角的支持:当前结论得到了跨学科视角的支持,但需要更健壮的叙事建模方法和更全面的人类评估来进一步探讨这一关联。
  • 人类-AI交互的验证:研究中观察到的叙述性和连贯性特征在人类-人类交流中被认为是有益的,但这些特性在人类-AI交互中的适用性需要通过基于人类的评估来验证。
  • 后续实验计划:计划通过包含人类参与者的实验来验证叙事参与的益处,并探索虚构在不同领域的应用潜力。
  • 跨领域应用探索:如果叙事丰富的虚构得到有效验证,将为未来研究开辟新途径,包括在新闻、广告等领域的应用,并可能激发更多跨学科的探索。

相关文章:

有待挖掘的金矿:大模型的幻觉之境

人工智能正在迅速变得无处不在,在科学和学术研究中,自回归的大型语言模型(LLM)走在了前列。自从LLM的概念被整合到自然语言处理(NLP)的讨论中以来,LLM中的幻觉现象一直被广泛视为一个显著的社会…...

常见八大排序(纯C语言版)

目录 基本排序 一.冒泡排序 二.选择排序 三.插入排序 进阶排序(递归实现) 一.快排hoare排序 1.单趟排序 快排步凑 快排的优化 (1)三数取中 (2)小区间优化 二.前后指针法(递归实现) 三.快排的非…...

vue2学习(06)----vuex

目录 一、vuex概述 1.定义 优势: 2.构建环境步骤 3.state状态 4.使用数据 4.1通过store直接访问 4.2通过辅助函数 5.mutations修改数据(同步操作) 5.1定义 5.2步骤 5.2.1定义mutations对象,对象中存放修改state数据的方…...

webflux 拦截器验证token

在WebFlux中,我们可以使用拦截器(Interceptor)来验证Token。以下是一个简单的示例: 1. 首先,创建一个名为TokenInterceptor的类,实现HandlerInterceptor接口: java import org.springframewor…...

C++中的继承方式

目录 摘要 1. 公有继承(Public Inheritance) 2. 保护继承(Protected Inheritance) 3. 私有继承(Private Inheritance) 4. 多重继承(Multiple Inheritance) 继承列表的项数 摘要…...

Vue进阶之Vue无代码可视化项目(四)

Vue无代码可视化项目 左侧栏第一步LeftPanel.vueLayoutView.vuebase.css第二步LayoutView.vueLeftPanel.vue编排引擎smooth-dnd安装创建文件SmoothDndContainer.tsutils.tsSmoothDndDraggable.tsLeftPanel.vue左侧栏 第一步 创建LeftPanel LeftPanel.vue <script setup…...

day40--Redis(二)实战篇

实战篇Redis 开篇导读 亲爱的小伙伴们大家好&#xff0c;马上咱们就开始实战篇的内容了&#xff0c;相信通过本章的学习&#xff0c;小伙伴们就能理解各种redis的使用啦&#xff0c;接下来咱们来一起看看实战篇我们要学习一些什么样的内容 短信登录 这一块我们会使用redis共…...

使用Ollama+OpenWebUI本地部署Gemma谷歌AI开放大模型完整指南

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f916;AI大模型部署与应用专栏&#xff1a;点击&#xff01; &#x1f916;Ollama部署LLM专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2024年6月4日10点50分 &#x1f004;️文章质量&#xff1…...

react的自定义组件

// 自定义组件(首字母必须大写) function Button() {return <button>click me</button>; } const Button1()>{return <button>click me1</button>; }// 使用组件 function App() {return (<div className"App">{/* // 自闭和引用自…...

海宁代理记账公司-专业的会计服务

随着中国经济的飞速发展&#xff0c;企业的规模和数量日益扩大&#xff0c;在这个过程中&#xff0c;如何保证企业的财务活动合规、准确无误地进行&#xff0c;成为了每个企业面临的重要问题&#xff0c;专业、可靠的代理记账公司应运而生。 海宁代理记账公司的主要职责就是为各…...

matlab 计算三维空间点到直线的距离

目录 一、算法原理二、代码实现三、结果展示四、参考链接本文由CSDN点云侠原创,原文链接。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT。 一、算法原理 直线的点向式方程为: x − x 0 m = y...

YOLOv5车流量监测系统研究

一. YOLOv5算法详解 YOLOv5网络架构 上图展示了YOLOv5目标检测算法的整体框图。对于一个目标检测算法而言&#xff0c;我们通常可以将其划分为4个通用的模块&#xff0c;具体包括&#xff1a;输入端、基准网络、Neck网络与Head输出端&#xff0c;对应于上图中的4个红色模块。Y…...

单元测试覆盖率

什么是单元测试覆盖率 关于其定义&#xff0c;先来看一下维基百科上的一段描述&#xff1a; 代码覆盖&#xff08;Code coverage&#xff09;是软件测试中的一种度量&#xff0c;描述程序中源代码被测试的比例和程度&#xff0c;所得比例称为代码覆盖率。 简单来理解&#xff…...

逻辑这回事(三)----时序分析与时序优化

基本时序参数 图1.1 D触发器结构 图1.2 D触发器时序 时钟clk采样数据D时&#xff0c;Tsu表示数据前边沿距离时钟上升沿的时间&#xff0c;MicTsu表示时钟clk能够稳定采样数据D的所要求时间&#xff0c;Th表示数据后边沿距离时钟上升沿的时间&#xff0c;MicTh表示时钟clk采样…...

[JAVASE] 类和对象(二) -- 封装

目录 一. 封装 1.1 面向对象的三大法宝 1.2 封装的基本定义与实现 二. 包 2.1 包的定义 2.2 包的作用 2.3 包的使用 2.3.1 导入类 2.3.2 导入静态方法 三. static 关键字 (重要) 3.1 static 的使用 (代码例子) 3.1.1 3.1.2 3.1.3 3.1.4 四. 总结 一. 封装 1.1 面向对象…...

开发网站,如何给上传图片的服务器目录授权

开发网站&#xff0c;上传图像时提示”上传图片失败&#xff0c;Impossible to create the root directory /var/www/html/xxxxx/public/uploads/avatar/20240608.“ 在Ubuntu上&#xff0c;你可以通过调整文件夹权限来解决这个问题。首先&#xff0c;确保Web服务器&#xff08…...

特别名词Test Paper2

特别名词Test Paper2 cabinet 橱柜cable 电缆&#xff0c;有线电视cafe 咖啡厅cafeteria 咖啡店&#xff0c;自助餐厅cage 笼子Cambridge 剑桥camel 骆驼camera 相机camp 露营campus 校园candidate 候选人&#xff0c;考生candle 蜡烛canteen 食堂capital 资金&#xff0c;首都…...

数据结构-AVL树

目录 二叉树 二叉搜索树的查找方式&#xff1a; AVL树 AVL树节点的实现 AVL树节点的插入操作 AVL树的旋转操作 右旋转&#xff1a; 左旋转&#xff1a; 左右双旋&#xff1a; 右左双旋&#xff1a; AVL树的不足和下期预告&#xff08;红黑树&#xff09; 二叉树 了…...

数字科技如何助力博物馆设计,强化文物故事表现力?

国际博物馆日是每年为了推广博物馆和文化遗产&#xff0c;而设立的一个特殊的日子&#xff0c;让我们可以深入探讨博物馆如何更好地呈现和保护我们的文化遗产&#xff0c;随着近年来的数字科技发展&#xff0c;其在博物馆领域的应用越来越广泛&#xff0c;它为博物馆提供了新的…...

德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第七周) - 结构化预测

结构化预测 0. 写在大模型前面的话1. 词法分析 1.1. 分词1.2. 词性标注 2.2. 句法分析 2.3. 成分句法分析2.3. 依存句法分析 3. 序列标注 3.1. 使用分类器进行标注 4. 语义分析 0. 写在大模型前面的话 在介绍大语言模型之前&#xff0c;先把自然语言处理中遗漏的结构化预测补…...

5-Maven-setttings和pom.xml常用配置一览

5-Maven-setttings和pom.xml常用配置一览 setttings.xml配置 <?xml version"1.0" encoding"UTF-8"?> <settings xmlns"http://maven.apache.org/SETTINGS/1.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xs…...

input输入框设置样式

input清除自带样式 input, textarea,label, button,select,img,form,table,a{-webkit-tap-highlight-color: rgba(255,255,255,0);-webkit-tap-highlight-color: transparent;margin: 0;padding: 0;border: none; } /*去除iPhone中默认的input样式*/ input, button, select, t…...

平稳交付 20+ 医院,卓健科技基于 OpenCloudOS 的落地实践

导语&#xff1a;随着数字化转型于各个行业领域当中持续地深入推进&#xff0c;充当底层支撑的操作系统正发挥着愈发关键且重要的作用。卓健科技把 OpenCloudOS 当作首要的交付系统&#xff0c;达成了项目交付速度的提升、安全可靠性的增强、运维成本的降低。本文将会阐述卓健科…...

Python下载库

注&#xff1a;本文一律使用windows讲解。 一、使用cmd下载 先用快捷键win R打开"运行"窗口&#xff0c;如下图。 在输入框中输入cmd并按回车Enter或点确定键&#xff0c;随后会出现这个画面&#xff1a; 输入pip install 你想下载的库名&#xff0c;并按回车&…...

SAP HCM OPT函数作用

导读 INTRODUCTION OPT函数&#xff1a;SAP HCM工资核算是很多函数的汇总集&#xff0c;原有有兴趣问过SAP的人为什么SCHEMA需要这样设计&#xff0c;SAP的人说是用汇编的逻辑设计的&#xff0c;当时是尽可能用机器语言加速速度读取&#xff0c;每个函数都有对应的业务逻辑代码…...

Tensorflow音频分类

tensorflow https://www.tensorflow.org/lite/examples/audio_classification/overview?hlzh-cn 官方有移动端demo 前端不会 就只能找找有没有java支持 注意版本 注意JDK版本 package com.example.demo17.controller;import org.tensorflow.*; import org.tensorflow.ndarra…...

mqtt-emqx:keepAlive机制测试

mqtt keepAlive原理详见【https://www.emqx.com/zh/blog/mqtt-keep-alive】 # 下面开始写测试代码 【pom.xml】 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId><version>2…...

C++基础7:STL六大组件

目录 一、标准容器 1、顺序容器 vector ​编辑 deque list 容器适配器 stack queue prority_queue: 关联容器 有序关联容器set、mutiset、map、mutimap 增删查O(log n) 无序关联容 unordered_set、unordered_mutiset、unordered_map、unordered_mutimap 增删…...

特别名词Test Paper1

特别名词Test Paper1 ability 能力abstract 摘要accountant 会计accuracy 准确度acid 酸action 行动activity 活动actor 男演员adult 成人adventure 冒险advertisements 广告&#xff0c;宣传advertising 广告advice 建议age 年龄agency 代理机构&#xff0c;中介agreement 同…...

每日题库:Huawe数通HCIA——全部【813道】

1.关于ARP报文的说法错误的是?单选 A.ARP报文不能被转发到其他广播域 B.ARP应答报文是单播方发送的 C.任何链路层协议都需要ARP协议辅助获取数据链路层标识 DARP请求报文是广播发送的 答案:C  解析: STP协议不需要ARP辅助 2.园区网络搭建时,使用以下哪种协议可以避免出现二层…...

杭州网站建站/站长之家产品介绍

首先去特硬去下载vscode的安装包 mkdir /tmp/vscode cd /tmp/vscode/ wget https://az764295.vo.msecnd.net/public/0.3.0/VSCode-linux-x64.zip 解压安装包 unzip /tmp/vscode/VSCode-linux-x64.zip -d /opt/ 此时就可以正常运行VSCode了 sudo chmod x /opt/VSCode-linux-x64/…...

网站页面策划怎么做/东莞seo广告宣传

https://blog.csdn.net/limenghua9112/article/details/86743881 当你set一个key-value的时候&#xff0c;redis集群是怎么给你放到相应的节点 Redis集群详解 Redis知识点 Redis集群模式的工作原理能说一下么&#xff1f;在集群模式下&#xff0c;Redis的key是如何寻址的 …...

怎么用vs做网站开发/深圳网络营销外包公司推荐

VirtualAlloc 分配的内存是以 4K 为最小单位、连续的内存地址(但映射到真实的内存时它不一定是连续的), 前面说了, 它不适合分配小内存(譬如只有几个字节的变量); 局部的变量在 "栈" 中有程序自动管理, 那么那些全局的小变量怎么办呢? 这就要用到 "堆".这…...

一个互联网公司可以做几个网站/百度提交网址多久才会收录

1. 首先明白什么是类加载器&#xff1f; 顾名思义&#xff0c;类加载器&#xff08;class loader&#xff09;用来加载 Java 类到 Java 虚拟机中。一般来说&#xff0c;Java 虚拟机使用 Java 类的方式如下&#xff1a;Java 源程序&#xff08;.java 文件&#xff09;在经过 Jav…...

网站正在建设中单页/重庆seo推广外包

13.3.2 cocos2d项目如何支持ARCiOS 5中所支持的全新特性ARC&#xff08;Automatic Reference Counting&#xff09;首次在iOS系统中提供了自动内存管理&#xff0c;从而避免因为对retain、release、autorelease这些命令的错误调用而导致内存泄漏。实际上&#xff0c;Apple还成功…...

wordpress怎么加统计代码/seo综合查询是什么意思

EDUSOHO踩坑笔记之二十四&#xff1a;缓存Redis Reids 即可当做数据库使用&#xff0c;也可当做缓存使用。启用 Redis 服务&#xff0c;需安装PHPRedis 扩展。框架集成了 Redis 服务&#xff0c;可通过以下方式启用&#xff1a; $biz->register(new Biz\Frameowrk\Provider…...