预防GPT-3和其他复杂语言模型中的“幻觉”
标题:预防GPT-3和其他复杂语言模型中的“幻觉”
正文:
“假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息,通过一种文学渗透的方式,使不真实的数据获得感知权威,这是半真半假力量令人担忧的展示。
像GPT-3这样复杂的生成自然语言处理(NLP)模型也倾向于“幻觉”这种欺骗性数据。部分原因在于,语言模型需要能够重写和总结长篇且常常错综复杂的文本,而没有能够定义、封装和“密封”事件和事实的架构约束,以保护它们免受语义重构过程的影响。
因此,对于NLP模型来说,事实并非神圣不可侵犯;在复杂语法或深奥的源材料使离散实体与语言结构难以分离的情况下,它们很容易被当作“语义乐高积木”来处理。
观察发现,复杂的语言模型如GPT-3可能会被曲折表达的源材料所迷惑。来源:使用深度强化学习进行释义生成
这个问题从基于文本的机器学习蔓延到计算机视觉研究,特别是在利用语义区分来识别或描述对象的领域。
“幻觉”和“不准确”的美容性重新解释也影响计算机视觉研究。
在GPT-3的情况下,当模型对已经回答过的问题反复提问时,它可能会感到沮丧。在最好的情况下,它会承认失败:
我最近对GPT-3的基本达芬奇引擎进行的一项实验。模型在第一次尝试时得到了正确的答案,但在第二次被问及同样的问题时感到困惑。由于它保留了之前答案的短期记忆,并将重复的问题视为对该答案的拒绝,因此它承认失败。来源:https://www.scalr.ai/post/business-applications-for-gpt-3
达芬奇和达芬奇指导(测试版)在这方面比其他通过API可用的GPT-3模型做得更好。在这里,Curie模型给出了错误的答案,而Babbage模型在同样错误的答案上自信地扩展:
爱因斯坦从未说过的话
当向GPT-3达芬奇指导引擎(目前似乎是最有能力的)征求爱因斯坦的名言“上帝不与宇宙掷骰子”时,达芬奇指导未能找到这句名言,而是发明了一句非名言,并在类似的查询中继续“幻觉”出另外三句相对可信且完全不存在的名言(无论是爱因斯坦还是其他人的):
GPT-3产生了四句爱因斯坦的名言,但在全文互联网搜索中没有任何结果,尽管其中一些触发了爱因斯坦关于“想象力”的其他(真实)名言。
如果GPT-3在引用名言时一直出错,那么程序化地排除这些幻觉会更容易。然而,名言越分散和著名,GPT-3就越有可能正确地引用名言:
GPT-3显然在名言在贡献数据中表现良好时能够找到正确的名言。
第二个问题可能出现在GPT-3的会话历史数据渗入新问题时:
爱因斯坦可能会对这句名言归因于他感到震惊。这句名言似乎是对温斯顿·丘吉尔名言的荒谬“幻觉”。GPT-3会话中的上一个问题是关于丘吉尔(而不是爱因斯坦),GPT-3似乎错误地使用了这个会话令牌来提供答案。
经济地解决“幻觉”问题
“幻觉”是采用复杂NLP模型作为研究工具的一个显著障碍——尤其是当这些引擎的输出高度抽象于形成它的源材料时,建立名言和事实的真实性变得困难。
因此,NLP当前的一个普遍研究挑战是建立一种方法来识别幻觉文本,而无需想象全新的NLP模型,这些模型将事实作为离散实体进行整合、定义和验证(这是许多更广泛的计算机研究领域的长期、独立目标)。
识别和生成幻觉内容
卡内基梅隆大学和Facebook AI研究之间的一项新合作提供了一种解决幻觉问题的新方法,通过制定一种方法来识别幻觉输出,并使用合成幻觉文本创建一个数据集,该数据集可以作为未来过滤器和机制的基线,这些过滤器可能会成为NLP架构的核心部分。
来源:https://arxiv.org/pdf/2011.02593.pdf
在上图中,源材料已经按单词进行了分割,其中“0”标签分配给正确的单词,“1”标签分配给幻觉单词。下面我们看到一个与输入信息相关但被非真实数据增强的幻觉输出的例子。
该系统使用了一个预训练的去噪自动编码器,能够将一个幻觉字符串映射回产生其损坏版本的原始文本(类似于我上面的例子,其中互联网搜索揭示了虚假名言的来源,但具有程序化和自动化的语义方法)。具体来说,Facebook的BART自动编码器模型被用来产生损坏的句子。
标签分配。
将幻觉映射回源的过程,这在普通的高级NLP模型中是不可能的,允许映射“编辑距离”,并促进算法方法来识别幻觉内容。
研究人员发现,即使系统在训练期间没有访问到参考材料,它也能很好地推广,这表明概念模型是健全且广泛可复制的。
防止过度拟合
为了避免过度拟合并达到广泛可部署的架构,研究人员随机从过程中删除令牌,并使用释义和其他噪声函数。
机器翻译(MT)也是这个混淆过程的一部分,因为跨语言翻译文本很可能会强有力地保留意义,并进一步防止过度拟合。因此,该项目通过双语发言人在手动注释层中翻译和识别幻觉。
该倡议在许多标准部门测试中取得了新的最佳结果,并且是第一个在使用超过1000万个令牌的数据时取得可接受结果的项目。
该项目的代码,题为“检测条件神经序列生成中的幻觉内容”,已在GitHub上发布,允许用户使用BART从任何文本语料库生成他们自己的合成数据。还提供了生成幻觉检测模型的后续步骤。
相关文章:
预防GPT-3和其他复杂语言模型中的“幻觉”
标题:预防GPT-3和其他复杂语言模型中的“幻觉” 正文: “假新闻”的一个显著特征是它经常在事实正确信息的环境中呈现虚假信息,通过一种文学渗透的方式,使不真实的数据获得感知权威,这是半真半假力量令人担忧的展示。…...
从源码解析AQS
前置概念 要彻底了解AQS的底层实现就必须要了解一下线程相关的知识。 包括voliatevoliate 我们使用翻译软件翻译一下volatile,会发现它有以下几个意思:易变的;无定性的;无常性的;可能急剧波动的;不稳定的;易恶化的;易挥发的;易发散的。这也正式使用vola…...
基于Spring Boot的云上水果超市的设计与实现
摘 要 伴随着我国社会的发展,人民生活质量日益提高。于是对云上水果超市进行规范而严格是十分有必要的,所以许许多多的信息管理系统应运而生。此时单靠人力应对这些事务就显得有些力不从心了。所以本论文将设计一套云上水果超市,帮助商家进行…...
游戏引擎中的动画基础
一、动画技术简介 视觉残留理论 - 影像在我们的视网膜上残留1/24s。 游戏中动画面临的挑战: 交互:游戏中的玩家动画需要和场景中的物体进行交互。实时:最慢需要在1/30秒内算完所有的场景渲染和动画数据。(可以用动画压缩解决&am…...
springboot3快速入门案例2024最新版
前边 springboot3 系统要求 技术&工具版本(or later)maven3.6.3 or later 3.6.3 或更高版本Tomcat10.0Servlet9.0JDK17 SpringBoot的主要目标是: 为所有 Spring 开发提供更快速、可广泛访问的入门体验。开箱即用,设置合理的…...
软考 系统架构设计师系列知识点之系统性能(1)
所属章节: 第2章. 计算机系统基础知识 第9节. 系统性能 系统性能是一个系统提供给用户的所有性能指标的集合。它既包括硬件性能(如处理器主频、存储器容量、通信带宽等)和软件性能(如上下文切换、延迟、执行时间等)&a…...
Trent-FPGA硬件设计课程
本课程涵盖FPGA硬件设计的基础概念和实践应用。学生将学习Verilog语言编程、数字电路设计原理、FPGA架构和开发工具的使用。通过项目实践,掌握FPGA设计流程和调试技巧,为硬件加速和嵌入式系统开发打下坚实基础。 课程大小:4.3G 课程下载&am…...
【大模型学习记录】db-gpt源码安装问题汇总
1、首次源码安装时安装的其实dbgpt到conda环境中,会将路径一起安装。 如果有其他的路径使用同样的conda环境会报错,一直读取的就是原先的路径的内容。需要自己新创建一个conda env 2、界面中配置知识库问答时,报错 # 1、报的错如下&#x…...
QB PHP 多语言配置
1: 下载QBfast .exe 的文件 2: 安装的时候 ,一定点击 仅为我 安装 而不是 所有人 3: 如果提示 更新就 更新 , 安装如2 4: 如果遇到 新增 或者编辑已经 配置的项目时 不起作用 : 右…...
Kubernetes实战(三十一)-使用开源CEPH作为后端StorageClass
1 引言 K8S在1.13版本开始支持使用Ceph作为StorageClass。其中云原生存储Rook和开源Ceph应用都非常广泛。本文主要介绍K8S如何对接开源Ceph使用RBD卷。 K8S对接Ceph的技术栈如下图所示。K8S主要通过容器存储接口CSI和Ceph进行交互。 Ceph官方文档:Block Devices a…...
【Python爬虫】详解BeautifulSoup()及其方法
文章目录 🍔准备工作🌹BeautifulSoup()⭐代码实现✨打印标签里面的内容✨快速拿到一个标签里的属性✨打印整个文档🎆获取特定标签的特定内容 🌹查找标签🎈在文档查找标签 find_all🎈正则表达式搜索 &#x…...
C语言经典算法-8
文章目录 其他经典例题跳转链接41.基数排序法42.循序搜寻法(使用卫兵)43.二分搜寻法(搜寻原则的代表)44.插补搜寻法45.费氏搜寻法 其他经典例题跳转链接 C语言经典算法-1 1.汉若塔 2. 费式数列 3. 巴斯卡三角形 4. 三色棋 5. 老鼠…...
Panasonic松下PLC如何数据采集?如何实现快速接入IIOT云平台?
在工业自动化领域,数据采集与远程控制是提升生产效率、优化资源配置的关键环节。对于使用Panasonic松下PLC的用户来说,如何实现高效、稳定的数据采集,并快速接入IIOT云平台,是摆在他们面前的重要课题。HiWoo Box工业物联网关以其强…...
高性能 MySQL 第四版(GPT 重译)(四)
第十一章:扩展 MySQL 在个人项目中运行 MySQL,甚至在年轻公司中运行 MySQL,与在市��已经建立并且“呈现指数增长”业务中运行 MySQL 大不相同。在高速业务环境中,流量可能每年增长数倍,环境变得…...
整型数组按个位值排序 - 华为OD统一考试(C卷)
OD统一考试(C卷) 分值: 100分 题解: Java / Python / C 题目描述 给定一个非空数组(列表),其元素数据类型为整型,请按照数组元素十进制最低位从小到大进行排序,十进制最低位相同的元素…...
【React】Diff算法
1. React15 Diff算法(递归进行) 一句话概括:新虚拟DOM和旧虚拟DOM对比,找出差异,根据差异更新真实DOM Diff过程描述: 1. 树比较(DOM) 同层节点之间相互比较,不会跨层级比较。(当发现…...
【物联网】Modbus 协议及应用
Modbus 协议简介 QingHub设计器在设计物联网数据采集时不可避免的需要针对Modbus协议的设备做相关数据采集,这里就我们的实际项目经验分享Modbus协议 简介 Modbus由MODICON公司于1979年开发,是一种工业现场总线协议标准。1996年施耐德公司推出基于以太…...
Docker容器引擎
1、Docker是什么。 Docker是在Linux容器里运行应用的开源工具,是一种轻量级的"虚拟机"。Docker的logo设计为蓝色鲸鱼,拖着许多集装箱。鲸鱼可以看作宿主机,而集装箱可以理解为相互隔离的容器,每个集装箱中都包含自己的应…...
2.28线程
注意被抢占时是返回原队列,优先级不变。越往下优先级越小。往下没有优先级时,在最低的优先级队列里循环 到达了不一定会被服务,会进入就绪态进行等待 。核心等式就是周转时间运行时间等待时间,带权就是周转/运行, 随着…...
TCP/IP ⽹络模型
TCP/IP ⽹络模型 对于同⼀台设备上的进程间通信,有很多种⽅式,⽐如有管道、消息队列、共享内存、信号等⽅式,⽽对于不同设备上的进程间通信,就需要⽹络通信,⽽设备是多样性的,所以要兼容多种多样的设备&am…...
云原生:重塑未来应用的基石
随着数字化时代的不断深入,云原生已经成为了IT领域的热门话题。它代表着一种全新的软件开发和部署范式,旨在充分利用云计算的优势,并为企业带来更大的灵活性、可靠性和效率。今天我们就来聊一聊这个热门的话题:云原生~ Ǵ…...
蓝桥杯day4刷题日记
P8605 [蓝桥杯 2013 国 AC] 网络寻路 思路来源于https://www.luogu.com.cn/article/iat8irsf #include <iostream> using namespace std; int n,m; int q[10010]; int v[100010],u[100010]; long long res;int main() {cin>>n>>m;for(int i0;i<m;i){cin…...
[Qt学习笔记]Qt下使用Halcon实现采图时自动对焦的功能(Brenner梯度法)
目录 1、介绍2、实现方法2.1 算法实现过程2.2 模拟采集流程 3、总结4、代码展示 1、介绍 在机器视觉的开发中,现在有很多通过电机去做相机的聚焦调节,对比手工调节,自动调节效果更好,而且其也能满足设备自动的需求,尤…...
常州IGM机器人RTE497的日常维修保养方法
一、IGM机器人RTE497日常检查 每日工作前,进行以下检查: 外观检查:确认IGM机器人RTE497本体无明显损伤,各部件连接稳固。 电缆检查:检查所有电缆、气管等是否完好,无磨损、无挤压。 润滑检查:确…...
如何利用机器学习和Python编写预测模型来预测设备故障
预测设备故障是机器学习和数据科学的一个常见问题,通常可以通过以下几个步骤来解决: 1. 数据收集 首先,需要收集与设备运行相关的数据,包括: 设备的历史数据环境数据(如温度、湿度等)使用时间…...
mysql部署(2)主从复制
在前面的基础上,现有26、41两个mysql8的实例,下面以26为主41为从搭建主从复制: 机器主从端口号root密码主从复制账号密码xxx.xx.xxx.26主3306Mysql#26user1/user1#26xxx.xx.xxx.41从3306Mysql#41 一、master主库配置 1、修改mysql配置文件…...
FX-数组的使用
1一维数组 1.1一维数组的创建和初始化 1.1.1数组的创建 //代码1 int arr1[10]; char arr2[10]; float arr3[1]; double arr4[20]; //代码2 //用宏定义的方式 #define X 3 int arr5[X]; //代码3 //错误使用 int count 10; int arr6[count];//数组时候可以正常创建࿱…...
springboot283图书商城管理系统
图书商城管理系统 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本图书商城管理系统就是在这样的大环境下诞生,其可以帮助管理者在短时间内处理…...
FFmpeg-- c++实现:音频流aac和视频流h264封装
文章目录 流程api核心代码muxer.hmuxer.cpp aac 和 h264 封装为视频流,封装为c的Muxter类 流程 分配视频文件上下文 int Init(const char *url); 创建流,赋值给视频的音频流和视频流 int AddStream(AVCodecContext *codec_ctx); 写视频流的head int Se…...
单片机烧录方式,JTAG,ISP,SWD,
常见的词汇 参考 ISP:In System Programing,在系统编程 IAP:In Application Programing,在应用编程 ICP:In Circuit Programing,在电路编程 ICSP全称是In Circuit Serial Programming JTAG(Joint Test Act…...
减肥网站如何做/2023年4月疫情恢复
package t22;import java.util.LinkedList;//有n个人围成一圈,顺序排号。从第一个人开始报数(从1到3报数),凡报到3的人退出圈子, 问最后留下的是原来第几号的那位。 public class Test {public static void main(Strin…...
什么网站可以做软件有哪些东西/查权重工具
Conditional Random Fields as Recurrent Neural Networks ICCV2015 cite237 1摘要: 像素级标注的重要性(语义分割 图像理解)-- 现在开始利用DL----但DL无法描述visual objects----本文引入新型的CNN,将CNN与CRF概率图模型结…...
响应式网站的特点/百度快速排名用什
兄弟们,我安装了这个版本的系统之后,竟然不能安装输入法,以及设置支持中文是,提示要联系系统管理员(我用的是administrator登录的,具有管理员权限,求解啊,各位大虾转载于:https://bl…...
大连seo整站优化/百度竞价排名技巧
胡说叔叔一、理论准备 matlab函数randn:产生均值为0,方差 σ^2 1,标准差σ 1的正态分布的随机数或矩阵的函数。 用法:Y randn(n),返回一个n*n的随机项的矩阵。如果n不是个数量,将返回错误信息。Y …...
天长网站制作/一站式网络推广服务
一、删除空行(不包括有空格类符号的空行) 1、\r\n转义符替换 按ctrlh,跳出搜索替换框,把查找模式定义为扩展(\n,\r...) 查找目标:\r\n\r\n 替换为:\r\n 有编程基础的…...
石家庄网站建设推广公司/网站推广公司排名
// apache// 禁止访问目录// 开启 url重写// 重写定义错误页面// 日志分页// 增加并发连接数// 设置连接连接的时间 // threadsPerChild // 每个进程的线程数 默认 64,最大 1920,所以 100-500为好// maxRequestsPerChild // 每个子进程能够处理的最大请求数, 0 表示无限制 // M…...