当前位置: 首页 > news >正文

大模型是否潜在地进行多跳推理?

人工智能咨询培训老师叶梓 转载标明出处

以往的研究表明,基于Transformer的LLMs能够在参数中存储和检索事实信息,以完成简单提示,例如“Stevie Wonder的母亲是谁”。此外,当必要信息明确给出时,LLMs表现出了显著的上下文推理能力。然而,当推理所需的信息不是输入的一部分时,LLMs是否能够执行多跳推理,这一点尚不清楚。

 Google DeepMind、伦敦大学学院、Google Research 和特拉维夫大学的研究团队提出了一个具体的问题:“当处理如‘Superstition的歌手的母亲是谁’这样的两跳提示时,LLMs是否能够确定‘Superstition的歌手’指的是Stevie Wonder这一桥梁实体,以及利用他们对Stevie Wonder母亲的知识来完成提示?” 回答这个问题对于理解LLMs是否能够通过它们参数中隐含的知识进行连接和遍历,而不仅仅是在参数中冗余地存储信息至关重要。

研究的两个步骤

图 1: 展示了研究的两个步骤:第一跳是改变输入提示以引用桥接实体(例如Stevie Wonder),并检查这是否增加了模型对该实体的内部召回。第二跳是检查增加这种召回是否使模型输出与它对桥接实体属性的知识(例如Stevie Wonder的母亲)更加一致。为了测试LLMs的多跳推理能力,研究者们设计了一个实验框架,通过改变输入提示来观察LLMs的内部召回(entity recall)和一致性(consistency)的变化。

研究者构建了一个名为TWOHOPFACT的数据集,用于研究多跳推理,数据集基于Wikidata构建,包含45,595个独特的双跳提示,涵盖52种类型的事实组合。每个双跳提示都设计成需要模型通过两次逻辑推理步骤来正确回答,例如确定特定歌曲的歌手是谁,然后再确定这位歌手的母亲是谁。数据集的构建旨在评估和分析LLMs在没有直接给出所有信息的情况下,是否能够利用其内部知识库来完成复杂的推理任务。通过这个数据集,研究人员可以更深入地了解LLMs的推理机制,并探索提高其推理效率和准确性的方法。

多跳推理中的第一跳

在研究LLMs潜在多跳推理能力的过程中,一个关键的度量方法是内部实体召回得分,即ENTREC。这个方法的目的是衡量模型在遇到两跳提示时,能否有效地在内部召回作为桥梁的实体。具体为ENTREC关注的是模型在特定层级上对隐藏表示的处理,特别是将这些表示投影到词汇空间时,对实体名称的第一个词的对数概率的计算。

例如,考虑一个实体Stevie Wonder,如果我们想要衡量模型对该实体的内部召回,我们会计算模型在某个层级上对"Stevie"这个词的对数概率。这个概率反映了模型在处理与Stevie Wonder相关的提示时,能够在多大程度上内部地回忆起这个名字。ENTREC的值越高,表明模型对桥梁实体的内部召回越强,这在多跳推理中是一个重要的能力。

为了测试ENTREC,研究者们设计了一系列实验,通过改变两跳提示中的某些部分来观察模型的内部召回是否会增加。实验中采用了两种替换方法:实体替换和关系替换。在实体替换中,原始提示中的实体(e1)被替换为另一个实体(e'1),这个新实体不会指向桥梁实体(e2)。例如,如果原始提示是关于“Superstition的歌手”,那么在实体替换后,它可能变成“Thriller的歌手”,因为“Thriller”并不指向Stevie Wonder。

关系替换则是改变提示中的关系(r1),以确保新的描述不会指向桥梁实体。例如,如果原始描述是“Superstition的歌手”,在关系替换后,可能变成“Superstition的抄袭者”,因为抄袭者与Stevie Wonder没有直接关联。

结果,研究者们发现了充分的证据表明第一跳推理能力随着模型规模的增加而变得更强。图2展示了在不同层级上,通过实体替换和关系替换增加桥梁实体的内部召回的相对频率。对于LLaMA-2 7B模型,实体替换的结果显示,随着层级深度的增加,第一跳推理的证据变得更加清晰,在第31层达到0.71的峰值。而关系替换则表现出稍微有些噪声的模式,在第20层达到0.63的峰值。

通过实体替换和关系替换增加桥接实体内部召回的相对频率。这些图表分布在不同层上展示了不同大小的模型(7B、13B、70B)的结果

当模型规模从7B增加到13B再到70B时,无论是实体替换还是关系替换,第一跳推理出现的频率都变得更高。具体来说,实体替换的最大相对频率从7B的0.71增加到13B的0.72,再到70B的0.78。对于关系替换,这个数字从7B的0.63增加到13B的0.64,再到70B的0.76。

图3进一步展示了随着模型规模增加的实验结果。在图3a中,实体替换的第一跳推理结果表明,最大相对频率随着模型规模的增加而提高。在图3b中,关系替换的结果也显示了类似的趋势。这些结果表明,更大的模型规模有助于提高LLM在第一跳推理任务中的表现。

实验结果详细地反映了不同规模的LLaMA-2模型在多跳推理任务中的表现

此外,研究者们还发现,在52种不同的事实组合类型中,有73%的类型在所有模型规模和替换类型中表现出了较强的第一跳推理证据。例如,“国歌的国家的总统”这一事实组合类型,在所有模型和替换类型中的最大频率分别为0.97/0.92/1.0(实体替换)和0.87/0.87/0.89(关系替换)。这表明某些特定的事实组合类型在不同模型规模上都能稳定地展现出较强的第一跳推理能力。

这些发现为理解LLMs在多跳推理任务中的能力提供了重要的见解,并表明模型规模的增加对于提高第一跳推理能力是有益的。然而,这种提升并不是普遍存在于所有事实组合类型中,不同类型的事实组合在不同层级上展现出的相对频率模式也各不相同,这可能与它们独特的语义结构和复杂性有关。

多跳推理中的第二跳

在深入探究LLMs的多跳推理能力时,研究者们特别关注了模型在完成两跳推理任务时的一致性表现。为此,他们引入了一致性得分(CNSTSCORE),这是一种新颖的度量手段,旨在衡量LLM在回答两跳提示和相应的单跳提示时输出的相似度。这一得分的计算基于两个输出概率分布之间的交叉熵,通过求这两个分布交叉熵的平均值来实现。交叉熵是一种衡量概率分布差异的方法,其值越低表示两个分布越相似。因此,如果LLM能够在处理两跳提示时有效地利用第一步推理的结果,那么它在回答两跳和单跳提示时的输出分布应该是接近的,这样的一致性将表现为较高的CNSTSCORE。

在实验设计上,研究者们采取了一种干预的方法来测试LLM的第二跳推理能力。他们不是简单地观察模型的自然输出,而是通过改变模型内部的状态来评估其推理过程。研究者们调整了在计算ENTREC时使用的隐藏表示(xl),目的是增强模型对桥梁实体的召回。这种调整是通过梯度上升的方法实现的,即在模型的隐藏层表示中增加与桥梁实体相关的信息,以此来促进模型对这一实体的记忆和利用。

通过这种方法,研究者们可以观察到当模型对桥梁实体的内部召回增强时,是否会导致CNSTSCORE的提高。如果CNSTSCORE随着ENTREC的增加而提高,这将表明模型在两跳推理中确实利用了第一步推理的结果,并且在回答两跳提示时能够更加一致地输出与单跳提示相对应的答案。这种一致性不仅是对模型内部逻辑一致性的验证,也是对其多跳推理能力的重要证据。

结果分析中,研究者们提供了关于第二跳推理的证据,指出这种推理能力并没有随着模型规模的增加而变得更强。通过图4的展示,我们可以看到在LLaMA-2 7B模型中,中间层和后层的相对频率显著高于随机概率0.5,特别是在第30层时达到了0.64的峰值。这一结果在统计上是显著的,表明在这些层级上,增强对桥梁实体的召回能够提高模型的一致性得分。

增加桥接实体的召回是否提高了LLM在回答双跳提示时与单跳提示的一致性的相对频率

图4中的柱状图通过颜色编码来表示相对频率与随机概率的对比,其中蓝色表示相对频率大于或等于0.5,而红色则表示相对频率低于0.5。值得注意的是,在最后一层,研究者们手动将相对频率设置为0.5,因为在这一层次上,干预对一致性没有影响。

当模型从7B扩展到13B和70B时,第二跳推理的最大相对频率保持相对稳定,分别为0.64(7B)、0.65(13B)和0.61(70B)。这与第一跳推理的发现不同,第一跳推理的能力是随着模型规模的增加而提高的。这种稳定性表明,尽管模型的规模在增加,但第二跳推理的能力并没有得到相应的增强。

研究者们还观察到,在52种不同的事实组合类型中,大约19%的类型在所有模型规模上都展现出了较强的第二跳推理证据。例如,“创始人的本科母校”和“国歌的国家的总统”这两个事实组合类型,在所有模型规模上都显示出了较强的第二跳推理证据,其最大相对频率分别为0.86/0.81/0.82和0.84/0.89/0.82。

这些发现与Ofir Press等人在2023年的观察结果一致,即单跳问题回答的性能提升速度快于多跳性能,因此随着模型规模的增加,组合性差距(即模型能够正确回答所有子问题但不能生成总体解决方案的比例)并没有减少。这表明,尽管模型规模的增加可能带来了一些好处,但在多跳推理任务中,可能还需要考虑其他因素,如模型架构或训练方法的改进,以进一步提升LLMs的推理能力。

潜在的多跳推理

研究者们将之前的发现结合起来,以评估LLMs在处理两跳提示时进行潜在多跳推理的能力。他们将两跳推理的成功视为两个研究问题(RQ1和RQ2)的成功的组合。RQ1的成功意味着在输入提示中增加对桥梁实体的描述性提及能够增加LLM的内部实体召回。RQ2的成功则意味着增加的内部召回能够提高LLM回答两跳提示与单跳提示的一致性。

研究者们通过分析不同模型大小(7B、13B、70B)的LLaMA-2模型,来观察模型在处理两跳提示时的多跳推理表现。他们记录了四种可能的结果:SS(RQ1和RQ2都成功)、FS(RQ1失败,RQ2成功)、SF(RQ1成功,RQ2失败)和FF(RQ1和RQ2都失败)。结果以相对频率的形式展现,其中绿色表示多跳推理成功(SS)的情况。

四种可能结果的相对频率,这些结果结合了第一跳和第二跳推理的成功与否

模型表现:

LLaMA-2 7B:在实体替换和关系替换的实验中,7B模型表现出了高于随机概率的多跳推理能力,尤其是在实体替换中,第30层的相对频率达到了0.46。

LLaMA-2 13B和70B:随着模型大小的增加,研究者们观察到关系替换的多跳推理能力有所提升。例如,在70B模型中,关系替换的最大相对频率从7B的0.38增加到0.43,表明更大的模型可能有助于通过关系变化促进多跳推理。

研究者们还分析了不同事实组合类型对多跳推理能力的影响。他们发现,在52种事实组合类型中,有23%的类型在超过80%的情况下表现出了强烈的潜在多跳推理证据。例如,“首都的国家国歌”这一类型在所有模型和替换类型中都表现出了较高的多跳推理能力。

尽管在某些情况下LLMs表现出了潜在的多跳推理能力,但这种能力在不同类型的事实组合中表现出高度的上下文依赖性。另外虽然模型大小的增加对于第一跳推理有积极的影响,但对于第二跳推理并没有观察到同样的趋势。这可能表明,当前的模型架构和预训练方法在促进LLMs进行深层次的多跳推理方面存在局限性。

这项研究为理解LLMs的潜在多跳推理能力提供了新的视角,并为未来的研究指出了潜在的挑战和机遇。研究结果表明,尽管LLMs在某些情况下能够表现出多跳推理能力,但这种能力的发展和应用可能需要对现有的模型架构、预训练数据和损失函数进行更深入的研究和改进。

论文链接:https://arxiv.org/abs/2402.16837

相关文章:

大模型是否潜在地进行多跳推理?

人工智能咨询培训老师叶梓 转载标明出处 以往的研究表明,基于Transformer的LLMs能够在参数中存储和检索事实信息,以完成简单提示,例如“Stevie Wonder的母亲是谁”。此外,当必要信息明确给出时,LLMs表现出了显著的上下…...

人为什么不能长期待在家里?三个原因告诉你答案

在现代社会的快节奏生活中,人们时常渴望能够拥有一段长时间待在家里的闲暇时光,幻想这会是一段惬意、舒适且自由的经历。然而,实际情况往往并非如此。许多人在经历了数日甚至更长时间的居家生活后,会逐渐感受到诸多负面情绪和不良影响。以下将详细阐述人为什么不能长期待在…...

MATLAB画散点密度图(附代码和测试数据的压缩包)

1. 有关 Matlab 获取代码关注WZZHHH回复关键词,或者咸鱼关注:WZZHHH123 怀俄明探空站数据解算PWV和Tm:怀俄明探空站数据解算PWV和Tm 怀俄明多线程下载探空站数据(包括检查和下载遗漏数据的代码):怀俄明多线…...

SSH配置命令

前置环境:端口配置IP地址,client和server之间可ping通,此处省略 server端: 开启stelnet [Huawei]stelnet server enable Info: Succeeded in starting the Stelnet server. aaa模式相关配置 #进入aaa模式 [Huawei]aaa # 添加用户admin和…...

谷粒商城实战记录-虚拟机开启密码认证登录

文章目录 一,虚拟机无法用用户名密码登录二,解决方案1,修改配置2,重启sshd服务3,测试SSH登录注意事项结论 参考文献 一,虚拟机无法用用户名密码登录 当使用Vagrant创建和管理虚拟机时,通常会通…...

C语言程序设计-[1] 基础语法

1、字符集 字符集:是ASCII字符集的一个子集。 注:基本上就是电脑键盘可以输入的一些字符。 2、标识符 标识符:用来命名程序中的一些实体,如:变量、常量、函数、数组名、类型名、文件名等。由一个或多个字符组成。 —…...

JavaSE第11篇:设计模式

一、创建型模式 1、工厂方法模式 2、抽象工厂模式 3、单例模式singleton /*** 单例* 饿汉式(线程安全的):在加载类的时候就会创建类的单例,并保存在类中。* 1.定义类变量实例并直接实例化,在类加载的时候就完成了实例化并保存在类中;* 2.定义无参构造…...

【Unity Shader】切线空间下计算凹凸映射

// Upgrade NOTE: replaced mul(UNITY_MATRIX_MVP,*) with UnityObjectToClipPos(*)Shader "Unlit/NormalTangent" {Properties{_Color("Color Tint", Color) (1, 1, 1, 1)_MainTex("Main Tex", 2D) "While"{}//法线纹理_BumpMap(&q…...

解决Ubuntu/Kali手动创建的启动器在dock上没有图标,且不能“添加到dock中“的问题

文章目录 问题描述问题解决解决方案 1 | 添加StartupWMClass字段解决方案 2 | 重命名文件名 如何获取 WM 值?方式 1 | xprop 命令方式 2 | 直接查看 问题描述 这个启动器无论是在菜单还是桌面都是正常的,只有在dock中没有图标,且不像其他APP…...

【Android】数据持久化——数据存储

持久化技术简介 在你打开完成了一份PPT之后关闭程序,再次打开肯定是希望之前的内容还存在在电脑上,一打开PPT,之前的内容就自动出现了。数据持久化就是将那些内存中的瞬时数据保存到存储设备中,保证即使在手机或电脑关机的情况下…...

如何通过谷歌外链快速增加网站流量?

利用谷歌外链提升流量的方法非常直接,但实际上,外链影响的是关键词排名,关键词排名提升了,自然就会有流量,所以谷歌外链不是直接能提升网站流量,而是间接的,下面,我会详细介绍几种有…...

vLLMcuda安装笔记

1. 引言 最近在部署Qwen模型时,文档上有提到强烈建议用vLLM来部署模型,按照公开的性能测试数据,用vLLM部署Qwen模型的文本推理速度要比transformers部署快3~4倍。带着这个好奇就开始安装尝试,但试下来这个安装过程并没有那么顺利…...

C++入门基本语法(2)

一、引用 1、基本概念与定义 引用不是新定义一个变量,而是给已存在的变量起一个别名,编译器不会为引用变量开辟内存空间,它和它所引用的变量公用同一块内存空间; 引用的写法:变量类型& 引用别名 变量&#xff…...

Internet Download Manager(IDM)2024中文版本有哪些新功能?6.42版本功能介绍

1. Internet Download Manager(IDM)是一款功能强大的下载管理器,支持所有流行的浏览器,并可提升下载速度高达5倍。 2. IDM具有智能下载逻辑加速器,可以设置文件下载优先级、分块下载等,提高下载效率。 IDM…...

深入理解 C 语言中的联合体

目录 引言 一、 联合体的定义与基本用法 1.联合体的定义 2.基本用法 二、 联合体与结构体的区别 1.结构体 2.联合体 3.对比 三、联合体的优势 1. 节省内存 2. 提高效率 3. 代码简洁性 四、联合体的存储细节 1.内存对齐 2.大小计算 五、联合体的高级用法 1.匿…...

OpenCV||超详细的几何变换

2D图像几何变换的33矩阵: 图像常见的几何变换: 图像来源:《OpenCV 4.5计算机视觉开发实战:基于Python》作者:朱文伟 李建英; 1. 平移(Translation) 在OpenCV中,平移不是…...

网络程序设计基础概述

文章目录 前言一、网络程序设计基础二、网络协议 1.IP协议2.TCP与UDP协议三、端口与套接字总结 前言 网络程序设计编写的是与其他计算机进行通信的程序代码。Java将网络程序所需要的东西封装成了不同的类。开发者只需要创建这些类的对象,调用相应的方法,…...

MySQL:数据库用户

数据库用户 在关系型数据库管理系统中,数据库用户(USER)是指具有特定权限和访问权限的登录账户。每个用户都有自己的用户名和密码,以便系统可以通过认证来识别他们的身份。数据库用户可以登录数据库,在其中执行各种类…...

用TensorFlow训练自己的第一个模型

现在学AI的一个优势就是:前人栽树后人乘凉,很多资料都已完善,而且有很多很棒的开源作品可以学习,感谢大佬们 项目 项目源码地址 视频教程地址 我在大佬的基础上基于此模型还加上了根据特征值缓存进行快速识别的方法,…...

MySQL数据库入门基础知识 【1】推荐

数据库就是储存和管理数据的仓库,对数据进行增删改查操作,其本质是一个软件。 首先数据有两种,一种是关系型数据库,另一种是非关系型数据库。 关系型数据库是以表的形式来存储数据,表和表之间可以有很多复杂的关系&a…...

Anaconda下的 jupyter notebook安装及使用

安装 打开Anaconda Powershell Prompt或Anconda Prompt 输入命令conda install jupyter notebook进行安装 启动 切换到工作目录,输入命令jupyter notebook等待浏览器打开网页 命令行启动jupyter notebook的链接复制到浏览器同样可以打开jupyter notebook 在Ancon…...

C语言初阶(11)

1.结构体定义 结构体就是一群数据类型的集合体。这些数据类型被称为成员变量。结构的成员可以是标量、数组、指针,甚至是其他结构体。 2.结构体的声明和结构体变量命名与初始化 结构体声明由以下结构组成 struct stu {char name[12];int age; }; 结构体命名有两…...

Unity获取Animator动画播放完成事件

整理了一些在日常经验中处理动画播放完成事件的方法 方法: 1.Dotween配合异步实现 2.状态机计时方法实现 3.原生动画行为方法实现 方法一:Dotween异步方法 using UnityEngine; using System.Threading.Tasks; using DG.Tweening;public class PlayerAnimAsync : M…...

git submodule 使用

在Git中,子模块(submodule)是一种将一个Git仓库作为另一个Git仓库的子目录嵌入的方式。这使得主仓库能够跟踪和管理对外部依赖的更改。 添加子模块 初始化父仓库:如果你还没有创建父仓库,先创建它。 添加子模块&…...

【Jenkins未授权访问漏洞 】

默认情况下 Jenkins面板中用户可以选择执行脚本界面来操作一些系统层命令,攻击者可通过未授权访问漏洞或者暴力破解用户密码等进入后台管理服务,通过脚本执行界面从而获取服务器权限。 第一步:使用fofa语句搜索 搜索语句: port&…...

前端处理 Excel 文件

引入XLSX XLSX 是一个流行的 JavaScript 库,用于处理 Excel 文件(包括 .xls 和 .xlsx 格式)。它可以在 Node.js 环境和浏览器中运行,提供了丰富的 API 来读取、写入、修改 Excel 文件。当你使用 import * as XLSX from xlsx; 这行…...

(vue)el-cascader级联选择器按勾选的顺序传值,摆脱层级约束

(vue)el-cascader级联选择器按勾选的顺序传值,摆脱层级约束 需求:按勾选的顺序给后端传值 难点:在 Element UI 的 el-cascader 组件中,默认的行为是根据数据的层级结构来显示选项,用户的选择也会基于这种层级结构,el-…...

Redis进阶(四):哨兵

为了解决主节点故障,需要人工操作切换主从的情况;因此需要一种方法可以自动化的切换:哨兵的引入大大改变这种情况。 哨兵的基本概念 自动切换主从节点 哨兵架构 1、当一个哨兵节点发现主节点挂了的时候,还需要其他节点也去检测一…...

蓝屏事件:网络安全的启示

“微软蓝屏”事件暴露了网络安全哪些问题? 近日,一次由微软视窗系统软件更新引发的全球性“微软蓝屏”事件,不仅成为科技领域的热点新闻,更是一次对全球IT基础设施韧性与安全性的深刻检验。这次事件,源于美国电脑安全技…...

技术方案评审原则

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 TODO:写完再整理 文章目录 系列文章目录前言技术方案评审原则1.理论突破阶段2.技术突破阶段3.工程化阶段自动驾驶行业的技术方案分析前言 认知有限,望大家多多包涵,有什么问题也希望能够与大…...

卖高仿名牌手表网站/国内看不到的中文新闻网站

链接: https://uva.onlinejudge.org/index.php?optioncom_onlinejudge&Itemid8&pageshow_problem&problem3371 题意: 可以用表达式树来表示一个表达式。在本题中,运算符均为二元的,且运算符和运算数均用1&#xff5e…...

青海建设厅通报网站/seo提升关键词排名

作者简介李剑,携程系统研发部技术专家,负责Redis和Mongodb的容器化和服务化工作,喜欢深入分析系统疑难杂症。前言随着携程的应用大规模在生产上用容器部署,各种上规模的问题都慢慢浮现,其中比较难定位和解决的就是偶发…...

黑马程序员官方网站/alexa排名查询

项目地址:ZLayer简介:ZLayer Android 核心基础服务层项目分层 核心基础服务层,业务抽象层,业务层 (当业务需求较大的时候,可以将三层水平架构进行纵向切分,使用组件化架构)说明 Android的基础服务层&…...

医院门户网站设计/深圳推广公司

一、环境搭建 1、创建父工程 新建父工程项目springcloud&#xff0c;切记Packaging是pom模式 主要是定义POM文件&#xff0c;将后续各个子模块公用的jar包等统一提取出来&#xff0c;类似一个抽象父类 pom.xml <?xml version"1.0" encoding"UTF-8"?…...

便宜网站建设 优帮云/2022年新闻摘抄简短

了解一个百万级 PHP 网站的架构 Poppen.de 是德国的一个社交网站&#xff0c;相对Facebook、Flickr来说是一个很小的网站&#xff0c;但它有一个很好的架构&#xff0c;融合了很多技术&#xff0c;如 Nigix、MySql、CouchDB、Erlang、Memcached、RabbitMQ、PHP、Graphite、Red5…...

有什么网站做交流会/网页搜索引擎大全

转自&#xff1a;http://www.openphp.cn Eclipse 是一款很强大的 IDE&#xff0c;本站曾经也发过两篇关于使用它配置 PHP 调试环境的文章&#xff0c;现在已经出了 3.0.1 版本和中文语言包了&#xff0c;所以本文简单介绍一下它的汉化方法。 下载 Eclipse 3.0.1 和语言包&…...