ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!
作者:苏肇辰
标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?
录取:ACL2024 Main
论文链接:https://arxiv.org/abs/2406.09072
代码链接:https://github.com/zhaochen0110/Cotempqa
单位:苏州大学、上海人工智能实验室
🔍 背景与现有工作:
时间推理的重要性:时间推理对于语言模型理解世界至关重要。当前的时间推理数据集(如TIMEQA、TEMPLAMA和TEMPREASON)主要关注单一或孤立事件,未能充分反映现实世界中共时事件的复杂性。这些数据集的问题集中在单个时间点或孤立的事件上,而现实中事件往往是同时发生并相互交织的。
现有数据集:
TIMEQA:基于时间演变的事实构建问题,要求模型在特定时间点回答问题。
TEMPLAMA:从Wikidata知识库中提取结构化事实,用于封闭式问答。
TEMPREASON:将显式时间表达转化为隐式事件信息,提供更综合的时间问答评估框架。
🌟 我们的贡献 - COTEMPQA 数据集:
![4aa1bbabd695b29d7c86627835055ba9.png](https://img-blog.csdnimg.cn/img_convert/4aa1bbabd695b29d7c86627835055ba9.png)
![7ecb2cced0ef92931e659ffa9e039334.png](https://img-blog.csdnimg.cn/img_convert/7ecb2cced0ef92931e659ffa9e039334.png)
数据集简介:COTEMPQA是一个全面的共时问答基准,包含4748个样本,旨在评估大规模语言模型在四种共时场景(相等、重叠、期间、混合)中的理解和推理能力。
![f7f9e80ab051893af3edde0250c053fb.png](https://img-blog.csdnimg.cn/img_convert/f7f9e80ab051893af3edde0250c053fb.png)
四种共时场景:
相等场景(Equal)
定义:两个事实发生在完全相同的时间范围内,没有时间差异。
特点:时间完全重叠,模型只需识别出相同的时间段。
示例问题:当A事件发生时,B事件也在同时发生。
重叠场景(Overlap)
定义:两个事实在时间上部分重叠。
特点:需要模型识别出部分重叠的时间段。
示例问题:当A事件发生时,B事件在时间段C内部分重叠。
期间场景(During)
定义:一个事实的时间范围完全包含在另一个事实的时间范围内。
特点:模型需要理解一个事件完全包含在另一个事件内的复杂时间关系。
示例问题:在A事件发生期间,B事件也在发生。
混合场景(Mix)
定义:包含相等、重叠和期间三种类型的混合情形,是最复杂的场景。
特点:需要模型处理多种时间关系的组合。
示例问题:当A事件发生时,B事件在相同时间段或部分重叠,或者一个事件包含在另一个事件中。
数据集构建过程:
从Wikidata提取时间相关事实
数据格式:将知识三元组和限定词转化为五元组格式(主体,关系,客体,开始时间,结束时间)。
分组整理:按主体分组,确保每组包含至少三个时间事实。
识别共时事实
算法设计:通过比较不同事实的时间戳来识别重叠部分,并将其分类为相等、重叠、期间或混合。
问答对构建
条件事实与查询事实:根据识别出的共时事实构建问题,选择一个事实作为条件事实,另一个作为查询事实。
预定义关系对与问题模板:为确保问题的逻辑关联性,我们预定义了17种相关关系对,并基于这些对构建问题模板。
![dbab158fd2113d5f375637c6efaf4889.png](https://img-blog.csdnimg.cn/img_convert/dbab158fd2113d5f375637c6efaf4889.png)
📊 实验结果与分析:
模型表现:
![3d845cb5466f4372fbcbb50abb028e79.png](https://img-blog.csdnimg.cn/img_convert/3d845cb5466f4372fbcbb50abb028e79.png)
GPT-4 在共时推理中的表现:尽管GPT-4在所有模型中表现最好,但与人类水平(54.7 vs. 92.8)仍有显著差距。
不同场景的难度差异
相等场景(Equal):GPT-4表现较好(92.7)。
重叠场景(Overlap):表现显著下降(59.4)。
期间场景(During):进一步下降(50.1)。
混合场景(Mix):表现最差(45.0)。
闭卷问答(CBQA) vs. 开卷问答(OBQA)
闭卷问答:模型表现较弱,GPT-4为14.5。
开卷问答:表现提升显著,GPT-4为54.7。
错误分析:
![c00b307b8b180d370f3a081d3b8f96de.png](https://img-blog.csdnimg.cn/img_convert/c00b307b8b180d370f3a081d3b8f96de.png)
为了更好地理解模型所犯的错误,我们重点调查了GPT-4在零样本CoT下生成的回答。我们将错误分为三类:
根据案例错误分析,“不确定性错误”是最常见的错误类型,占比43.14%。我们认为GPT-4在回答时倾向于提供相对保守的回答,仅在具有一定信心时才返回答案。未来的研究需要优化模型的框架,进一步增强大规模语言模型在共时理解和推理方面的能力。
不完整答案错误:问题有多个正确答案,但模型未能返回全部正确答案。
不确定性错误:模型无法从提供的上下文中提取共时关系,并拒绝回答问题。
错误答案错误:模型返回了错误答案,表明模型在共时推理方面存在不足。
案例研究:
![2f25e038e85b27980cddc229b25bfdc1.png](https://img-blog.csdnimg.cn/img_convert/2f25e038e85b27980cddc229b25bfdc1.png)
基本能力:现有的大规模语言模型(LLMs)能够有效地推理简单的共时事件。然而,它们在需要更深层次理解和复杂共时推理的任务中表现出困难。相等场景由于时间间隔完全重叠,对LLMs来说更容易处理。
复杂性增加:重叠和期间场景呈现出复杂的时间交叉,需要更多隐含推理来理解共时关系。相比于相等场景,确定一个时间段是否与另一个时间段相交(例如期间和重叠)更加具有挑战性。
混合场景:混合场景有多个正确答案,并包含各种共时关系,是最具挑战性的场景。模型在处理这些复杂情况时,需要更高的推理能力和准确性。
不同能力在共时推理中的作用
![d573b452224d82232032c6f8251f74d8.png](https://img-blog.csdnimg.cn/img_convert/d573b452224d82232032c6f8251f74d8.png)
数学推理的作用:专门用于数学推理的模型(如WizardMath-70B)在共时推理中的表现显著提升,得分为30.1,而基础模型LLaMA-70B为22.2,CodeLLaMA-34B为20.0。这表明数学推理技能与理解和解释复杂时间关系所需的技能之间有很强的相关性。
混合场景的表现:尽管WizardMath在基准模型中表现最好,但在混合场景中的效果较低。进一步调查发现,在混合场景中,问题往往有多个答案。WizardMath倾向于返回单一答案,而不是列出所有可能的答案,这导致其精确度较高但召回率较低(与LLaMA、CodeLLaMA等模型相比)。
🔧 提升策略 - MR-COT:
数学推理的重要性:上述实验发现数学推理在处理共时事件中至关重要。以WizardMath-70B模型为例,基于数学推理的方法在共时推理任务中的表现显著优于基础模型LLaMA-70B。
![792df381e5d32986f18c1b24d302d959.png](https://img-blog.csdnimg.cn/img_convert/792df381e5d32986f18c1b24d302d959.png)
提出的MR-COT策略:结合数学推理和链式思维的方法,显著提升模型在共时推理任务中的表现。具体步骤包括:
建立关键时间点:确定事件发生的具体时间。
结构化时间线:将相关事件按时间顺序排列。
数学识别重叠:通过数学方法识别事件的重叠部分。
![5ff9893c1235afd047cd2bc681702c8d.png](https://img-blog.csdnimg.cn/img_convert/5ff9893c1235afd047cd2bc681702c8d.png)
实验结果:
MR-COT的优势:在开卷问答中重叠、期间和混合任务中分别提升14.6、11.4和13.5分,在闭卷问答中综合提升1.3分。这表明MR-COT策略在复杂共时推理任务中具有显著优势。
但同时相比较human performance (92.8) 还有很大的差距,说明模型的共时推理能力还有很大的提升空间。
💡结论
这篇论文中,我们提出了COTEMPQA数据集,并评估了现有大规模语言模型在共时推理任务中的表现。研究表明,尽管模型在简单的共时任务中表现良好,但在处理复杂的共时关系(如重叠、期间和混合场景)时仍存在显著差距。特别是数学推理能力对共时推理至关重要,专门用于数学推理的模型(如WizardMath-70B)表现最佳。通过结合数学推理和链式思维的方法(MR-COT),我们显著提升了模型在复杂共时任务中的表现。这项研究为未来改进大规模语言模型在共时推理中的能力提供了新的方向。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦
相关文章:
![](https://img-blog.csdnimg.cn/img_convert/f33eb4d18287807190fae3d3d0f56075.png)
ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!
作者:苏肇辰 标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? 录取:ACL2024 Main 论文链接:https://arxiv.org/abs/2406.09072 代码链接:https://github.com/zhaochen0110/Cotem…...
![](https://img-blog.csdnimg.cn/direct/0c247f7cca004fab96d6ea8c3ce49ebe.png)
从xxl-job源码中学习Netty的使用
1. 启动与Spring实例化 com.xxl.job.core.executor.impl.XxlJobSpringExecutor.java类 继承SmartInitializingSingleton 类,在afterSingletonsInstantiated 实例化后方法中 调用initJobHandlerMethodRepository 把所有的xxljob任务管理起来; private…...
![](https://img-blog.csdnimg.cn/direct/460846995c214070a0fcbf50918471b3.png)
人工智能发展历程了解和Tensorflow基础开发环境构建
目录 人工智能的三次浪潮 开发环境介绍 Anaconda Anaconda的下载和安装 下载说明 安装指导 模块介绍 使用Anaconda Navigator Home界面介绍 Environment界面介绍 使用Jupter Notebook 打开Jupter Notebook 配置默认目录 新建文件 两种输入模式 Conda 虚拟环境 添…...
![](https://www.ngui.cc/images/no-images.jpg)
makefile追加warning日志
在Makefile中,你不能直接“追加”warning日志到构建过程中,但你可以通过几种方式在构建时产生额外的警告或消息。以下是一些常用的方法: 使用echo或printf命令: 在Makefile的规则中,你可以使用echo或printf命令来输出警…...
![](https://img-blog.csdnimg.cn/direct/fcbdbea2ca5e4c68b7469511aadd7cc4.png)
不要直接使用unidefined 而使用void 0
为什么不要使用unidefined 而使用void 0? 在JavaScript中,undefined 和 void 0 都可以用来表示未定义的值,但它们在使用和上下文中有一些微妙的差异,这也是为什么有时可能会推荐使用 void 0 而不是直接使用 undefined。 全局污染ÿ…...
![](https://www.ngui.cc/images/no-images.jpg)
注解详解系列 - @Scope:Bean作用域管理
注解简介 在今天的注解详解系列中,我们将探讨Scope注解。Scope是Spring框架中的一个重要注解,用于定义Spring bean的作用域。通过指定bean的作用域,我们可以控制bean的生命周期和创建方式。 注解定义 Scope注解用于指定Spring bean的作用域…...
![](https://img-blog.csdnimg.cn/direct/600775199ecd455891ea23f115c4942e.png)
数学建模基础:数学建模概述
目录 前言 一、数学建模的步骤 二、模型的分类 三、模型评价指标 四、常见的数学建模方法 实际案例:线性回归建模 步骤 1:导入数据 步骤 2:数据预处理 步骤 3:建立线性回归模型 步骤 4:模型验证 步骤 5&…...
![](https://img-blog.csdnimg.cn/img_convert/d8b7063807b73b76cecacd526b79869b.png)
人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)
开源大语言模型完整列表 Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。 所谓"语言模型",就是只用来处理语言文…...
![](https://www.ngui.cc/images/no-images.jpg)
数据结构之B树
引言 在计算机科学中,数据结构是用于组织和存储数据的关键工具。其中,B树(B-tree)作为一种自平衡的树形数据结构,被广泛应用于数据库和文件系统中,以提高查找、插入、删除和范围查询的效率。本文将深入探讨…...
![](https://www.ngui.cc/images/no-images.jpg)
双色球预测算法(Java),——森林机器学习、时间序列
最近AI很火,老想着利用AI的什么算法,干点什么有意义的事情。其中之一便想到了双色球,然后让AI给我预测,结果基本都是简单使用随机算法列出了几个数字。 额,,,,咋说呢,双…...
![](https://img-blog.csdnimg.cn/direct/f4af8a921faf4333965a1cb68a4e8ae7.png)
【计算机网络篇】数据链路层(11)在数据链路层扩展以太网
文章目录 🍔使用网桥在数据链路层扩展以太网🥚网桥的主要结构和基本工作原理🎈网桥的主要结构🔎网桥转发帧的例子🔎网桥丢弃帧的例子🔎网桥转发广播帧的例子 🥚透明网桥🔎透明网桥的…...
![](https://www.ngui.cc/images/no-images.jpg)
Ubuntu20.04 使用scrapy-splash爬取动态网页
我们要先安装splash服务,使用dock安装,如果dock没有安装,请参考我的上一篇博文: 按照官方文档:https://splash.readthedocs.io/en/stable/install.html 1.下载splash sudo docker pull scrapinghub/splash2.安装scrapy…...
![](https://www.ngui.cc/images/no-images.jpg)
Function:控制继电器上下电,上电后adb登录,copy配置文件
import serial import time import datetime import subprocess import osdef append_to_txt(file_path, content):if os.path.exists(file_path):with open(file_path, a) as file: # 使用 a 模式打开文件进行追加file.write(content \n) # 追加内容,并换行else…...
![](https://img-blog.csdnimg.cn/img_convert/634a4c3c99a82b508803a63e9e6b90fd.jpeg)
香港电讯高可用网络助力企业变革金融计算
客户背景 客户是一家金融行业知名的量化私募对冲基金公司,专注于股票、期权、期货、债券等主要投资市场,在量化私募管理深耕多年,目前资管规模已达数百亿级,在国内多个城市均设有办公地点。 客户需求 由于客户业务倚重量化技术…...
![](https://img-blog.csdnimg.cn/direct/891a93e114194887b21da77aaaccd7f5.png)
LDR6020一拖二快充线:多设备充电新选择
随着科技的快速发展,我们的日常生活中越来越多地依赖于智能设备。然而,每当手机、平板或其他移动设备电量告急时,我们总是需要寻找合适的充电线进行充电。为了解决这一痛点,市场上出现了一款备受瞩目的新产品——LDR6020一拖二快充…...
![](https://img-blog.csdnimg.cn/img_convert/4d183896b3e136c9866416cffa999acf.jpeg)
电脑ffmpeg.dll丢失原因解析,找不到ffmpeg.dll的5种解决方法
在数字化时代,多媒体文件的处理已经成为我们日常生活和工作中不可或缺的一部分。在计算机使用过程中,丢失ffmpeg.dll文件是一个特定但常见的问题,尤其是对于那些经常处理视频编解码任务的用户来说。下面小编讲全面分析ffmpeg.dll丢失原因以及…...
![](https://img-blog.csdnimg.cn/img_convert/fc399e2e02578f2aa4280f89113fc98a.jpeg)
手机网站制作软件是哪些
手机网站制作软件是一种用于设计、开发和创建适用于移动设备的网站的软件工具。随着移动互联网时代的到来,越来越多的用户开始使用手机浏览网页和进行在线交流,因此,手机网站制作软件也逐渐成为了市场上的热门工具。 1. Adobe Dreamweaver&am…...
![](https://img-blog.csdnimg.cn/direct/81c4d7cf14f744f9bddb4df0dc08aae0.png)
【Kubernetes项目部署】k8s集群+高可用、负载均衡+防火墙
项目架构图 (1)部署 kubernetes 集群 详见:http://t.csdnimg.cn/RLveS (2) 在 Kubernetes 环境中,通过yaml文件的方式,创建2个Nginx Pod分别放置在两个不同的节点上; Pod使用hostP…...
![](https://www.ngui.cc/images/no-images.jpg)
IPC工业电脑的现状、发展未来与破局策略
文章目录 全球工业电脑市场概况1.1 市场规模与增长1.2 区域分布与主要市场 工业电脑的技术发展与应用2.1 技术趋势与创新2.2 应用领域扩展2.3 工业自动化与智能化 竞争格局与市场参与者3.1 主要企业与市场竞争3.2 国内外竞争对比3.3 市场集中度与竞争策略 未来发展趋势与市场预…...
![](https://img-blog.csdnimg.cn/direct/0dde8d3baf334aa68f15eed9c0b32085.png)
深入了解Redis的TYPE命令
Redis作为一个高性能的内存数据库,支持多种数据结构。在管理和操作Redis数据库时,了解键对应的数据类型是至关重要的。本文将深入探讨Redis的TYPE命令,它用于返回存储在指定键中的值的数据类型。 什么是TYPE命令? TYPE命令用于查…...
![](https://img-blog.csdnimg.cn/direct/6a0d8490f4bb423cbe1a3667d7d18a46.png)
iptables(3)规则管理
简介 上一篇文章中,我们已经介绍了怎样使用iptables命令查看规则,那么这篇文章我们就来介绍一下,怎样管理规则,即对iptables进行”增、删、改”操作。 注意:在进行iptables实验时,请务必在个人的测试机上进行,不要再有任何业务的机器上进行测试。 在进行测试前,为保障…...
![](https://www.ngui.cc/images/no-images.jpg)
关于addEventListener的使用和注意项
一、addEventListener基本理解 addEventListener 是一个 JavaScript DOM 方法,用于向指定元素添加事件监听器。它接受三个参数: 事件类型:一个字符串,表示要监听的事件类型,如 ‘click’、‘mouseover’、‘keydown’…...
![](https://img-blog.csdnimg.cn/direct/871ced83c99c46158795bc67db7a1a53.png)
分享一下,如何搭建个人网站的步骤
在这段充满探索与创造的奇妙旅途中,我就像一位耐心的建筑师,在数字世界的荒原上精心雕琢,两周的时光缓缓流淌。每天,我与代码共舞,手执HTML、CSS与JavaScript这三大构建魔杖,一砖一瓦地筑起了梦想中的网络城…...
![](https://img-blog.csdnimg.cn/img_convert/cd7f0387dd7c8af3d9150614b751b8a3.jpeg)
(7)摄像机和云台
文章目录 前言 1 云台 2 带有MAVLink接口的摄像机 3 相机控制和地理标签 4 视频质量差的常见修复方法 5 详细主题 前言 Copter、Plane 和 Rover 最多支持 3 轴云台,包括自动瞄准感兴趣区域(ROI)的相机和自动触发相机快门等先进功能。按…...
![](https://www.ngui.cc/images/no-images.jpg)
MicroBlaze IP核中的外设接口和缓冲器接口介绍
MicroBlaze IP核是Xilinx公司提供的一个嵌入式软核处理器,广泛应用于FPGA设计中。在MicroBlaze IP核中,外设接口和缓冲器接口是处理器与外部设备和内存交互的关键部分。 1 外设接口 MicroBlaze处理器中的AXI4 内存映射外设接口AXI4是一种在Xilinx FPGA设…...
![](https://www.ngui.cc/images/no-images.jpg)
Java数据结构与算法(完全背包)
前言: 完全背包问题是背包问题的一个变种,与0/1背包问题不同,在完全背包问题中,每种物品可以被选取多次。问题描述如下: 给定 n 件物品,每件物品有一个重量 wi和一个价值 vi,以及一个背包,它能…...
![](https://img-blog.csdnimg.cn/direct/134465e379de443182bf0e3c6832e691.png)
git merge(3个模式) 与 git rebase 图文详解区别
目录 1 git merge1.1 模式一:fast-forward(–ff)1.2 模式二:non-Fast-forward(–no-ff)1.3 模式三:fast-forward only(–ff-only) 2 git rebase3 区别 1 git merge git merge有好几种不同的模式 默认情况下你直接使用 git merge 命令&#x…...
![](https://www.ngui.cc/images/no-images.jpg)
Eclipse 工作空间:深入解析与高效使用
Eclipse 工作空间:深入解析与高效使用 Eclipse 是一款广受欢迎的集成开发环境(IDE),它为各种编程语言提供了强大的开发工具。在 Eclipse 中,工作空间(Workspace)是一个核心概念,它代表了一个项目的集合,这些项目共享相同的配置和设置。本文将深入探讨 Eclipse 工作空…...
![](https://img-blog.csdnimg.cn/direct/07f482b2b2484836a757b1b32de3646c.png)
Aspose将doc,ppt转成pdf
1.需要引入的jar包 链接: https://pan.baidu.com/s/1t3wqq7KrHi50K9KX3-Eb9A?pwdu4se 提取码: u4se <dependency><groupId>com.aspose</groupId><artifactId>aspose-words-jdk16</artifactId><version>15.8.0</version><scop…...
![](https://img-blog.csdnimg.cn/direct/9346683362f148f798dc078eeb4a6895.png)
Flutter第十四弹 抽屉菜单效果
目标: 1.怎么构建抽屉菜单效果? 2.抽屉菜单怎么定制? 一、抽屉菜单 侧滑抽屉菜单效果 1.1 抽屉菜单入口 Flutter 的脚手架Scaffold,默认提供了抽屉菜单效果入口。 主页面采用一个简单的页面,侧滑菜单首先使用一个I…...
![](/images/no-images.jpg)
黑群晖的做网站文件/seo小白入门
在做算法的过程中经常终端传来的是jpeg图片,需要将jpeg解码为yuv再进行处理。这里使用jpeg-6b交叉编译,然后进行解码,下面是解码的过程:#include <ctype.h> #include <errno.h> #include <unistd.h> #include &…...
![](/images/no-images.jpg)
郴州网站/网站百度seo关键词优化
ActionContext context ActionContext.getContext(); MapSession session ActionContext.getSession(); ServletActionRequest request ServletActionContext().getRequest(); ServletActionResponse response ServletActionContext().getResponse();...
![](https://img-blog.csdnimg.cn/img_convert/ff672262aaa3b1bae35901a76a9768af.png)
网站推广优化的公司/免费的推广引流软件
前言 Hi~,我是 2020 届物联网专业毕业生,现就读于杭州。谨以此文来记录我的秋招以及入门前端以来的学习历程,如有错误,希望大家能及时提出! 面试情况 前前后后一共面试了 14 家公司的前端岗,按城市划分为&…...
![](https://img-blog.csdnimg.cn/img_convert/0b1331709591d260c1c78e86d0c51c18.png)
网站主办者冲突 请核实后再次报备/百度平台推广联系方式
操作系统:Windows 7虚拟机设置↓ 首先你需要将虚拟机安装好,使用虚拟机推荐配置自动安装就可以了。↓ 安装好后,在左侧我的计算机列表中选中刚刚安装好的虚拟机,点击右键选择设置。在虚拟机设置中将网络连接切换成桥接模式。* 在桥…...
![](/images/no-images.jpg)
公司网站优化要怎么做/客户引流的最快方法是什么
我会将语言指示器放在URL路径的开头,如/ en / …或/ de / ….然后,您可以使用单个脚本来检查首选语言,并通过预先添加语言指示符来重定向请求:// negotiate-language.php$availableLanguages array(en, de);if (!preg_match(~^/[a-z]{2}/~, $_SERVER[REQUEST_URI])…...
![](http://blogs.msdn.com/cfs-file.ashx/__key/communityserver-blogs-components-weblogfiles/00-00-00-86-66-metablogapi/1616.Tube-Map-01_5F00_01_5F00_thumb.png)
wordpress主题首页怎么修改/网站百度关键词seo排名优化
今天谈下在Silverlight中如何进行异常处理,用WCF Ria Service在服务器端记录异常日志,后台用log4net组件处理logging,前台给用户弹出一个友好的框,用户也可以在客户端保存异常log到本地,就这么点内容。废话不说&#x…...