当前位置: 首页 > news >正文

ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!

89124d97ff76f1e3a74ca787a340410d.png

作者:苏肇辰

d2b6a892c1eaf064cceb883beb52d623.png

标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning?

录取:ACL2024 Main

论文链接:https://arxiv.org/abs/2406.09072

代码链接:https://github.com/zhaochen0110/Cotempqa

单位:苏州大学、上海人工智能实验室

🔍 背景与现有工作:

  1. 时间推理的重要性:时间推理对于语言模型理解世界至关重要。当前的时间推理数据集(如TIMEQA、TEMPLAMA和TEMPREASON)主要关注单一或孤立事件,未能充分反映现实世界中共时事件的复杂性。这些数据集的问题集中在单个时间点或孤立的事件上,而现实中事件往往是同时发生并相互交织的。

  2. 现有数据集

  • TIMEQA:基于时间演变的事实构建问题,要求模型在特定时间点回答问题。

  • TEMPLAMA:从Wikidata知识库中提取结构化事实,用于封闭式问答。

  • TEMPREASON:将显式时间表达转化为隐式事件信息,提供更综合的时间问答评估框架。

🌟 我们的贡献 - COTEMPQA 数据集:

4aa1bbabd695b29d7c86627835055ba9.png
图1: Cotempqa数据集组成
7ecb2cced0ef92931e659ffa9e039334.png
图2: Cotempqa和常见时间推理数据集比较
  1. 数据集简介:COTEMPQA是一个全面的共时问答基准,包含4748个样本,旨在评估大规模语言模型在四种共时场景(相等、重叠、期间、混合)中的理解和推理能力。

f7f9e80ab051893af3edde0250c053fb.png
图3: 三种共时关系
  1. 四种共时场景:

  • 相等场景(Equal)

    • 定义:两个事实发生在完全相同的时间范围内,没有时间差异。

    • 特点:时间完全重叠,模型只需识别出相同的时间段。

    • 示例问题:当A事件发生时,B事件也在同时发生。

  • 重叠场景(Overlap)

    • 定义:两个事实在时间上部分重叠。

    • 特点:需要模型识别出部分重叠的时间段。

    • 示例问题:当A事件发生时,B事件在时间段C内部分重叠。

  • 期间场景(During)

    • 定义:一个事实的时间范围完全包含在另一个事实的时间范围内。

    • 特点:模型需要理解一个事件完全包含在另一个事件内的复杂时间关系。

    • 示例问题:在A事件发生期间,B事件也在发生。

  • 混合场景(Mix)

    • 定义:包含相等、重叠和期间三种类型的混合情形,是最复杂的场景。

    • 特点:需要模型处理多种时间关系的组合。

    • 示例问题:当A事件发生时,B事件在相同时间段或部分重叠,或者一个事件包含在另一个事件中。

  1. 数据集构建过程

  • 从Wikidata提取时间相关事实

    • 数据格式:将知识三元组和限定词转化为五元组格式(主体,关系,客体,开始时间,结束时间)。

    • 分组整理:按主体分组,确保每组包含至少三个时间事实。

  • 识别共时事实

    • 算法设计:通过比较不同事实的时间戳来识别重叠部分,并将其分类为相等、重叠、期间或混合。

  • 问答对构建

    • 条件事实与查询事实:根据识别出的共时事实构建问题,选择一个事实作为条件事实,另一个作为查询事实。

    • 预定义关系对与问题模板:为确保问题的逻辑关联性,我们预定义了17种相关关系对,并基于这些对构建问题模板。

dbab158fd2113d5f375637c6efaf4889.png

📊 实验结果与分析:

  1. 模型表现

3d845cb5466f4372fbcbb50abb028e79.png
图4: 不同模型在Cotempqa数据集上的效果
  • GPT-4 在共时推理中的表现:尽管GPT-4在所有模型中表现最好,但与人类水平(54.7 vs. 92.8)仍有显著差距。

  • 不同场景的难度差异

    • 相等场景(Equal):GPT-4表现较好(92.7)。

    • 重叠场景(Overlap):表现显著下降(59.4)。

    • 期间场景(During):进一步下降(50.1)。

    • 混合场景(Mix):表现最差(45.0)。

  • 闭卷问答(CBQA) vs. 开卷问答(OBQA)

    • 闭卷问答:模型表现较弱,GPT-4为14.5。

    • 开卷问答:表现提升显著,GPT-4为54.7。

  1. 错误分析

c00b307b8b180d370f3a081d3b8f96de.png
图5: 错误分析
  • 为了更好地理解模型所犯的错误,我们重点调查了GPT-4在零样本CoT下生成的回答。我们将错误分为三类:

    根据案例错误分析,“不确定性错误”是最常见的错误类型,占比43.14%。我们认为GPT-4在回答时倾向于提供相对保守的回答,仅在具有一定信心时才返回答案。未来的研究需要优化模型的框架,进一步增强大规模语言模型在共时理解和推理方面的能力。

    • 不完整答案错误:问题有多个正确答案,但模型未能返回全部正确答案。

    • 不确定性错误:模型无法从提供的上下文中提取共时关系,并拒绝回答问题。

    • 错误答案错误:模型返回了错误答案,表明模型在共时推理方面存在不足。

  1. 案例研究

2f25e038e85b27980cddc229b25bfdc1.png
图6: 案例研究
  • 基本能力:现有的大规模语言模型(LLMs)能够有效地推理简单的共时事件。然而,它们在需要更深层次理解和复杂共时推理的任务中表现出困难。相等场景由于时间间隔完全重叠,对LLMs来说更容易处理。

  • 复杂性增加:重叠和期间场景呈现出复杂的时间交叉,需要更多隐含推理来理解共时关系。相比于相等场景,确定一个时间段是否与另一个时间段相交(例如期间和重叠)更加具有挑战性。

  • 混合场景:混合场景有多个正确答案,并包含各种共时关系,是最具挑战性的场景。模型在处理这些复杂情况时,需要更高的推理能力和准确性。

  1. 不同能力在共时推理中的作用

d573b452224d82232032c6f8251f74d8.png
图7: 不同能力在共时推理中的作用
  • 数学推理的作用:专门用于数学推理的模型(如WizardMath-70B)在共时推理中的表现显著提升,得分为30.1,而基础模型LLaMA-70B为22.2,CodeLLaMA-34B为20.0。这表明数学推理技能与理解和解释复杂时间关系所需的技能之间有很强的相关性。

  • 混合场景的表现:尽管WizardMath在基准模型中表现最好,但在混合场景中的效果较低。进一步调查发现,在混合场景中,问题往往有多个答案。WizardMath倾向于返回单一答案,而不是列出所有可能的答案,这导致其精确度较高但召回率较低(与LLaMA、CodeLLaMA等模型相比)。

🔧 提升策略 - MR-COT

  1. 数学推理的重要性:上述实验发现数学推理在处理共时事件中至关重要。以WizardMath-70B模型为例,基于数学推理的方法在共时推理任务中的表现显著优于基础模型LLaMA-70B。

792df381e5d32986f18c1b24d302d959.png
图8: MR-COT样例展示
  1. 提出的MR-COT策略:结合数学推理和链式思维的方法,显著提升模型在共时推理任务中的表现。具体步骤包括:

  • 建立关键时间点:确定事件发生的具体时间。

  • 结构化时间线:将相关事件按时间顺序排列。

  • 数学识别重叠:通过数学方法识别事件的重叠部分。

5ff9893c1235afd047cd2bc681702c8d.png
图9: MR-COT的效果展示
  1. 实验结果

  • MR-COT的优势:在开卷问答中重叠、期间和混合任务中分别提升14.6、11.4和13.5分,在闭卷问答中综合提升1.3分。这表明MR-COT策略在复杂共时推理任务中具有显著优势。

  • 但同时相比较human performance (92.8) 还有很大的差距,说明模型的共时推理能力还有很大的提升空间。

💡结论

这篇论文中,我们提出了COTEMPQA数据集,并评估了现有大规模语言模型在共时推理任务中的表现。研究表明,尽管模型在简单的共时任务中表现良好,但在处理复杂的共时关系(如重叠、期间和混合场景)时仍存在显著差距。特别是数学推理能力对共时推理至关重要,专门用于数学推理的模型(如WizardMath-70B)表现最佳。通过结合数学推理和链式思维的方法(MR-COT),我们显著提升了模型在复杂共时任务中的表现。这项研究为未来改进大规模语言模型在共时推理中的能力提供了新的方向。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

f33eb4d18287807190fae3d3d0f56075.png

id:DLNLPer,记得备注呦

相关文章:

ACL2024 | AI的时空穿越记:大型语言模型共时推理的奇幻之旅!

作者:苏肇辰 标题:Living in the Moment: Can Large Language Models Grasp Co-Temporal Reasoning? 录取:ACL2024 Main 论文链接:https://arxiv.org/abs/2406.09072 代码链接:https://github.com/zhaochen0110/Cotem…...

从xxl-job源码中学习Netty的使用

1. 启动与Spring实例化 com.xxl.job.core.executor.impl.XxlJobSpringExecutor.java类 继承SmartInitializingSingleton 类,在afterSingletonsInstantiated 实例化后方法中 调用initJobHandlerMethodRepository 把所有的xxljob任务管理起来; private…...

人工智能发展历程了解和Tensorflow基础开发环境构建

目录 人工智能的三次浪潮 开发环境介绍 Anaconda Anaconda的下载和安装 下载说明 安装指导 模块介绍 使用Anaconda Navigator Home界面介绍 Environment界面介绍 使用Jupter Notebook 打开Jupter Notebook 配置默认目录 新建文件 两种输入模式 Conda 虚拟环境 添…...

makefile追加warning日志

在Makefile中,你不能直接“追加”warning日志到构建过程中,但你可以通过几种方式在构建时产生额外的警告或消息。以下是一些常用的方法: 使用echo或printf命令: 在Makefile的规则中,你可以使用echo或printf命令来输出警…...

不要直接使用unidefined 而使用void 0

为什么不要使用unidefined 而使用void 0? 在JavaScript中,undefined 和 void 0 都可以用来表示未定义的值,但它们在使用和上下文中有一些微妙的差异,这也是为什么有时可能会推荐使用 void 0 而不是直接使用 undefined。 全局污染&#xff…...

注解详解系列 - @Scope:Bean作用域管理

注解简介 在今天的注解详解系列中,我们将探讨Scope注解。Scope是Spring框架中的一个重要注解,用于定义Spring bean的作用域。通过指定bean的作用域,我们可以控制bean的生命周期和创建方式。 注解定义 Scope注解用于指定Spring bean的作用域…...

数学建模基础:数学建模概述

目录 前言 一、数学建模的步骤 二、模型的分类 三、模型评价指标 四、常见的数学建模方法 实际案例:线性回归建模 步骤 1:导入数据 步骤 2:数据预处理 步骤 3:建立线性回归模型 步骤 4:模型验证 步骤 5&…...

人工智能大模型之开源大语言模型汇总(国内外开源项目模型汇总)

开源大语言模型完整列表 Large Language Model (LLM) 即大规模语言模型,是一种基于深度学习的自然语言处理模型,它能够学习到自然语言的语法和语义,从而可以生成人类可读的文本。 所谓"语言模型",就是只用来处理语言文…...

数据结构之B树

引言 在计算机科学中,数据结构是用于组织和存储数据的关键工具。其中,B树(B-tree)作为一种自平衡的树形数据结构,被广泛应用于数据库和文件系统中,以提高查找、插入、删除和范围查询的效率。本文将深入探讨…...

双色球预测算法(Java),——森林机器学习、时间序列

最近AI很火,老想着利用AI的什么算法,干点什么有意义的事情。其中之一便想到了双色球,然后让AI给我预测,结果基本都是简单使用随机算法列出了几个数字。 额,,,,咋说呢,双…...

【计算机网络篇】数据链路层(11)在数据链路层扩展以太网

文章目录 🍔使用网桥在数据链路层扩展以太网🥚网桥的主要结构和基本工作原理🎈网桥的主要结构🔎网桥转发帧的例子🔎网桥丢弃帧的例子🔎网桥转发广播帧的例子 🥚透明网桥🔎透明网桥的…...

Ubuntu20.04 使用scrapy-splash爬取动态网页

我们要先安装splash服务,使用dock安装,如果dock没有安装,请参考我的上一篇博文: 按照官方文档:https://splash.readthedocs.io/en/stable/install.html 1.下载splash sudo docker pull scrapinghub/splash2.安装scrapy…...

Function:控制继电器上下电,上电后adb登录,copy配置文件

import serial import time import datetime import subprocess import osdef append_to_txt(file_path, content):if os.path.exists(file_path):with open(file_path, a) as file: # 使用 a 模式打开文件进行追加file.write(content \n) # 追加内容,并换行else…...

香港电讯高可用网络助力企业变革金融计算

客户背景 客户是一家金融行业知名的量化私募对冲基金公司,专注于股票、期权、期货、债券等主要投资市场,在量化私募管理深耕多年,目前资管规模已达数百亿级,在国内多个城市均设有办公地点。 客户需求 由于客户业务倚重量化技术…...

LDR6020一拖二快充线:多设备充电新选择

随着科技的快速发展,我们的日常生活中越来越多地依赖于智能设备。然而,每当手机、平板或其他移动设备电量告急时,我们总是需要寻找合适的充电线进行充电。为了解决这一痛点,市场上出现了一款备受瞩目的新产品——LDR6020一拖二快充…...

电脑ffmpeg.dll丢失原因解析,找不到ffmpeg.dll的5种解决方法

在数字化时代,多媒体文件的处理已经成为我们日常生活和工作中不可或缺的一部分。在计算机使用过程中,丢失ffmpeg.dll文件是一个特定但常见的问题,尤其是对于那些经常处理视频编解码任务的用户来说。下面小编讲全面分析ffmpeg.dll丢失原因以及…...

手机网站制作软件是哪些

手机网站制作软件是一种用于设计、开发和创建适用于移动设备的网站的软件工具。随着移动互联网时代的到来,越来越多的用户开始使用手机浏览网页和进行在线交流,因此,手机网站制作软件也逐渐成为了市场上的热门工具。 1. Adobe Dreamweaver&am…...

【Kubernetes项目部署】k8s集群+高可用、负载均衡+防火墙

项目架构图 (1)部署 kubernetes 集群 详见:http://t.csdnimg.cn/RLveS (2) 在 Kubernetes 环境中,通过yaml文件的方式,创建2个Nginx Pod分别放置在两个不同的节点上; Pod使用hostP…...

IPC工业电脑的现状、发展未来与破局策略

文章目录 全球工业电脑市场概况1.1 市场规模与增长1.2 区域分布与主要市场 工业电脑的技术发展与应用2.1 技术趋势与创新2.2 应用领域扩展2.3 工业自动化与智能化 竞争格局与市场参与者3.1 主要企业与市场竞争3.2 国内外竞争对比3.3 市场集中度与竞争策略 未来发展趋势与市场预…...

深入了解Redis的TYPE命令

Redis作为一个高性能的内存数据库,支持多种数据结构。在管理和操作Redis数据库时,了解键对应的数据类型是至关重要的。本文将深入探讨Redis的TYPE命令,它用于返回存储在指定键中的值的数据类型。 什么是TYPE命令? TYPE命令用于查…...

iptables(3)规则管理

简介 上一篇文章中,我们已经介绍了怎样使用iptables命令查看规则,那么这篇文章我们就来介绍一下,怎样管理规则,即对iptables进行”增、删、改”操作。 注意:在进行iptables实验时,请务必在个人的测试机上进行,不要再有任何业务的机器上进行测试。 在进行测试前,为保障…...

关于addEventListener的使用和注意项

一、addEventListener基本理解 addEventListener 是一个 JavaScript DOM 方法,用于向指定元素添加事件监听器。它接受三个参数: 事件类型:一个字符串,表示要监听的事件类型,如 ‘click’、‘mouseover’、‘keydown’…...

分享一下,如何搭建个人网站的步骤

在这段充满探索与创造的奇妙旅途中,我就像一位耐心的建筑师,在数字世界的荒原上精心雕琢,两周的时光缓缓流淌。每天,我与代码共舞,手执HTML、CSS与JavaScript这三大构建魔杖,一砖一瓦地筑起了梦想中的网络城…...

(7)摄像机和云台

文章目录 前言 1 云台 2 带有MAVLink接口的摄像机 3 相机控制和地理标签 4 视频质量差的常见修复方法 5 详细主题 前言 Copter、Plane 和 Rover 最多支持 3 轴云台,包括自动瞄准感兴趣区域(ROI)的相机和自动触发相机快门等先进功能。按…...

MicroBlaze IP核中的外设接口和缓冲器接口介绍

MicroBlaze IP核是Xilinx公司提供的一个嵌入式软核处理器,广泛应用于FPGA设计中。在MicroBlaze IP核中,外设接口和缓冲器接口是处理器与外部设备和内存交互的关键部分。 1 外设接口 MicroBlaze处理器中的AXI4 内存映射外设接口AXI4是一种在Xilinx FPGA设…...

Java数据结构与算法(完全背包)

前言: 完全背包问题是背包问题的一个变种,与0/1背包问题不同,在完全背包问题中,每种物品可以被选取多次。问题描述如下: 给定 n 件物品,每件物品有一个重量 wi和一个价值 vi,以及一个背包,它能…...

git merge(3个模式) 与 git rebase 图文详解区别

目录 1 git merge1.1 模式一:fast-forward(–ff)1.2 模式二:non-Fast-forward(–no-ff)1.3 模式三:fast-forward only(–ff-only) 2 git rebase3 区别 1 git merge git merge有好几种不同的模式 默认情况下你直接使用 git merge 命令&#x…...

Eclipse 工作空间:深入解析与高效使用

Eclipse 工作空间:深入解析与高效使用 Eclipse 是一款广受欢迎的集成开发环境(IDE),它为各种编程语言提供了强大的开发工具。在 Eclipse 中,工作空间(Workspace)是一个核心概念,它代表了一个项目的集合,这些项目共享相同的配置和设置。本文将深入探讨 Eclipse 工作空…...

Aspose将doc,ppt转成pdf

1.需要引入的jar包 链接: https://pan.baidu.com/s/1t3wqq7KrHi50K9KX3-Eb9A?pwdu4se 提取码: u4se <dependency><groupId>com.aspose</groupId><artifactId>aspose-words-jdk16</artifactId><version>15.8.0</version><scop…...

Flutter第十四弹 抽屉菜单效果

目标&#xff1a; 1.怎么构建抽屉菜单效果&#xff1f; 2.抽屉菜单怎么定制&#xff1f; 一、抽屉菜单 侧滑抽屉菜单效果 1.1 抽屉菜单入口 Flutter 的脚手架Scaffold&#xff0c;默认提供了抽屉菜单效果入口。 主页面采用一个简单的页面&#xff0c;侧滑菜单首先使用一个I…...

宁夏网站建设一条龙/手机百度ai入口

昨天晚上&#xff0c;三星公布了未来可以升级到安卓8.0的手机名单&#xff0c;其中包括了最新发布的旗舰手机Galaxy S8以及S8和上一代的旗舰手机Galaxy S7/S7 Edge&#xff0c;不过2015年的旗舰Galaxy S6/S6 Edge并没有在更新名单之中。以下是三星公布的能够支持升级至安卓8.0的…...

口碑好的做网站公司/郑州网站

引言 某天在群里看到有小伙伴问MyEclipse/Eclipse的一些使用问题&#xff0c;虽然在我看来&#xff0c;问的问题很简单&#xff0c;但是如果对于刚刚学习的人来说&#xff0c;可能使用就不那么友好了。毕竟我在开始使用MyEclipse/Eclipse 的时候&#xff0c;也是有很多不懂&…...

推广网站怎么做/百度官网首页登录

冒泡排序 顾名思义&#xff0c;冒泡排序直观的意思是气泡越大冒的越快&#xff1a;&#xff09;&#xff0c;对应到我们的列表中就是数字最大的先选出来&#xff0c;然后依次进行。例如 myList [1,4,5,0,6],比较方式为&#xff1a; 相邻的两个数字先进行比较&#xff0c;也就是…...

wordpress下载付费/做网页设计一个月能挣多少

敲过的一些简单脚本&#xff0c;把他们贴上来偶尔看看&#xff0c;过不了多久应该就会觉得非常小儿科吧&#xff0c;不过应该会对shell脚本的流程控制理解有些帮助。 #!/bin/bash//p176.202.52.for i in $(seq 1 254)//for ((i1;i<5;i))//do// ping -c2 -i0.1 -w1 $p$i &…...

有哪些网站可以做java题目/广州搜索seo网站优化

生活中&#xff0c;并不是努力就一定什么都可以。很多时候&#xff0c;我们也会觉得自己无能为力。不只是你&#xff0c;也不只是我&#xff0c;大家都一样。知道时间不可能停留&#xff0c;就没有必要伤春悲秋。知道感情不可能刻意&#xff0c;就不会为了谁寻死觅活。知道遗忘…...

男女做污的事情网站/乐天seo培训

1.确保申请JS权限已通过 2.进入博客后台文件系统 https://i.cnblogs.com/Files.aspx 需要上传的文件 waifu.css waifu1.css live2d.min.js waifu-tips.js flat-ui.min.css 将下载好的看板娘样式文件进行上传 如何实在懒得找可以输入我的文件地址保存我的样式代码 将如下代码放在…...