大模型是否具备推理能力?解读苹果新论文:GSM-Symbolic和GSM8K
在人工智能领域,大模型的推理能力一直备受关注。OpenAI的GPT-4和其他大模型的表现令人惊叹,但究竟是否具备真正的数学推理和抽象逻辑能力?最近,苹果的研究人员发表了一篇题为“GSM-Symbolic:理解大语言模型中数学推理的局限性”的论文,深度分析了大模型的数学推理表现,揭示了其在抽象逻辑和推理任务上的局限性。本文将详细解读这篇论文,并探讨目前主流模型在逻辑推理方面的核心问题。
1. 大模型推理能力的现状
当前大模型在数学推理测试中的优异表现令许多人认为这些模型或许已经具备“类人”推理能力。然而,苹果团队通过对GPT-4、LLaMA、Phi等多个闭源和开源模型的研究发现,这些模型并未表现出真正的逻辑推理,而更像是复杂的“模式匹配器”。也就是说,它们依赖于已有的训练数据和模式识别来回答问题,而非逻辑化地推导答案。
苹果研究团队认为,随着大模型训练数据的增多,数据污染不可避免——模型可能在训练数据中接触过评估数据集的题目,因此即便模型表现出色,也可能仅仅是记住了答案,而不是通过逻辑分析解决问题。
1.1 使用GSM8K数据集进行初步测试
GSM8K数据集包含了8000个小学难度的数学问题,并一直是大模型数学推理能力的标准测试集。大模型的GSM8K表现从初期的GPT-3的35%逐步提高到现在的85%以上。但这种提升可能源于模型的记忆性,而非逻辑推理能力。
1.2 数据污染问题及其影响
由于GSM8K数据集在2021年发布,目前主流的大模型训练数据中可能包含了该数据集的一部分问题。模型可能通过“背答案”来解答GSM8K题目,而非真正理解问题的逻辑。因此,使用GSM8K数据集来评估模型的推理能力存在局限性。
2. GSM-Symbolic:苹果新数据集的设计
为更客观地测试大模型的数学推理能力,苹果团队开发了新数据集GSM-Symbolic,对GSM8K数据集进行了重新设计和变化,以避开数据污染问题。具体来说,GSM-Symbolic通过更改题目中的数字、称谓、玩具种类等元素来生成多个“新”题目,并设计了额外的数据集GSM-NoOp,在问题中加入无关信息以考察模型对冗余数据的敏感度。
2.1 GSM-Symbolic的结果分析
在GSM-Symbolic的数据集上,即便是GPT-4等性能优越的模型,准确率显著下降。大多数模型在更换题干后准确率下降幅度大于1%-2%。例如,只改变题目中的名称和数字即可造成模型性能显著下降,显示出这些模型在遇到陌生信息时会产生认知困扰,无法系统性地推导答案。
2.2 增加无关信息对模型表现的影响
苹果团队还在GSM-NoOp数据集中加入无关信息,发现所有模型的准确率都显著下降。比如,Phi-3-mini模型准确率下降超过65%,即便是GPT-4等表现优异的模型也出现了接近20%的准确率下降。这表明,当前大模型在处理多余信息时缺乏必要的区分和排除机制,会将冗余信息当作逻辑推理的一部分。
3. “模式匹配”还是“逻辑推理”?
苹果的研究团队认为,现有大模型更接近于“模式匹配器”而非“推理器”。其推测是,大模型将任务问题视作一种子图匹配的问题,将其逐步映射到训练数据中存在的类似子问题上,而并非依靠内在逻辑分析逐步解答问题。
3.1 线性化子图匹配
一种重要理论解释是“线性化子图匹配”——任务问题可以被表示成有向图,大模型通过图中子图和已有数据的相似性进行近似推理。然而,模型并未在逻辑上分解任务步骤,而是依赖模式识别。例如,在乘法问题中,模型未表现出人类推理的能力,而是仅在常见乘积(如7×4=28)上取得了成功,在更复杂乘法上则表现糟糕。
3.2 实验验证:乘法任务
研究团队在乘法任务上测试模型表现,如两位数和三位数的乘法,发现大模型在训练集上常见的小乘法表现优越,但在更大范围的乘法上表现糟糕。说明模型在更复杂的问题上缺乏系统性的分解与分析,仅在有限子图范围内完成匹配,而非通过逻辑化思维解决问题。
4. 大模型的推理局限性:现状与展望
苹果的研究表明,大模型在多步推理和逻辑归纳上存在重大缺陷,且在遇到冗余信息、问题格式变动等干扰时表现不佳。其推理更像是记忆和近似匹配而非人类逻辑分析。类似的实验也出现在谷歌DeepMind等研究中,进一步印证了大模型的推理局限性。
4.1 当前局限性和未来挑战
- 过度依赖数据匹配:当前大模型倾向于依赖数据匹配,并非真正理解问题。即便在GPT-4等优异模型上也会出现复杂问题回答失败的现象。
- 多步逻辑化推理能力不足:大模型在跨多个逻辑步骤的问题中显现出推理能力的不足,无法完全理解任务的多层次结构。
- 抗干扰能力不足:在数据中加入无关信息时,大模型无法有效识别干扰项,这也对AI系统的可靠性提出了挑战。
4.2 未来的改进方向
苹果团队的研究暗示,通过简单堆积数据和参数并不能解决大模型的推理缺陷。Gary Marcus等学者建议,将神经网络和符号逻辑相结合,通过引入变量与操作之间的抽象关系来提升模型的逻辑化能力。这可能是未来人工智能领域的重要研究方向之一。
5. 总结
苹果的GSM-Symbolic论文揭示了大模型在数学推理和逻辑分析方面的核心缺陷,指出了其模式匹配的特性和逻辑推理的不足。尽管GPT-4和其他大模型表现出惊人的模式匹配能力,但它们的推理本质仍远未达到人类智能的水准。未来,如何结合神经符号系统、提升模型的逻辑化推理能力,或将是人工智能发展的关键课题。

相关文章:
大模型是否具备推理能力?解读苹果新论文:GSM-Symbolic和GSM8K
在人工智能领域,大模型的推理能力一直备受关注。OpenAI的GPT-4和其他大模型的表现令人惊叹,但究竟是否具备真正的数学推理和抽象逻辑能力?最近,苹果的研究人员发表了一篇题为“GSM-Symbolic:理解大语言模型中数学推理的…...
自动化部署-02-jenkins部署微服务
文章目录 前言一、配置SSH-KEY1.1 操作jenkins所在服务器1.2 操作github1.3 验证 二、服务器安装git三、jenkins页面安装maven四、页面配置自动化任务4.1 新建任务4.2 选择4.3 配置参数4.4 配置脚本 五、执行任务5.1 点击执行按钮5.2 填写参数5.3 查看日志 六、查看服务器文件七…...
HTB:Analytics[WriteUP]
目录 连接至HTB服务器并启动靶机 1.How many open TCP ports are listening on Analytics? 2.What subdomain is configured to provide a different application on the target web server? 3.What application is running on data.analytical.htb? 4.What version of…...
【每日题解】3211. 生成不含相邻零的二进制字符串
给你一个正整数 n。 如果一个二进制字符串 x 的所有长度为 2 的 子字符串 中包含 至少 一个 "1",则称 x 是一个 有效 字符串。 返回所有长度为 n 的 有效 字符串,可以以任意顺序排列。 示例 1: 输入: n 3 输出&a…...
Nginx、Tomcat等项目部署问题及解决方案详解
目录 前言1. Nginx部署后未按预期显示结果1.1 查看Nginx的启动情况1.2 解决启动失败的常见原因 2. 端口开启问题2.1 Windows环境下的端口开放2.2 Linux环境下的端口开放 3. 重视日志分析3.1 Nginx日志分析3.2 Tomcat日志分析 4. 开发环境与部署后运行结果不同4.1 开发环境与生产…...
【PythonWeb开发】Flask-RESTful参数解析
flask-restful中的reqparse.RequestParser是一个用于解析和验证参数的工具。它可以帮助开发者从请求中提取参数,并确保这些参数符合预期的格式和类型。参数解析的意思就是规范化传入的参数并获取到这些参数。 一、什么是 reqparse.RequestParser? reqpa…...
gcc与mingw64版本介绍
三类编译器 GCC,全称为GNU Compiler Collection,是一个强大的编译器集合,它不仅支持C和C语言,还支持Fortran、Ada、Java等多种编程语言的编译。在GCC工具链中,gcc和g是两个核心的编译器工具。gcc是专门用于编译C语言程…...
CSS3新增长度单位
CSS3新增长度单位 rem:根元素字体的倍数,只与根元素字体大小有关;vw:占视口宽度的百分比;vh:占视口高度的百分比;vmax:占视口中宽和高最大的百分比;vmin:占视…...
【Spring】创建Spring项目前的配置工作
🥊作者:一只爱打拳的程序猿,Java领域新星创作者,CSDN、阿里云社区优质创作者。 🤼文章收录于:Spring 目录 1.下载Spring Initializr 2.配置Spring国内源 3.添加Spring框架的支持(pom.xml) 4.刷新Maven仓…...
docker 安装部署 nginx
命令 docker run \ -p 15008:80 \ --name nginx1.21.6 \ -v /iepms/nginx/conf/nginx.conf:/etc/nginx/nginx.conf \ -v /iepms/nginx/conf/conf.d:/etc/nginx/conf.d \ -v /iepms/nginx/log:/var/log/nginx \ -v /iepms/nginx/html:/usr/share/nginx/html \ -d 192.168.1.103…...
黑马数据库学习笔记
课程地址 (基础篇)MySQL的启动 mysql 默认使用 3306 端口 在 centos下,启动 mysql 数据库:service mysqld start; 查看状态/启动/停止/重启:systemctl status/start/stop/restart mysqld; 登录到mysql数据库&…...
MYSQL-SQL-03-DQL(Data Query Language,数据查询语言)(单表查询)
DQL(数据查询语言) DQL英文全称是Data Query Language(数据查询语言),数据查询语言,用来查询数据库中表的记录。 查询关键字: SELECT 在一个正常的业务系统中,查询操作的频次是要远高于增删改的,当我们去访…...
【数据结构和算法】三、动态规划原理讲解与实战演练
目录 1、什么是动态规划? 2、动态规划实战演练 2.1 力扣题之爬楼梯问题 (1)解题思路1: (2)解题思路2: (3)动态规划(DP):解题思路 (4&#x…...
交叉编译 perl-5.40.0(riscv64)
交叉编译 perl-5.40.0(riscv64) https://arsv.github.io/perl-cross/usage.html https://github.com/arsv/perl-cross 借助 perl-cross 进行交叉编译 https://www.perl.org/get.html#unix_like 这里获取 perl-5.40.0 的源码 https://github.com/arsv/pe…...
Leetcode 搜索旋转排序数组
这段代码是用于解决LeetCode第33题“搜索旋转排序数组”的Java解法。以下是对该算法思想的中文解释: 算法思想 二分查找的基本思路: 由于数组是部分有序的(被旋转过),我们可以利用二分查找的思想,逐步缩小…...
Spring Task—定时任务
Spring Task 是 Spring 提供的一种轻量级定时任务调度功能,内置在 Spring 框架中。与 Quartz 等重量级调度框架相比,Spring Task 使用简便,无需额外依赖,适合在简单的调度任务场景中使用。通过注解配置方式,开发者可以…...
Spring Boot 应用开发概述
目录 Spring Boot 应用开发概述 Spring Boot 的核心特性 Spring Boot 的开发模式 Spring Boot 在企业应用开发中的优势 结论 Spring Boot 应用开发概述 Spring Boot 是由 Pivotal 团队开发的一个框架,基于 Spring 框架,旨在简化和加速基于 Spring …...
Chrome谷歌浏览器加载ActiveX控件之allWebDesktop控件介绍
背景 allWebDesktop控件是一款方便用户在线打开各类文档的OA办公控件。它设计比较轻巧,充分利用计算机程序资源打开文档,并将程序窗口嵌入到allWebDesktop控件区域内,从而实现浏览器内打开各类文档效果。 allWebPlugin中间件是一款为用户提供…...
GitHub Star 数量前 5 的开源应用程序生成器
欢迎来的 GitHub Star 数量排名系列文章的第 7 篇——最受欢迎的应用程序生成器。 之前我们已经详细探讨过:在 GitHub 上最受欢迎的——无代码工具、低代码项目、内部工具、CRUD项目、自部署项目和 Airtable 开源替代品。累计超过 50 个优质项目!&#…...
DBC文件当中新建CANFD等类型的报文
同学最近有添加CANFD报文的需求,需要用到CANFD类型报文的DBC文件,这下就难住我了,我之前用的DBC文件只有“CAN Standard”“CAN Extended”两种类型,压根没见过FD的。 后来他找到了项目之前的DBC,打开来看,…...
第19节 Node.js Express 框架
Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...
UE5 学习系列(三)创建和移动物体
这篇博客是该系列的第三篇,是在之前两篇博客的基础上展开,主要介绍如何在操作界面中创建和拖动物体,这篇博客跟随的视频链接如下: B 站视频:s03-创建和移动物体 如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...
江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命
在华东塑料包装行业面临限塑令深度调整的背景下,江苏艾立泰以一场跨国资源接力的创新实践,重新定义了绿色供应链的边界。 跨国回收网络:废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点,将海外废弃包装箱通过标准…...
C++ 求圆面积的程序(Program to find area of a circle)
给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...
Java入门学习详细版(一)
大家好,Java 学习是一个系统学习的过程,核心原则就是“理论 实践 坚持”,并且需循序渐进,不可过于着急,本篇文章推出的这份详细入门学习资料将带大家从零基础开始,逐步掌握 Java 的核心概念和编程技能。 …...
uniapp中使用aixos 报错
问题: 在uniapp中使用aixos,运行后报如下错误: AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...
服务器--宝塔命令
一、宝塔面板安装命令 ⚠️ 必须使用 root 用户 或 sudo 权限执行! sudo su - 1. CentOS 系统: yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh2. Ubuntu / Debian 系统…...
深度学习水论文:mamba+图像增强
🧀当前视觉领域对高效长序列建模需求激增,对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模,以及动态计算优势,在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内,就有不…...
计算机基础知识解析:从应用到架构的全面拆解
目录 前言 1、 计算机的应用领域:无处不在的数字助手 2、 计算机的进化史:从算盘到量子计算 3、计算机的分类:不止 “台式机和笔记本” 4、计算机的组件:硬件与软件的协同 4.1 硬件:五大核心部件 4.2 软件&#…...
4. TypeScript 类型推断与类型组合
一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式,自动确定它们的类型。 这一特性减少了显式类型注解的需要,在保持类型安全的同时简化了代码。通过分析上下文和初始值,TypeSc…...
