当前位置：首页 > news >正文

大模型是否具备推理能力？解读苹果新论文：GSM-Symbolic和GSM8K

news 2025/7/3 14:55:08

在人工智能领域，大模型的推理能力一直备受关注。OpenAI的GPT-4和其他大模型的表现令人惊叹，但究竟是否具备真正的数学推理和抽象逻辑能力？最近，苹果的研究人员发表了一篇题为“GSM-Symbolic：理解大语言模型中数学推理的局限性”的论文，深度分析了大模型的数学推理表现，揭示了其在抽象逻辑和推理任务上的局限性。本文将详细解读这篇论文，并探讨目前主流模型在逻辑推理方面的核心问题。

1. 大模型推理能力的现状

当前大模型在数学推理测试中的优异表现令许多人认为这些模型或许已经具备“类人”推理能力。然而，苹果团队通过对GPT-4、LLaMA、Phi等多个闭源和开源模型的研究发现，这些模型并未表现出真正的逻辑推理，而更像是复杂的“模式匹配器”。也就是说，它们依赖于已有的训练数据和模式识别来回答问题，而非逻辑化地推导答案。

苹果研究团队认为，随着大模型训练数据的增多，数据污染不可避免——模型可能在训练数据中接触过评估数据集的题目，因此即便模型表现出色，也可能仅仅是记住了答案，而不是通过逻辑分析解决问题。

1.1 使用GSM8K数据集进行初步测试

GSM8K数据集包含了8000个小学难度的数学问题，并一直是大模型数学推理能力的标准测试集。大模型的GSM8K表现从初期的GPT-3的35%逐步提高到现在的85%以上。但这种提升可能源于模型的记忆性，而非逻辑推理能力。

1.2 数据污染问题及其影响

由于GSM8K数据集在2021年发布，目前主流的大模型训练数据中可能包含了该数据集的一部分问题。模型可能通过“背答案”来解答GSM8K题目，而非真正理解问题的逻辑。因此，使用GSM8K数据集来评估模型的推理能力存在局限性。

2. GSM-Symbolic：苹果新数据集的设计

为更客观地测试大模型的数学推理能力，苹果团队开发了新数据集GSM-Symbolic，对GSM8K数据集进行了重新设计和变化，以避开数据污染问题。具体来说，GSM-Symbolic通过更改题目中的数字、称谓、玩具种类等元素来生成多个“新”题目，并设计了额外的数据集GSM-NoOp，在问题中加入无关信息以考察模型对冗余数据的敏感度。

2.1 GSM-Symbolic的结果分析

在GSM-Symbolic的数据集上，即便是GPT-4等性能优越的模型，准确率显著下降。大多数模型在更换题干后准确率下降幅度大于1%-2%。例如，只改变题目中的名称和数字即可造成模型性能显著下降，显示出这些模型在遇到陌生信息时会产生认知困扰，无法系统性地推导答案。

2.2 增加无关信息对模型表现的影响

苹果团队还在GSM-NoOp数据集中加入无关信息，发现所有模型的准确率都显著下降。比如，Phi-3-mini模型准确率下降超过65%，即便是GPT-4等表现优异的模型也出现了接近20%的准确率下降。这表明，当前大模型在处理多余信息时缺乏必要的区分和排除机制，会将冗余信息当作逻辑推理的一部分。

3. “模式匹配”还是“逻辑推理”？

苹果的研究团队认为，现有大模型更接近于“模式匹配器”而非“推理器”。其推测是，大模型将任务问题视作一种子图匹配的问题，将其逐步映射到训练数据中存在的类似子问题上，而并非依靠内在逻辑分析逐步解答问题。

3.1 线性化子图匹配

一种重要理论解释是“线性化子图匹配”——任务问题可以被表示成有向图，大模型通过图中子图和已有数据的相似性进行近似推理。然而，模型并未在逻辑上分解任务步骤，而是依赖模式识别。例如，在乘法问题中，模型未表现出人类推理的能力，而是仅在常见乘积（如7×4=28）上取得了成功，在更复杂乘法上则表现糟糕。

3.2 实验验证：乘法任务

研究团队在乘法任务上测试模型表现，如两位数和三位数的乘法，发现大模型在训练集上常见的小乘法表现优越，但在更大范围的乘法上表现糟糕。说明模型在更复杂的问题上缺乏系统性的分解与分析，仅在有限子图范围内完成匹配，而非通过逻辑化思维解决问题。

4. 大模型的推理局限性：现状与展望

苹果的研究表明，大模型在多步推理和逻辑归纳上存在重大缺陷，且在遇到冗余信息、问题格式变动等干扰时表现不佳。其推理更像是记忆和近似匹配而非人类逻辑分析。类似的实验也出现在谷歌DeepMind等研究中，进一步印证了大模型的推理局限性。

4.1 当前局限性和未来挑战

过度依赖数据匹配：当前大模型倾向于依赖数据匹配，并非真正理解问题。即便在GPT-4等优异模型上也会出现复杂问题回答失败的现象。
多步逻辑化推理能力不足：大模型在跨多个逻辑步骤的问题中显现出推理能力的不足，无法完全理解任务的多层次结构。
抗干扰能力不足：在数据中加入无关信息时，大模型无法有效识别干扰项，这也对AI系统的可靠性提出了挑战。

4.2 未来的改进方向

苹果团队的研究暗示，通过简单堆积数据和参数并不能解决大模型的推理缺陷。Gary Marcus等学者建议，将神经网络和符号逻辑相结合，通过引入变量与操作之间的抽象关系来提升模型的逻辑化能力。这可能是未来人工智能领域的重要研究方向之一。

5. 总结

苹果的GSM-Symbolic论文揭示了大模型在数学推理和逻辑分析方面的核心缺陷，指出了其模式匹配的特性和逻辑推理的不足。尽管GPT-4和其他大模型表现出惊人的模式匹配能力，但它们的推理本质仍远未达到人类智能的水准。未来，如何结合神经符号系统、提升模型的逻辑化推理能力，或将是人工智能发展的关键课题。
在这里插入图片描述

大模型是否具备推理能力？解读苹果新论文：GSM-Symbolic和GSM8K

在人工智能领域，大模型的推理能力一直备受关注。OpenAI的GPT-4和其他大模型的表现令人惊叹，但究竟是否具备真正的数学推理和抽象逻辑能力？最近，苹果的研究人员发表了一篇题为“GSM-Symbolic：理解大语言模型中数学推理的…...

编程日记 2024/10/29 21:10:02

自动化部署-02-jenkins部署微服务

文章目录前言一、配置SSH-KEY1.1 操作jenkins所在服务器1.2 操作github1.3 验证二、服务器安装git三、jenkins页面安装maven四、页面配置自动化任务4.1 新建任务4.2 选择4.3 配置参数4.4 配置脚本五、执行任务5.1 点击执行按钮5.2 填写参数5.3 查看日志六、查看服务器文件七…...

编程日记 2024/10/29 21:09:01

目录连接至HTB服务器并启动靶机 1.How many open TCP ports are listening on Analytics? 2.What subdomain is configured to provide a different application on the target web server? 3.What application is running on data.analytical.htb? 4.What version of…...

编程日记 2024/10/29 21:04:56

【每日题解】3211. 生成不含相邻零的二进制字符串

给你一个正整数 n。如果一个二进制字符串 x 的所有长度为 2 的子字符串中包含至少一个 "1"，则称 x 是一个有效字符串。返回所有长度为 n 的有效字符串，可以以任意顺序排列。示例 1： 输入： n 3 输出&a…...

编程日记 2024/10/29 21:03:56

Nginx、Tomcat等项目部署问题及解决方案详解

目录前言1. Nginx部署后未按预期显示结果1.1 查看Nginx的启动情况1.2 解决启动失败的常见原因 2. 端口开启问题2.1 Windows环境下的端口开放2.2 Linux环境下的端口开放 3. 重视日志分析3.1 Nginx日志分析3.2 Tomcat日志分析 4. 开发环境与部署后运行结果不同4.1 开发环境与生产…...

编程日记 2024/10/29 21:02:54

【PythonWeb开发】Flask-RESTful参数解析

flask-restful中的reqparse.RequestParser是一个用于解析和验证参数的工具。它可以帮助开发者从请求中提取参数，并确保这些参数符合预期的格式和类型。参数解析的意思就是规范化传入的参数并获取到这些参数。一、什么是 reqparse.RequestParser？ reqpa…...

编程日记 2024/10/29 20:59:52

gcc与mingw64版本介绍

三类编译器 GCC，全称为GNU Compiler Collection，是一个强大的编译器集合，它不仅支持C和C语言，还支持Fortran、Ada、Java等多种编程语言的编译。在GCC工具链中，gcc和g是两个核心的编译器工具。gcc是专门用于编译C语言程…...

编程日记 2024/10/29 20:56:39

CSS3新增长度单位

CSS3新增长度单位 rem：根元素字体的倍数，只与根元素字体大小有关；vw：占视口宽度的百分比；vh：占视口高度的百分比；vmax：占视口中宽和高最大的百分比；vmin：占视…...

编程日记 2024/10/29 20:52:32

【Spring】创建Spring项目前的配置工作

🥊作者：一只爱打拳的程序猿，Java领域新星创作者，CSDN、阿里云社区优质创作者。 🤼文章收录于：Spring 目录 1.下载Spring Initializr 2.配置Spring国内源 3.添加Spring框架的支持(pom.xml) 4.刷新Maven仓…...

编程日记 2024/10/29 20:51:31

docker 安装部署 nginx

命令 docker run \ -p 15008:80 \ --name nginx1.21.6 \ -v /iepms/nginx/conf/nginx.conf:/etc/nginx/nginx.conf \ -v /iepms/nginx/conf/conf.d:/etc/nginx/conf.d \ -v /iepms/nginx/log:/var/log/nginx \ -v /iepms/nginx/html:/usr/share/nginx/html \ -d 192.168.1.103…...

编程日记 2024/10/29 20:49:29

黑马数据库学习笔记

课程地址 （基础篇）MySQL的启动 mysql 默认使用 3306 端口在 centos下，启动 mysql 数据库：service mysqld start; 查看状态/启动/停止/重启：systemctl status/start/stop/restart mysqld; 登录到mysql数据库&…...

编程日记 2024/10/29 20:48:26

MYSQL-SQL-03-DQL（Data Query Language，数据查询语言）（单表查询）

DQL（数据查询语言） DQL英文全称是Data Query Language(数据查询语言)，数据查询语言，用来查询数据库中表的记录。查询关键字: SELECT 在一个正常的业务系统中，查询操作的频次是要远高于增删改的，当我们去访…...

编程日记 2024/10/29 20:47:25

【数据结构和算法】三、动态规划原理讲解与实战演练

目录 1、什么是动态规划？ 2、动态规划实战演练 2.1 力扣题之爬楼梯问题 （1）解题思路1: （2）解题思路2: （3）动态规划（DP）：解题思路 （4&#x…...

编程日记 2024/10/29 20:42:18

交叉编译 perl-5.40.0（riscv64）

交叉编译 perl-5.40.0（riscv64） https://arsv.github.io/perl-cross/usage.html https://github.com/arsv/perl-cross 借助 perl-cross 进行交叉编译 https://www.perl.org/get.html#unix_like 这里获取 perl-5.40.0 的源码 https://github.com/arsv/pe…...

编程日记 2024/10/29 20:41:17

Leetcode 搜索旋转排序数组

这段代码是用于解决LeetCode第33题“搜索旋转排序数组”的Java解法。以下是对该算法思想的中文解释： 算法思想二分查找的基本思路： 由于数组是部分有序的（被旋转过），我们可以利用二分查找的思想，逐步缩小…...

编程日记 2024/10/29 20:40:15

Spring Task—定时任务

Spring Task 是 Spring 提供的一种轻量级定时任务调度功能，内置在 Spring 框架中。与 Quartz 等重量级调度框架相比，Spring Task 使用简便，无需额外依赖，适合在简单的调度任务场景中使用。通过注解配置方式，开发者可以…...

编程日记 2024/10/29 20:39:14

Spring Boot 应用开发概述

目录 Spring Boot 应用开发概述 Spring Boot 的核心特性 Spring Boot 的开发模式 Spring Boot 在企业应用开发中的优势结论 Spring Boot 应用开发概述 Spring Boot 是由 Pivotal 团队开发的一个框架，基于 Spring 框架，旨在简化和加速基于 Spring …...

编程日记 2024/10/29 20:38:12

Chrome谷歌浏览器加载ActiveX控件之allWebDesktop控件介绍

背景 allWebDesktop控件是一款方便用户在线打开各类文档的OA办公控件。它设计比较轻巧，充分利用计算机程序资源打开文档，并将程序窗口嵌入到allWebDesktop控件区域内，从而实现浏览器内打开各类文档效果。 allWebPlugin中间件是一款为用户提供…...

编程日记 2024/10/29 20:32:06

GitHub Star 数量前 5 的开源应用程序生成器

欢迎来的 GitHub Star 数量排名系列文章的第 7 篇——最受欢迎的应用程序生成器。之前我们已经详细探讨过：在 GitHub 上最受欢迎的——无代码工具、低代码项目、内部工具、CRUD项目、自部署项目和 Airtable 开源替代品。累计超过 50 个优质项目！&#…...

编程日记 2024/10/29 20:30:04

DBC文件当中新建CANFD等类型的报文

同学最近有添加CANFD报文的需求，需要用到CANFD类型报文的DBC文件，这下就难住我了，我之前用的DBC文件只有“CAN Standard”“CAN Extended”两种类型，压根没见过FD的。后来他找到了项目之前的DBC，打开来看&#xff0c…...

编程日记 2024/10/29 20:29:02

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）　にする1，接续：名词＋にする2，接续：疑问词＋にする3，（A）は（B）にする。（2）復習：（1）复习句子（2）ために　＆　ように（３）そう（４）にする3、…...

编程新知 2025/6/17 10:46:36

python/java环境配置

环境变量放一起 python： 1.首先下载Python Python下载地址：Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个，然后自定义，全选可以把前4个选上 3.环境配置 1）搜高级系统设置 2…...

编程新知 2025/7/1 6:03:26

大语言模型如何处理长文本？常用文本分割技术详解

为什么需要文本分割？引言：为什么需要文本分割？一、基础文本分割方法1. 按段落分割（Paragraph Splitting）2. 按句子分割（Sentence Splitting）二、高级文本分割策略3. 重叠分割（Sliding Window）4. 递归分割（Recursive Splitting）三、生产级工具推荐5. 使用LangChain的…...

编程新知 2025/6/25 14:50:21

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

编程新知 2025/6/24 3:14:59