AI算不出9.11和9.9哪个大?六家大模型厂商总结了这些原因
大模型“答对”或“答错”其实是个概率问题。关于“9.11和9.9哪个大”,这样一道小学生难度的数学题难倒了一众海内外AI大模型。7月17日,第一财经报道了国内外“12个大模型8个都会答错”这道题的现象,大模型的数学能力引发讨论。
“从技术人员的角度看答错这个问题并不惊讶。”在采访中,阿里通义实验室产品经理王晓明对第一财经表示,类似的问题是一个常见的数学计算和逻辑推理的问题,也是在模型训练和使用的过程中研发者常进行测试的case(案例),大模型“答对”或“答错”其实是个概率问题。
除了通义千问外,第一财经记者也联系并采访了多家大模型厂商,腾讯混元团队、月之暗面Kimi、MiniMax海螺、学而思九章、网易有道等都在采访中解答了大模型数学差的问题。
综合回复来看,大模型厂商相关负责人提到的观点包括,大模型还没有精准掌控数字间的运算或比较规则,同时,人类对大模型的能力探索处于非常早期的阶段。多名业内人士认为,未来需要增强底层基础模型的智能水平,以及从训练数据层面和外部工具层面去解决这样的失误,最终方案可能是提升下一代模型的能力。
今日记者对大模型进行了再次测试,发现多数大模型比较数字大小的能力仍然不稳定。不过,有大模型厂商相关人士提到,行业正在对数学能力进行特殊优化。
“大模型出错以及此前大模型在高考数学卷中拿分低,可能是因为所测的模型比较老,这些模型没有在数学方面做太多优化,现在业界对此有所重视,优化后效果还是有提升空间。”大模型开发者刘亮(化名)告诉记者。
答对答错是概率问题
7月18日,第一财经记者再次测试了12个大模型,发现AI的答案并不稳定,不少大模型即便是用同一个问法测试也会时对时错,数字顺序换一下答案有可能就有变化。
在提问“9.9和9.11哪个大”时,百度文心一言、腾讯元宝、智谱清言、MiniMax海螺AI、百川智能百小应5个大模型问答对了,GPT-4o、阿里通义、月之暗面Kimi、阶跃星辰跃问、字节豆包、商汤商量、零一万物万知7个大模型答错了。
当记者将数字顺序换为“9.11和9.9哪个大”时,GPT-4o和阶跃星辰跃问又部分答对了。同时,不同的人用同一个大模型问同样的问题,也会有两种答案,比如通义千问、海螺AI在两位记者的测试中,一位测试发现输出答案准确稳定,另一位在测试时则收到了错误的答案。
不稳定的输出背后,大模型的架构和运行机制是核心问题,这导致AI的回答并不是每次都一样。
王晓明告诉记者,大模型并不会像人类一样把“9.11和9.9哪个大”当作比大小的问题,大模型的解答方式是“预测下一个词”。从原理上看,目前包括通义千问等大模型大多基于Transformer架构,技术原理本质上是做“Next Token Prediction”,即通过当前输入的文本预测下一个词出现的概率来进行训练和回答。
因此,从概率的角度看,大模型的准确率不可能做到100%。王晓明表示,即便用户每次问相同的问题,大模型的回答和准确率可能都是变动的,大模型“答对”或“答错”其实是个概率问题。
腾讯混元团队有类似的看法。“大模型全称是语言大模型,从海量文本里学习各种语言知识。它是一个概率模型,将输入文本转换成一个个token(词元),然后去预测下一个token,并不精准的掌握数字之间的运算或比较规则(缺乏这类数学知识)。” 腾讯混元团队表示。
腾讯混元团队告诉记者,给定9.11、9.9,大模型可能就按语言理解认为小数点11比9大,从而错误地判断9.11大于9.9。由于大模型本身是一个概率模型,要让它在各种情况下都能稳定的解决这种数值计算或比较问题比较难。
提问技巧很重要
基于大模型的核心架构和运行机制问题,提问的技巧也会很大程度影响模型的理解,从而影响答案的准确度。
“大模型不以人类的思路理解问题,在人类的理解里,9.11大还是9.9大这个问题很简单,但在数字的世界里这个问题是模糊的。”刘亮认为,在大模型的理解里,人类问的问题或许不够精确,数字有多种进制,也有不同指代,大模型要从什么角度回答都是问题。
MiniMax海螺AI产品经理起迪提到,“题目中的数字格式类似于日期或版本号,模型在处理数字、字符串等数据时容易产生错误。”另一名大模型从业也告诉记者,“大模型也有可能是看多了版本号,认为9.11版本比9.9版本更新,或者是对这两个数字有其它联想。”。
“它(大模型)本质上还是一个语言模型,它从语言数据中学习的是统计相关性,而这使它不擅长做规则学习,从而不擅长归纳推理。”网易有道首席科学家段亦涛也对第一财经表示,大模型可能在语料中看到版本号、日期、书的章节等样例,而在这种场景下,9.11的确是比9.9大,所以它可能给出错误的答案。
段亦涛表示,目前大模型不具有灵活的inductive bias(归纳偏倚)的机制,类似9.11和9.9哪个大,以及算数运算、奇偶校验、字符串复制等其他的任务,都属于inductive inference(归纳推理)的任务。从机器学习的角度来看,如果希望大模型获得这样的能力,需要一个归纳学习的过程。
学而思CTO田密认为,在大模型的理解中,9.11可能被拆分为“9”“.”和“11”,而9.9被拆分为“9”“.”“9”,这里面11确实比9要大。但如果改下问法,问大模型“哪个数字更大?9.9还是9.11”,或者让大模型step by step(逐步)分析,大模型可能就能做对,“这是因为大模型理解用户是要问一个数学题了,所以就会倾向于去用一个解数学题的方式去解。”
王晓明在采访中也分析了这一现象,他认为,这与模型本身预置的数理逻辑包括训练数据等均有关,大模型在训练阶段遇到的场景如果更接近“哪个更大?9.11和9.9”,它回答这种问法的准确率就会更高。
记者测试发现,部分大模型确实会因为准确地描述问题、提问技巧而改变为正确的回答,但不是对所有大模型都有效。
记者询问ChatGPT-4o时,如果直接提问“9.9和9.11哪个大”,这样的问法大模型的答案就是错误的,但如果提问的内容改成“哪个数字更大?9.11还是9.9”,ChatGPT会直接给出正确的答案。
记者将范围设定为严谨的十进制下的数字比较,Kimi得出的答案依然是9.11比9.9大。
记者也测试了零一万物万知,即便限定为数学语境下的数字比较(避免版本、日期的语境),万知仍然答错,但是如果改变提问方式,要求大模型“给出解答思路”(即step by step分析的方式),同时表示答对答错会受奖励或惩罚(强调答案的重要性),万知就答对了。
在大模型的答题测试中,一个有趣的现象是,当模型回答错误,提问者质疑或者否认后,多数大模型都会转而承认错误,并给出了正确解答过程和答案。
对于这种“订正”能力,王晓明解释,这一方面是大模型预测的随机性,第二轮回答本就有出现正确答案的可能,另一方面,由于大模型具备上下文理解能力,使用者的追问实际就类似一个调教大模型的过程,大模型会根据使用者的追问作为其下一轮预测的基础,提高其准确率。
腾讯混元团队告诉记者,当前大模型大多具备反思能力,当用户质疑大模型答案的时候,激发了大模型的反思能力,它会尝试去修正初始回答或尝试用另一种思路解题,从而提升解答正确的概率。
起迪将这总结为一种涉及思维链的技巧,通过引导模型逐步深入思考,模型能够提供更详尽的解题步骤,这在解决数学等复杂问题时有助于获得正确答案。“用户与AI之间的多轮对话本质上可以视为一种思维链,模型在理解问题后会更加谨慎地进行推导,从而提高解答正确率。”起迪说。
彻底解决需要大模型升级
答不出“9.9和9.11哪个大”的简单数学问题,但又可以帮人类做PPT、解决代码编程等复杂问题,折射出当前大模型的能力并不均衡。
腾讯混元团队告诉记者,对人类而言不难、但对大模型而言很难的问题还有不少,比如类似“I looooooove you”里有多少个o”这样的问题,这种数数问题是一个难点。此外,较大或位数比较多的小数计算(涉及多位数的四则运算等),又如涉及知识和计算的单位转换问题(例如0.145吨等于多少磅),以及以前常测的“林黛玉倒拔垂杨柳问题”等知识或常识诱导型问题对大模型而言比较难。
就难回答的数学问题,业内已在思考大模型本身的局限和解决方案,大模型还未从根本上迭代的情况下,解决方案包括用户自身提高提问准确性、现有大模型采用一些取巧的方法。
“彻底解决还是要靠下一代模型升级,现在要解决需要通过hack(取巧)的方式。但换个问法、换个语言来问,可能还是会出问题。”有大模型从业者告诉记者。临时解决方案包括System Prompt(系统提示),可以简单理解为引导大模型在固定范围内回答问题。
“例如告诉大模型,当遇到数字比较问题的时候,如果没有更多上下文,就默认当成双精度浮点数,先补全空位,再从左到右依次比较。”上述大模型从业者告诉记者。
王晓明则坦言,大模型的强项还是在语言方面,尽管技术团队已在关注大模型在数学、物理等逻辑性场景下的能力提升,但大模型在这一方面存在着本身能力的限制。他告诉记者,使用大模型的过程中,用户提问方式、提示词的优化也会影响到大模型回答的准确率,用户可在大模型使用中描绘更多提问场景、回答范围等。
而要彻底解决大模型数学能力差的问题,业内人士认为,数学能力不足的一大原因是大模型训练数据中数学相关的数据占比少,要从根源上解决数学能力差的问题,需要从此入手。
刘亮告诉记者,大模型算不出简单数学题,也做不好高考数学试卷,根本上是因为模型能力不足,但这并不是完全不能解决。此前业内对大模型数学方面能力的优化较少,在数学推理方面花的精力较少。做训练语料筛选时,人们从互联网等地方获取数据,其中数学相关的数据占比非常少,选得较多的是自然语言相关的语料。当训练数据没有合适配比和筛选时,大模型参数中数学相关的只分了很少一部分,效果自然不好。
“但大模型已经展现出较好的逻辑能力,例如写代码能力还不错,加上业内对大模型数学能力逐渐重视起来,通过选用更优质的训练数据、用更好的算法,我认为大模型数学方面的潜力还是很高。”刘亮表示,虽然业内也有质疑大模型预测下一个词元的方式能否做好数学题的声音,但这种方式还有很多潜力待挖掘,天花板还不能确定。
腾讯混元团队认为,要克服大模型不懂数学的问题,一个主要的技术优化点就是给大模型高质量的领域(包括数学)知识数据训练,使其能够学习到领域里的各类知识。
在测试“9.9和9.11哪个大”的问题时,学而思的九章大模型(MathGPT)给了对的答案,田密告诉记者,九章大模型的特点是针对数学训练了足够多的数据,而且这些数据是用AI合成的数据,再来训练AI,大模型的解析过程是模拟学生学习数学的过程,一步步推导。
田密认为,就数学方面教育领域的容错率较低,教育科技公司有足够多、专业的数学数据去做训练,“通用大模型把这道题当成一个通用的题来处理,而针对数学领域训练的九章大模型知道它是一道数学题,可以用数学的方式一步步推理。”
提供高质量训练数据之外,腾讯混元团队告诉记者,另一个技术优化点是集成外部工具能力(例如计算器、代码执行器等)来拓展模型能力,进一步提高解决问题的效率和准确性。起迪也同样提到,大模型如果在接收到一些数学问题时,能够主动调用工具来解答,就可以大幅提高准确率。
在月之暗面的回应中,相关负责人提到,我们人类对大模型的能力探索都还处于非常早期的阶段,无论是大模型能做到什么,还是大模型做不到什么。 “我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case)。不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’,还是之前的‘strawberry有几个r’,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。”
个人观点
其实目前的大模型都是基于文本的训练,且tokenizer对于数字的理解没有统一的完善,这很正常。这就像 Python 2 解释器中如何解释数字的类型一样。否则为什么出现了 AI-MO/NuminaMath-7B-TIR
和 mistralai/mathstral-7B-v0.1
这类专用于数学计算的模型出现,但这也说明了我们需要更加全面的Math数据集,才能更好的训练出相对较好的数学天赋类 LLM。
感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!
相关文章:

AI算不出9.11和9.9哪个大?六家大模型厂商总结了这些原因
大模型“答对”或“答错”其实是个概率问题。关于“9.11和9.9哪个大”,这样一道小学生难度的数学题难倒了一众海内外AI大模型。7月17日,第一财经报道了国内外“12个大模型8个都会答错”这道题的现象,大模型的数学能力引发讨论。 “从技术人员…...

MacBook电脑远程连接Linux系统的服务器方法
一、问题简介 Windows 操作系统的电脑可使用Xshell等功能强大的远程连接软件。通过连接软件,用户可以在一台电脑上访问并控制另一台远程计算机。这对于远程技术支持、远程办公等场景非常有用。但是MacBook电脑的macOS无法使用Xshell。 在Mac上远程连接到Windows服…...

CSS-0_3 CSS和单位
文章目录 CSS的值和单位属性值长度单位CSS和绝对单位CSS和相对单位百分比em & rem视口 颜色单位 碎碎念 CSS的值和单位 我们知道,CSS是由属性和属性值所组成的表 随着CSS的发展,属性不说几千也有几百,我从来不支持去背诵所有的可能性。…...
【代码随想录|贪心算法 455. 分发饼干 376. 摆动序列 53. 最大子数组和】
代码随想录|贪心算法 455. 分发饼干 一、455. 分发饼干1.代码2.问题 二、376. 摆动序列1.代码 三、53. 最大子数组和1.代码 总结 python 一、455. 分发饼干 455. 分发饼干 1.代码 代码如下(示例): class Solution:def findContentChildr…...
swift小知识点(二)
1、 Swift 枚举 Swift 中使用 enum 关键词来创建枚举并且把它们的整个定义放在一对大括号内: enum enumname {// 枚举定义放在这里 } 如下事例: // 定义枚举 enum DaysofaWeek {case Sundaycase Mondaycase TUESDAYcase WEDNESDAYcase THURSDAYcase…...
机器人产业发展格局多元化,创业公司突破瓶颈需多维施策
当前,机器人产业的发展格局呈现出多元化、快速增长和技术不断创新的特点。从全球视角来看,机器人市场持续增长,预计到2026年全球人形机器人市场规模将超过20亿美元,到2030年有望突破200亿美元,显示出巨大的市场潜力和发…...

接口测试JMeter-1.接口测试初识
第一章 接口测试初识 1. 接口测试理论基础 “接口测试”一个让人觉得非常高大上的名词,特别是对于刚入门的测试同学而言。随着测试技术不断的深化,“接口测试”出现在我们视野中的频次越来越高。那么接口测试到底是如何做的?接口测试的优势又…...

[米联客-安路飞龙DR1-FPSOC] FPGA基础篇连载-22 TPG图像测试数据发生器设计
软件版本:Anlogic -TD5.9.1-DR1_ES1.1 操作系统:WIN10 64bit 硬件平台:适用安路(Anlogic)FPGA 实验平台:米联客-MLK-L1-CZ06-DR1M90G开发板 板卡获取平台:https://milianke.tmall.com/ 登录“米联客”FPGA社区 ht…...

如何通过企业微信会话存档保护企业利益?
赵总: 张经理,最近行业内频发数据泄露事件,我们的客户资料和内部沟通记录安全吗? 张经理: 赵总,我们已经采取了一系列措施来加强数据安全。特别是针对企业微信的沟通记录,我们最近引入了安企神软件,它能很…...

git修改提交姓名
git config --global user.name “新用户名” git config --global user.email “新邮箱地址” 修改提交的用户名 git config --global user.name “yu***”...
5、在共享内存无指针编程:句柄HANDLE转换为指针
初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 共享内存里面不能用指针&#…...
hive动态分区导致xceivercount超限,hdfs无法创建新连接
目录 一、事件复盘: 二、解决方案: 三、讨论 一、事件复盘: hdfs无法创建新的文件,xceivercount超过最大设置,平时每个datanode只有100个左右的连接,突然达到8000以上。 事故原因,跨多天的…...
如何识别Android init 中的缓慢操作
Android 14 开机时间优化措施汇总-CSDN博客 Android 14 开机时间优化措施-CSDN博客根据systrace报告优化系统时需要关注的指标和优化策略-CSDN博客Android系统上常见的性能优化工具-CSDN博客Android上如何使用perfetto分析systrace-CSDN博客Android系统设置kernel log level的…...

JVM:常用工具总结
文章目录 一、jstat工具 一、jstat工具 Jstat工具是JDK自带的一款监控工具,可以提供各种垃圾回收、类加载、编译信息等不同的数据。使用方法为:jstat -gc进程ID每次统计的时间间隔(毫秒)统计次数。 C代表Capacity容量,…...

二染色,CF 1594D - The Number of Imposters
目录 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 二、解题报告 1、思路分析 2、复杂度 3、代码详解 一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 1594D - The Number of Imposters 二、解题报告 1、思路分析 并查集&…...

Go语言并发编程-Channel通信_2
Channel通信 Channel概述 不要通过共享内存的方式进行通信,而是应该通过通信的方式共享内存 这是Go语言最核心的设计模式之一。 在很多主流的编程语言中,多个线程传递数据的方式一般都是共享内存,而Go语言中多Goroutine通信的主要方案是Cha…...

Richteck立锜科技电源管理芯片简介及器件选择指南
一、电源管理简介 电源管理组件的选择和应用本身的电源输入和输出条件是高度关联的。 输入电源是交流或直流?需求的输出电压比输入电压高或是低?负载电流多大?系统是否对噪讯非常敏感?也许系统需要的是恒流而不是稳压 (例如 LED…...
Socket 简介与 Java Socket 编程示例
Socket(套接字)是网络通信中的一个关键概念,它是对网络中不同主机上的应用进程之间进行双向通信的端点的抽象。 一、定义与概念 基本概念:Socket可以被视为网络环境中进程间通信的API(应用程序编程接口)&…...

跟着操作,解决iPhone怎么清理内存难题
在如今智能手机功能日益强大的时代,我们使用手机拍照、录制视频、下载应用、存储文件等操作都会占用手机内存。当内存空间不足时,手机运行会变得缓慢,甚至出现卡顿、闪退等现象。因此,定期清理iPhone内存是非常必要的。那么&#…...

React、Vue的password输入框组件,如何关闭自动填充?
有时候我们的表单使用了一个password组件,这时候每次打开新建,都会自动获取浏览器缓存的密码,但是它的上一个input输入框并不是用户名,这时候我们希望我们的表单,每次点开的时候密码是空的,让用户自动输入&…...

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)
题目:3442. 奇偶频次间的最大差值 I 思路 :哈希,时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况,哈希表这里用数组即可实现。 C版本: class Solution { public:int maxDifference(string s) {int a[26]…...
零门槛NAS搭建:WinNAS如何让普通电脑秒变私有云?
一、核心优势:专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发,是一款收费低廉但功能全面的Windows NAS工具,主打“无学习成本部署” 。与其他NAS软件相比,其优势在于: 无需硬件改造:将任意W…...
mongodb源码分析session执行handleRequest命令find过程
mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程,并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令,把数据流转换成Message,状态转变流程是:State::Created 》 St…...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...
【Java学习笔记】BigInteger 和 BigDecimal 类
BigInteger 和 BigDecimal 类 二者共有的常见方法 方法功能add加subtract减multiply乘divide除 注意点:传参类型必须是类对象 一、BigInteger 1. 作用:适合保存比较大的整型数 2. 使用说明 创建BigInteger对象 传入字符串 3. 代码示例 import j…...
C#学习第29天:表达式树(Expression Trees)
目录 什么是表达式树? 核心概念 1.表达式树的构建 2. 表达式树与Lambda表达式 3.解析和访问表达式树 4.动态条件查询 表达式树的优势 1.动态构建查询 2.LINQ 提供程序支持: 3.性能优化 4.元数据处理 5.代码转换和重写 适用场景 代码复杂性…...
Python 训练营打卡 Day 47
注意力热力图可视化 在day 46代码的基础上,对比不同卷积层热力图可视化的结果 import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader import matplotlib.pypl…...

医疗AI模型可解释性编程研究:基于SHAP、LIME与Anchor
1 医疗树模型与可解释人工智能基础 医疗领域的人工智能应用正迅速从理论研究转向临床实践,在这一过程中,模型可解释性已成为确保AI系统被医疗专业人员接受和信任的关键因素。基于树模型的集成算法(如RandomForest、XGBoost、LightGBM)因其卓越的预测性能和相对良好的解释性…...
Django RBAC项目后端实战 - 03 DRF权限控制实现
项目背景 在上一篇文章中,我们完成了JWT认证系统的集成。本篇文章将实现基于Redis的RBAC权限控制系统,为系统提供细粒度的权限控制。 开发目标 实现基于Redis的权限缓存机制开发DRF权限控制类实现权限管理API配置权限白名单 前置配置 在开始开发权限…...