当前位置：首页 > news >正文

MATH2 数据集：AI辅助生成高挑战性的数学题目

news 2025/7/16 5:19:55

随着大型语言模型（LLMs）在理解和生成复杂数学内容方面的能力显著提高，通过利用所有公开数据以及相当一部分私有数据，已经取得了进展。然而，高质量、多样化和具有挑战性的数学问题来源正在逐渐枯竭。即使是寻找新的评估问题也变得越来越困难，因为新发布的人类考试与过去的考试相似，可能已经包含在LLMs的训练数据集中。因此，迫切需要创新的方法来创造新的、多样化的和具有挑战性的问题。

本文提出一个结合 LLM 和人类专家的框架，用于生成多样且具有挑战性的数学题目。该框架利用 LLM 的元认知技能提取现有数学数据集中的核心技能，并使用这些技能生成新题目。人类专家验证并进一步改进 LLM 生成的题目，以提高其质量和难度。

1 方法

AI 辅助题目生成流程分为五个步骤，旨在利用 LLM 和人类专家的互补优势，生成新颖且具有挑战性的数学题目。

(A) 技能对验证（Skill Pair Validation） - 模型首先验证给定的技能对是否不同且不相似。如果技能太相似，它们将被标记并排除在问题生成之外。

(B) 问题生成（Question Generation） - 使用经过验证的技能对，模型生成一个需要应用两个技能的问题。问题生成时，模型需要尝试解决该问题，同时采取一种对抗性方法。

(D) 问题验证（Question Validation） - 根据尝试解决方案，模型验证生成的问题，检查正确性、技能严谨性、清晰度和其他质量标准。

(E) 最终解决方案（Final Solution） - 有效的问题将由模型重新解决，使用高级技术如上下文提示和多数投票，以提高最终解决方案的准确性。

人类专家对 LLM 生成的题目进行进一步审查，以确保其质量和难度。该流程有效地结合了 AI 和人类监督的优势，以确保生成的题目具有高质量和挑战性。

2 MATH2数据集

MATH2数据集是通过将大型语言模型（LLMs）的能力和人类专业知识相结合生成的高质量数学问题集合。这一数据集的创建过程始于从MATH数据集中提取数学技能，然后利用这些技能生成需要综合运用两种技能解决的问题。这些问题随后由人类标注者进行验证和进一步细化，以确保它们的挑战性和创造性。

MATH2数据集的特点包括：

多样性和难度：MATH2数据集中的每个问题都结合了MATH数据集中不同部分的两种技能，这样的组合为问题带来了更高的多样性和难度。
人类参与：人类专家在问题生成过程中扮演了关键角色。他们通过识别LLM生成的问题中的错误或不完整的想法，并对这些问题进行改进，以提高问题的质量。
性能评估：实验结果表明，与原始的MATH数据集相比，所有模型在MATH2数据集上的性能都有所下降，这表明MATH2数据集对模型来说更具挑战性。
作为上下文示例的有效性：当MATH2中的问题用作其他语言模型的上下文示例时，它们能够比MATH数据集中的标准示例更有效地提高模型在MATH数据集上的性能。
生成问题的质量：人类标注者在验证过程中对MATH2中的180个问题-解决方案对中的79个进行了修改，以增加问题的难度或纠正问题/解决方案。这些修改包括对问题的轻微更改以提高清晰度，以及对问题的显著更改，使其对人类更具吸引力。
技能覆盖：MATH2数据集覆盖了从MATH数据集中提取的97种技能中的多种技能。尽管MATH2数据集的规模有限，但它所包含的技能分布并不均匀，有些技能只由一个问题所代表。

3 实验

3.1 模型性能比较

在 MATH2 数据集上评估了各种语言模型，包括 MetaMath、MAmmoTH、Gemmma、Llama-3 系列、Phi-3、deepseek-math 和 Mixtral-8×7B-Instruct，以及大型专有模型，例如 GPT-4o、GPT-4 Turbo、Gemini-1.5-Pro、Claude 3.5 Sonnet 和 Claude 3 Opus。将这些模型在 MATH2 上的表现与其在 MATH 数据集上的表现进行了比较。

结果表明，所有测试的模型在 MATH2 上的性能都显著低于 MATH 数据集。

3.2 模型性能与 MATH 性能的平方关系

模型在 MATH2 上的成功率大约是其 MATH 成功率的平方。这种关系表明，MATH2 数据集中的每个问题都要求非平凡地应用两种不同的数学技能。

这为创建更具挑战性的评估数据集提供了启示，例如，通过将 k 种技能组合在一起来创建问题，可能会进一步放大模型之间的性能差异。

3.3 MATH2 题目作为上下文例子的有效性

使用 MATH2 题目作为上下文例子可以显著提高模型在 MATH 上的性能。这表明 MATH2 题目具有高质量和相关性，可以作为评估模型数学推理能力的有效工具。

3.4 开源模型的表现

开源模型在 MATH2 数据集上的表现不佳，但这也表明它们的表现可以通过中等难度的创新题目得到提高。该框架可以生成大量此类题目，从而帮助开源模型取得进步。

MATH2 数据集：AI辅助生成高挑战性的数学题目

1 方法

2 MATH2数据集

3 实验

3.1 模型性能比较

3.2 模型性能与 MATH 性能的平方关系

3.3 MATH2 题目作为上下文例子的有效性

3.4 开源模型的表现

相关文章：

MATH2 数据集：AI辅助生成高挑战性的数学题目

加密货币“蓄势待发”！美国松口降息！九月开始连续降息8次？2025年利率目标3.25-3.5%？

Vue.js 3.x 必修课｜005｜代码规范与 ESLint 入门

【Linux】动态库|静态库|创建使用|动态库加载过程

WebSocket 协议与 HTTP 协议、定时轮询技术、长轮询技术

二叉树节点问题

公司里的IT是什么？

【小程序爬虫入门实战】使用Python爬取易题库

案例 —— 怪物出水

vue中使用print.js实现页面打印并增加水印

计算机基础（Windows 10+Office 2016）教程 —— 第5章文档编辑软件Word 2016（下）

简单洗牌算法

JVM: 堆上的数据存储

AI产品经理的职责与能力：将AI技术转化为实际价值

【独家原创RIME-CNN-LSSVM】基于霜冰优化算法优化卷积神经网络(CNN)结合最小二乘向量机(LSSVM)的数据回归预测

如何对B站的热门视频进行分析

MobaXterm tmux 配置妥当

排序算法：快速排序，golang实现

step:菜单栏静态加载和动态加载

【简历】武汉某985大学:前端简历指导，拿offer可能性低

【网络】每天掌握一个Linux命令 - iftop

江苏艾立泰跨国资源接力：废料变黄金的绿色供应链革命

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】

视觉slam十四讲实践部分记录——ch2、ch3

【Linux系统】Linux环境变量：系统配置的隐形指挥官

Ubuntu系统多网卡多相机IP设置方法

归并排序：分治思想的高效排序

react菜单，动态绑定点击事件，菜单分离出去单独的js文件，Ant框架

Yii2项目自动向GitLab上报Bug