当前位置: 首页 > news >正文

InfiMM-WebMath-40B——利用由 24 亿数学文档组成的数据集提高 LLM 的数学性能

1. 前言

论文地址:https://arxiv.org/abs/2409.12568
本文提出了一个新的大规模多模态预训练数据集 InfiMM-WebMath-40B,以提高数学推理能力。该数据集包含 24 亿个科学和数学相关的网络文档、85 亿个图片 URL 和约 400 亿个文本标记。该数据集支持多模态大语言模型(MLLMs)的训练,MLLMs 能够将文本和图像结合起来,提高推理能力,尤其是数学问题的推理能力。

具体来说,该数据集取自大型网络抓取资源库 CommonCrawl。创建该数据集的方法是,首先从数十亿个网页中只选择与科学和数学相关的网页,然后用链接的图像和文本对数据进行进一步过滤。这一过程使用了特定的基于规则的过滤和基于模型的过滤技术。最终产生了 2400 万份高质量的网络文档,并针对数学推理训练进行了优化。

一些实验结果证实,该数据集可用于构建 MLLM,其性能超越了传统的开源模型。例如,"MathVerse "和 "We-Math "等最先进的基准通过有效结合文本和图像,在解决问题方面取得了显著进步,尤其是在具有视觉成分的数学推理方面。

这种方法有望加速开发能够有效解决复杂数学问题的 MLLMs,尤其是那些大量使用数学公式、图形和图表的问题。所提议的数据集规模大、质量高,是整个开源社区的重要资源。

2.实验

本文的实验使用多个基准来验证 InfiMM-WebMath-40B 数据集。实验的目的是验证所提出的数据集在多大程度上提高了大规模多模态数学推理模型(MLLM)的性能。

首先,该模型的架构基于最先进的视觉语言学习方法,使用 SigLip 模型提取视觉特征,使用 Perceiver Resampler 提取视觉和文字部分。Coder 1.3B 和 DeepSeek-Coder 7B)。

训练分三个阶段进行。第一个阶段是模态对齐阶段,使用常见的图像-文本对进行训练,以弥合视觉和文本模态之间的差距。在这一阶段,视觉编码器和 LLM 主干网是固定的,只对感知器重采样器进行训练。

然后使用 InfiMM-WebMath-40B 数据集进行了额外的预训练,以增强多模态数学知识的获取。在这里,使用 4096 个词条的上下文长度和多达 32 幅图像进行了一次历时训练。

最后一个阶段是利用指令数据集进行微调。在这一阶段,固定了视觉编码器,更新了感知器重采样器和 LLM 的参数。在训练中使用了 ScienceQA 和 DocVQA 等数据集,从而提高了指令跟踪能力。

实验结果表明,使用 InfiMM-WebMath-40B 的模型在 MathVerse 和 We-Math 两个基准测试中表现出色。特别是,该模型在 MathVerse 基准测试中的表现优于传统的开源模型,并在 We-Math 中表现出卓越的多模态推理能力。特别是,7B 模型的性能可与其他 72B 和 110B 模型相媲美。

3.结果

本文的结论强调,InfiMM-WebMath-40B 作为首个公开的大规模多模态数学预训练数据集,为开源研究界做出了重要贡献。该数据集通过结合文本和图像实现了高级学习,特别是在数学推理方面,为提高解决复杂数学问题的能力奠定了基础。

使用 InfiMM-WebMath-40B 的模型比传统的开源模型表现更好,特别是在 MathVerse 和 We-Math 等现代基准测试中。特别是,7B 模型的性能可与其他 72B 和 110B 的大型模型相媲美。这些结果表明,InfiMM-We-Math-40B 的高质量多模态数据集大大增强了其数学推理能力。

未来的研究显示,计划增强视觉编码器,以高效处理数学符号、图表和表达式,并利用强化学习技术进一步提高数学推理能力。据说,这将为解决多模态数学推理的复杂性和开发更精确的人工智能模型铺平道路。

4.图表说明

在这里插入图片描述
本图展示了构建数学相关数据集 InfiMM-WebMath-40B 的过程。首先,我们从一个名为 CommonCrawl 的大型网络数据集开始,该数据集涵盖 122.6 亿个网页。

第一步是 “语言过滤”,根据语言进行过滤,将列表缩小到 57.2 亿页。然后进行 “高检索数学过滤”,以识别相关的数学内容,从而筛选出 9.5 亿个页面。

接下来,"重复数据删除 "会删除重复数据,并将页面数量减少到 3.9 亿页。之后,"基于规则的过滤 "将删除更多不必要的内容。这一阶段的数据数量为 3.8 亿页。

最后,"高精度数学过滤 "只保留高精度数学内容,最终选出约 24 万页。这 24 万页包含 40 亿个文本标记和 8500 万张图片。这一过滤过程建立了一个以数学为重点的高质量数据集。

在这里插入图片描述
此图形象地说明了与高斯定律有关的 "电通量 "概念。图中电荷呈曲面状,周围有电场线。这些电场线显示了电场如何在电荷周围扩散。

正负电荷位于图的中心,电场线朝向或远离正负电荷。电通量指的是通过这个表面的电场线的总和,与表面所包围的电荷的总和成正比。这意味着被包围的电荷量越大,电通量就越大。

dA 向量代表的只是表面该部分的微小面积元素,描述的是电场线与表面之间的关系。此图可作为直观教具的一部分,帮助学生理解物理和电磁学中的重要概念。

在这里插入图片描述
本表评估了不同模型的性能。

  • 表格第一列显示的是型号名称。人体 "表示人体性能标准。
  • 接下来,"Base LLM "表示每个模型所基于的大规模语言模型(LLM)的类型。
  • 全部 "一栏显示所有类型任务的总得分。
  • 下面各栏显示的是根据任务特征得出的分数:"Text Dominant "表示以文本为主要信息来源的任务,"Text Lite "表示文本信息很少的任务,"Vision Intense "表示图像信息很多的任务,"Vision Dominant "表示以图像为主要信息来源的任务,"Vision Only "表示完全只有图像信息的任务。Vision Dominant "表示以图像为主要信息来源的任务,而 "Vision Only "表示完全只有图像信息的任务。

在本表中,三个非公开模型被评估为 “专有模型”,即 GPT-4V、Gemini-Pro 和 Qwen-VL-Max。此外,"开源模型 "是一组可公开获取的模型,包括 SPHINX-Plus、G-LaVA、InternLM-XC2 和 Math-LLAVA 等。

最后,"我们的模型 "中列出了 InfiMM-Math DS-Coder-1.3B 和 DS-Coder-1.5-7B 这两个模型。这些模型在某些分数上优于其他开源模型。

总体而言,InfiMM-数学模型在 “全部”、"文本主导 "和 "视觉密集 "任务中的表现尤为出色,显示出它在结合视觉和文本信息的任务中的优势。这是我们设计该模型的结果,目的是提高它在同时使用视觉和文本信息的复杂任务中的能力,让机器学习新手也能轻松理解。
在这里插入图片描述
该图显示了机器学习模型的评估结果。具体来说,它比较了 DeepSeek-Coder 1.5-7B 模型在不同训练设置下,在评估标准 MathVerse 上的得分。

表中有两种主要的训练方法:连续预训练(CPT)和指令微调(IFT)。这些方法都能提高模型的性能。

  • 本文介绍了 "梅维斯 "和 "扩展 "两个不同数据集的结果。
  • 在不使用 CPT 的情况下,Mavis 数据集的得分为 22.8,而使用 CPT 后得分提高到 27.1。
  • 在扩展数据集中,使用 CPT 将得分从 23.8 提高到 29.1。

从表中可以看出,使用 CPT 后,模型的性能得到了提升。这种改进在扩展数据集上尤为明显,因为该数据集使用的数据更加多样化。

在这里插入图片描述
本表显示了一个机器学习模型的实验结果。具体来说,它衡量了 "CPT "和 "IFT "两种不同训练方法结合使用时的效果。

  • CPT "是 Continual Pre-Training(持续预训练)的缩写,是一种利用现有数据集重新训练模型的方法。
  • IFT "是 “指令微调”(Instruction Fine-Tuning)的缩写,是一种利用基于指令的数据集调整模型的方法。

该表显示了以下信息。

  • DSC-1.3B "是所用型号的名称。
  • Mavis "和 "Extended "是不同数据集的名称。
  • MathVerse w/o score "表示 MathVerse 评分标准的得分。其分数衡量学生解决数学问题的能力。
  • 例如,仅对 "梅维斯 "数据集进行评估时,得分是 20.2,但在执行 "CPT "后,得分提高到 25.1。

这些结果表明,结合不同的训练方法可以提高模型的性能。每种方法的得分提升范围也有详细显示,这有助于了解这些方法的具体效果。

在这里插入图片描述
本表比较了不同语言模型(LLM)在数学基准测试 We-Math 中的表现。

模型和基础 LLM 栏:.

  • 模型栏列出了每个模型的名称,下面显示了所使用的基本模型(Base LLM)。
  • 基础 LLM 是用于自然语言处理的主要模型,在每个模型中都会用到。

专有型号:.

  • 这些都是公司拥有的私人模型。
  • 有多种不同性能级别的型号,如 Qwen-VL-Max 和 GPT-4o。

开源模型:.

  • 这是一个公开的开源模型。
  • 介绍了许多型号,包括 LLaVA 系列和 DeepSeek-VL。

我们的机型:.

  • 这是研究小组自己开发的模式。
  • 可以看出,InfiMM-Math 使用的是 DeepSeek-Coder-1.3B 和 DeepSeek-Base-7B 基本模型。

绩效指标:.

  • AVG 表示平均性能得分。越高表示整体越好。
  • IK(知识不足)是指知识不足的百分比,越低越好。
  • 不充分概括 (IG) 是对不充分概括的衡量;该值越高越好。
  • 完全掌握 (CM) 表示完全理解,应为高分。
  • RM(Rote Memorisation)是死记硬背的比率,数值越低,表示理解越自然。

该图表的目的是方便直观地显示每个模型的性能如何。它是衡量模型总体掌握程度或知识欠缺程度的一种手段。它还显示了专有模型与其他公开模型相比的竞争力。
在这里插入图片描述

本表比较了不同机器学习模型的性能。表中列出了每个模型的平均得分(AVG)和基于特定评估标准(IK、IG、CM、RM)的得分。

  • 专有型号 "类别包括 Qwen-VL-Max 和 GPT-4V 等专有型号,每种型号都有不同的评估指数。例如,与其他型号相比,GPT-4o 的 "CM "得分特别高(35.2)。
  • 开源模型 "类别包括 LLaVA 系列和 Math-LaVA 等开源模型。这些模型的 AVG 分数通常低于专有模型,但也有更注重视觉信息的模型。
  • 我们的模型 "展示了一个名为 InfiMM-Math 的独特模型,它使用了 DeepSeek-Coder-1.3B 和 DeepSeek-Base-7B 等基本模型。这些模型在某些评估标准(IK、IG 和 CM)上的得分不亚于或优于其他开源模型。

通过该表,可以一目了然地了解不同模型的优缺点,对那些对数学推理能力感兴趣的人尤其有用。

在这里插入图片描述
本表显示了分类模型的评估结果。使用的两个模型是 LLM 分类器和 FastText 分类器。每个模型在基准 MMLU (STEM) 和 GSM8K 上的得分均已列出。

首先,"MMLU (STEM) "是一项评估各种科学和技术领域知识的测评,LLM-分类器得分 32.8,FastText-分类器得分 31.1。其次,GSM8K 是一项评估数学推理能力的基准测试,LLM-Classifier 的得分率为 17.5%,FastText-Classifier 的得分率为 20.2%。这表明 FastText-Classifier 在 GSM8K 中更胜一筹。

文本的平均长度也显示出来,LLM-分类器的平均长度为 2500,FastText-分类器的平均长度为 1700。这表明,即使发布的信息较少,快速文本分类器也可能更有效。

相关文章:

InfiMM-WebMath-40B——利用由 24 亿数学文档组成的数据集提高 LLM 的数学性能

1. 前言 论文地址:https://arxiv.org/abs/2409.12568 本文提出了一个新的大规模多模态预训练数据集 InfiMM-WebMath-40B,以提高数学推理能力。该数据集包含 24 亿个科学和数学相关的网络文档、85 亿个图片 URL 和约 400 亿个文本标记。该数据集支持多模…...

Swarm-LIO: Decentralized Swarm LiDAR-inertial Odometry论文翻译

文章目录 前言一、介绍二、相关工作三、方法A. 问题表述B. 框架概述C. 群体系统的初始化D. 去中心化激光雷达-惯性状态估计 四. 实验A. 室内飞行B. 退化环境飞行C. 去中心化部署 五. 结论和未来工作 前言 原文:原文 准确的自我状态和相对状态估计是完成群体任务的关…...

第十八章 Vue组件样式范围配置之scoped

目录 一、引言 二、案例演示 2.1. 工程结构图 2.2. 核心代码 2.2.1. main.js 2.2.2. App.vue 2.2.3. BaseOne.vue 2.2.4. BaseTwo.vue 2.3. 运行效果 2.4. 调整代码 2.4.1. BaseTwo.vue 2.4.2. 运行效果 三、scoped原理 一、引言 前面的几个章节在介绍组件的时…...

【JavaScript】JavaScript 进阶-3-编程思想构造函数原型(更新中)

目录 编程思想构造函数原型 编程思想 构造函数 原型...

头歌网络安全爬虫

#!/usr/bin/env python # -*- coding: utf-8 -*- # Time : 2020/4/8 8:19 # File : info.py # ---------------------------------------------- # ☆ ☆ ☆ ☆ ☆ ☆ ☆ # >>> Author : Alex # >>> QQ : 2426671397 # >>> Mail…...

二、k8s快速入门之docker+Kubernetes平台搭建

centosmaster192.168.100.10centosnode1192.168.100.20centosnode2192.168.100.30 除特殊说明命令都需要在三台都执行 ⭐️ k8s 的指令: kubeadm:用来初始化集群的指令kubelet: 在集群中的每个节点上用来启动Pod和容器kubectl: 用来与集群通信的命令行…...

k8s的发展历史

Kubernetes(通常缩写为 K8s)是一个开源的容器编排平台,用于自动化应用程序的部署、扩展和管理。它的发展历史可以追溯到多个关键的里程碑: 1. 起源(2013 年) Kubernetes 的起源可以追溯到 Google 的内部项…...

Pytorch lightning多机多卡训练通讯问题(NCCL error)排查

一、问题 单机多卡可以正常训练模型,多机多卡数据加载完成后卡住不动,排查两台机器可以ping通,表明网络没有问题,查看bug信息是NCCL通信问题。报错信息大致如下: torch.distributed.DistBackendError: NCCL error in: …/torch/c…...

React如何实现Vue的keepAlive功能

前言 在React中,默认情况下组件在被卸载后会销毁状态,这与Vue的keep-alive功能不同。在Vue中,keep-alive组件可以缓存组件状态,在路由切换时重新挂载。实现这一功能在React中并不简单,但我们可以借助一个第三方库——…...

在 Ubuntu 22.04 LTS 上安装 NVM (Node Version Manager) 管理和切换不同版本的 Node.js npm

安装 nvm curl -o- https://raw.githubusercontent.com/nvm-sh/nvm/v0.40.1/install.sh | bash# nvm --version 0.40.1安装 Node.js 的不同版本 列出所有可用的 Node.js 远程版本 nvm ls-remotenvm install v18.20.4# node --version v18.20.4# nvm current v18.20.4npm 是 …...

如何搭建题库管理小序❓

土著刷题小🍊序不仅能够作为组织考试的利器,它同样可以帮助教育培训机构构建一个强大且高效的题库管理系统。 下面跟随我们的指导,一起来看看如何利用土著刷题小🍊序轻松快捷地建立起自己的题库,并享受其所带来的诸多好…...

Spring Boot框架下校园社团信息管理的创新实践

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…...

vscode clangd for cuda 插件配置

这里写目录标题 1. 下载插件clangd,并且安装server到host2. 配置3. 安装调试插件 1. 下载插件clangd,并且安装server到host 步骤 extension下载 altshiftp, 下服务,如果下不下来请考虑用🪜 下载好后check一下,检查是否正常 正常的标志 注意…...

软件测试学习笔记丨SeleniumPO模式

本文转自测试人社区,原文链接:https://ceshiren.com/t/topic/22525 本文为霍格沃兹测试开发学社的学习经历分享,写出来分享给大家,希望有志同道合的小伙伴可以一起交流技术,一起进步~ 说明:本篇博客基于sel…...

研发效能DevOps: Vite 使用 Vue Router

目录 一、实验 1.环境 2.初始化前端项目 3.安装vue-router 4.Vite 使用 Vue Router 二、问题 1.运行出现空页面 2.Vue Router如何禁止页面回退 一、实验 1.环境 (1)主机 表1 主机 系统 软件版本备注Windows11VS Code1.94.2Node.jsv18.20.4(LT…...

记第一次本地编译seatunnel源码

拉取代码 git clone https://github.com/apache/seatunnel.git 使用版本 我们生产环境用的是2.3.5版本,所以基于2.3.5-release分支代码进行编译。 maven package过程 遇到的第一个问题:‘com.sun.tools.javac.tree.JCTree com.sun.tools.javac.tree…...

《云主机配置全攻略》

《云主机配置全攻略》 一、云主机配置的重要性二、配置云主机的关键要素(一)CPU 的选择(二)内存的考量(三)硬盘的抉择(四)带宽的确定(五)机房线路的考虑&…...

RHCE nginx架构和安装

nginx架构和安装 nginx架构和安装1.1 nginx架构1.2 安装nginx1.1.1 本地安装1.1.2 官网安装1.1.3 源码安装 1.3 控制服务1.4 页面自定义 nginx架构和安装 nginx是多进程组织模式,而且是一个由 Master 主进程和 Worker 工作进程组成 1.1 nginx架构 1.2 安装nginx …...

Jmeter自动化实战

一、前言 由于系统业务流程很复杂,在不同的阶段需要不同的数据,且数据无法重复使用,每次造新的数据特别繁琐,故想着能不能使用jmeter一键造数据 二、创建录制模板 可参考:jmeter录制接口 首先创建一个录制模板 因为会有各种请求头,cookies,签名,认证信息等原因,导致手动复制…...

构建高效的Java SOCKS5代理:从零开始的网络转发实现

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…...

spring-boot(绑定配置文件及应用)

配置文件 SpringBoot使用一个全局的配置文件,配置文件名是固定的; application.properties application.yml 配置文件的作用:修改SpringBoot自动配置的默认值;SpringBoot在底层都给我们自动配置好; YAML&#x…...

Mac OS 搭建MySQL开发环境

Mac OS 搭建MySQL开发环境 文章目录 Mac OS 搭建MySQL开发环境一、安装Mysql:二、配置环境变量三、安装Navicat 本地环境: Mac OS Sequoia15.0.1(M3 Max) 目标状态: 下载安装Mysql,配置相关环境。 一、安装Mysql&…...

windows下安装python库wordCloud报错

换电脑安装wordcloud半天安装失败,记录一下遇到的坑,也给大家节省点时间。 方法1: 错误呢就是下面这个,说没c编译器,要不就去他给的地址上安装一下,我安装了一下好像没什么用,也没太敢勾选&am…...

Spring IOC 自动装配(注入)

注解⽅式注⼊ Bean 对于 bean 的注⼊,除了使⽤ xml 配置以外,可以使⽤注解配置。注解的配置,可以简化配置⽂件, 提⾼开发的速度,使程序看上去更简洁。对于注解的解释,Spring对于注解有专⻔的解释器&#…...

Go使用SIMD指令——以string转为整数为例

本文Go使用SIMD指令采用如下方式: C编写对应的程序clang编译成汇编c2goasm将上述生成的汇编转为go的汇编 准备工具 clang。直接使用apt-get install clang安装即可c2goasm。 go get -u github.com/minio/c2goasm来进行安装asm2plan9s。 go get -u github.com/min…...

分享资源合集

为了方便临时使用到的一些软件,提供百度网盘下载。 通过百度网盘分享的文件:WinHex 21.2 SR-2_x86_x64.exe 链接:https://pan.baidu.com/s/19RAnHl_VcKUcIKADU9z9Gw?pwd6666 提取码:6666 通过百度网盘分享的文件:Zi…...

C#/WinForm 鼠标穿透自定义区域截图(后续实现录屏)

效果 窗体截图录屏 git地址:https://gitee.com/feng-cai/screenshot-recording...

基于SpringBoot的“社区维修平台”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“社区维修平台”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 管理员登录页面 住户管理页面 社区公关管理页面 维…...

图书管理系统汇报

【1A536】图书管理系统汇报 项目介绍1.用户登录注册功能1. 1用户角色管理2.图书管理功能2.1 添加图书2.2 编辑图书2.3 删除图书 3.图书搜索和筛选3.1 图书搜索3.2 图书筛选 4.图书借阅、图书归还4.1 图书借阅4.2 图书归还 5.用户信息管理5.1上传头像5.2修改头像5.3 修改密码 项…...

【发版通知】FormMaking 表单设计器新版发布,赋能企业实现低代码开发!

FormMaking 介绍 FormMaking 是基于 Vue 的可视化表单设计器,赋能企业实现低代码开发模式;帮助开发者从传统枯燥的表单代码中解放出来,更多关注业务,快速提高效率,节省研发成本。目前已经在OA系统、考试系统、报表系统…...

创意餐厅网站建设文案书/什么是seo关键词

实现全局自增id最简单有效的方式是什么?java.util.concurrent.atomic包定义了一些常见类型的原子变量。这些原子变量为我们提供了一种操作单一变量无锁(lock-free)的线程安全(thread-safe)方式。实际上该包下面的类为我们提供了类似volatile变量的特性,同…...

建一个网站需要多长时间/淘宝的前100个关键词排名

1 算法背景 禁忌搜索算法(Tabu Search或Taboo Search,简称TS)最早是由Glover等人在1986年提出。TS本质上是对局部领域搜索的一种扩展,是一种全局逐步寻优算法。TS算法通过模拟人类智能的记忆机制,引入一个灵活的存储结…...

信阳市人民政府网站官网/徐州seo外包公司

android:ListView中的getView原理 其实这里的复用技术在列表中是十分常见的,iphone中的tableView也有相关的技术,cell的复用 工作原理: ListView 针对List中每个item,要求 adapter “给我一个视图” (getView)。一个新的视图被返回并显示如果…...

国外爱做黄网站/海南网站设计

1.查看服务器是否安装rsync(默认已安装) rpm -aq rsync 2.服务端创建rsync服务配置文件 vim /etc/rsyncd.conf uid rsync rsync服务用户:用于备份目录用户及所属组 gid rsync rsync服务用户组:用于备份目录用户及所属组 use chroot no max connection…...

黑客黑网站是做网站/网页设计首页制作

ServantLocator定位的目标是Servant,而Locator定位的目标是“Ice Object”,即一个可定位的“Ice Object”代理。Servant是::Ice::Object的继承树的子类,是我们接口定义的实现体,充当的是"Ice Object"某面(fa…...

重庆观音桥步行街/上海优化价格

一、问题描述今天用户给出一个SQL,select执行很快,但是insert进表时就很慢,半天没个动静。SQL执行用时:310sINSERT INTO uop_sta_cen.WXL_IDC_STATE(INS_DATE, DOMAIN_ID, EPARCHY_CODE, CUST_ID, USER_ID, SERIAL_NUMBER)SELECT …...