当前位置：首页 > news >正文

GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

news 2026/2/8 14:14:36

📖 技术报告

SEED-Bench-1：https://arxiv.org/abs/2307.16125

SEED-Bench-2：https://arxiv.org/abs/2311.17092

🤗 测评数据

SEED-Bench-1：https://huggingface.co/datasets/AILab-CVC/SEED-Bench

SEED-Bench-2：https://huggingface.co/datasets/AILab-CVC/SEED-Bench-2

🔗 项目主页

https://github.com/AILab-CVC/SEED-Bench

🏆 在线排行榜

https://huggingface.co/spaces/AILab-CVC/SEED-Bench_Leaderboard

大语言模型（LLM）的蓬勃发展离不开健全的评测体系，而对于多模态大语言模型（MLLM）而言，一直缺乏类似MMLU、ARC等全面且客观的评测基准。腾讯AI Lab联手腾讯ARC Lab推出了SEED-Bench系列评测基准，有效弥补了这一缺陷，目前已成为测评MLLM的主流基准之一。

SEED-Bench评测基准在2023年7月首次发布，它包含了19K道经过人工标注正确答案的选择题，涵盖了图像和视频的12个评估维度；并在11月发布了v2版本，扩充至24K选择题和27个维度！🤩 值得一提的是，Hugging Face CEO Clément Delangue也对在线榜单进行了点赞。

随着MLLM的迅速发展，短短四个月内，SEED-Bench-1评测榜单的排名（见下图）已经全部焕然一新。最近，备受瞩目的GPT-4V模型也推出，引发了社区对其在SEED-Bench上表现的关注。然而，出人意料的是，在单张图像的评估维度上，GPT-4V竟然并未位居榜首。

01. GPT-4V被超越？🤯

现在下这个结论还为时过早。我们可以看到，GPT-4V在SEED-Bench-1视频（即图像序列）的评估维度上显著超越第二名（见下图），可以体现出GPT-4V较强的多模态推理能力。

事实上，不止于多模态理解（输入图文，输出文），近期的研究（如CM3leon、Next-GPT、Emu、SEED-LLaMA等）进一步赋予了MLLM生成图像（输入图文，输出图乃至图文）的能力，使其能够表现得像GPT-4V和DALL-E 3的组合一样实现任意形式的输入和输出。

然而，目前的多模态测评基准（如SEED-Bench-1、MMBench、MME等）仅评估MLLM的理解能力，滞后于MLLM的飞速发展。SEED-Bench-2，这一全新的评测基准在SEED-Bench首度发布四个月后，以其全新的评估视角，重磅登场，首次对MLLM的层级化能力进行评估。

02. SEED-Bench-2 🧐

如下图所示，SEED-Bench-2由三个层级构成（L1-3），每个层级都对模型的不同能力进行了深度评估：

在这一金字塔评估层级中，高层级会覆盖低层级的评估维度，即L3级模型应同时具备L1-2的能力。

下图分别展示了SEED-Bench-2中不同维度的题目示例：

那么GPT-4V在全新的SEED-Bench-2表现如何？

SEED-Bench-2目前已测评了23个开源MLLM的性能，它们在各个层级和维度的具体表现如下图。欢迎大家持续向在线leaderboard贡献自己的结果！

SEED-Bench-2的层级化评测结果展示了如下的发现。

03. Q&A

Q： SEED-Bench-2评测方式 🏁

A：针对文本输出的测评，我们参考相关工作：GPT-3，InstructBLIP和TruthfulQA，通过计算模型对于各个选项的ppl，来获取模型选择题的答案。

针对图片输出的测评，我们计算模型生成图像和groundtruth图像的CLIP相似分数，来获取模型选择题的答案。（注：我们目前侧重关注语义的正确性）

此外我们发现社区的模型在测评SEED-Bench时，使用了ppl以外的测评方式（如直接generate），我们在leaderboard上新增了不同测评方式（Evaluation Method）的说明和赛道。

Q： SEED-Bench-1和SEED-Bench-2的关系 💎

A： SEED-Bench-1的测评维度构成了SEED-Bench-2 层级的部分维度。

🎯 SEED-Bench-2的测评数据和代码已经开源，欢迎社区更新自己的模型在SEED-Bench-2上的结果。

📢 如果您有相关问题，或者对于SEED-Bench系列测评基准有什么建议，欢迎在项目链接的issue中联系我们。

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区

GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

📖 技术报告 SEED-Bench-1：https://arxiv.org/abs/2307.16125 SEED-Bench-2：https://arxiv.org/abs/2311.17092 🤗 测评数据 SEED-Bench-1：https://huggingface.co/datasets/AILab-CVC/SEED-Bench SEED-Bench-2&…...

编程日记 2023/12/19 1:35:33

数据库_mongoDB

1 介绍 MongoDB 是一种 NoSQL 数据库，它将每个数据存储为一个文档，这里的文档类似于 JSON/BSON 对象，具体数据结构由键值（key/value）对组成。字段值可以包含其他文档，数组及文档数组。其数据结构非常松散&…...

编程日记 2023/12/19 1:29:27

Layui实现自定义的table列悬停事件并气泡提示信息

1、概要使用layui组件实现table的指定列悬停时提示信息，因为layui组件中没有鼠标悬停事件支持，所以需要结合js原生事件来实现这个功能，并结合layui的tips和列的templte属性气泡提示实现效果。 2、效果图 3、代码案例 <!DOCTYPE html&g…...

编程日记 2023/12/19 1:26:25

Tomcat从认识安装到详细使用

文章目录一.什么是Tomact?二.Tomcat的安装1.下载安装包2.一键下载3.打开Tomcat进行测试4.解决Tomcat中文服务器乱码三.Tomcat基本使用1.启动与关闭Tomcat2.Tomcat部署项目与浏览器访问项目四.Tomcat操作中的常见问题1.启动Tomcat后，启动窗口一闪而过&#xff1f…...

编程日记 2023/12/19 1:25:24

07-Eventing及实践

1 Knative Eventing的相关组件 Knative Eventing具有四个最基本的组件：Sources、Brokers、Triggers 和 Sinks 事件会从Source发送至SinkSink是能够接收传入的事件可寻址（Addressable）或可调用（Callable）资源 Knative S…...

编程日记 2023/12/19 1:20:19

Linux下Netty实现高性能UDP服务

前言近期笔者基于Netty接收UDP报文进行业务数据统计的功能，因为Netty默认情况下处理UDP收包只能由一个线程负责，无法像TCP协议那种基于主从reactor模型实现多线程监听端口，所以笔者查阅网上资料查看是否有什么方式可以接收UDP收包的性能瓶颈…...

编程日记 2023/12/19 1:19:18

Ubuntu 22.04 Tesla V100s显卡驱动，CUDA，cuDNN，MiniCONDA3 环境的安装

今天来将由《蓝创精英团队》带来一个Ubuntu 显卡环境的安装，主要是想记录下来，方便以后快捷使用。主要的基础环境显卡驱动 (nvidia-smi)CUDA (nvidia-smi 可查看具体版本)cuDNN (cuda 深度学习加速库)Conda python环境管理(Miniconda3) Nvidia 驱动…...

编程日记 2023/12/19 1:17:17

FFmpeg转码流程和常见概念

视频格式：mkv，flv，mov，wmv，avi，mp4，m3u8，ts等等 FFmpeg的转码工具，它的处理流程是这样的： 从输入源获得原始的音视频数据，解封装得到压缩封装的音…...

编程日记 2023/12/19 1:16:16

【01】GeoScene生产海图或者电子航道图

1.1 什么是电子海图制图模块 GeoScene海事模块是一个用于管理和制作符合国际水文组织（IHO）S-100系列标准和S-57标准的海事数据的系统。提供了S-100和S-57工具，用于加载基于S-100的要素目录、创建基于S-57传输结构的数据、输入数据、符号化数…...

编程日记 2023/12/19 1:14:14

TWS蓝牙耳机的船运模式

TWS蓝牙耳机的船运模式是否需要申请加入数字音频系统研究开发交流答疑群(课题组)？可加我微信hezkz17, 本群提供音频技术答疑服务，+群赠送语音信号处理降噪算法，蓝牙耳机音频，DSP音频项目核心开发资料, TWS蓝牙耳机的船运模式是指在将耳机从一个地方运送到另一个地方时，…...

编程日记 2023/12/19 1:10:10

Vue系列之指令 v-html

文章の目录 1、v-html指令2、基本用法写在最后 1、v-html指令 v-html 指令类似于 v-text 指令，它与 v-text 区别在于 v-text 输出的是纯文本，浏览器不会对其再进行html解析，但v-html会将其当html标签解析后输出，类似于 JavaScrip…...

编程日记 2023/12/19 1:08:09

Mac如何安装stable diffusion

今天跟大家一起在Mac电脑上安装下stable diffusion，在midjourney等模型收费的情况下如何用自己的电脑算力用上免费的画图大模型呢？来吧一起实操起来一、安装homebrew 官网地址：Homebrew — The Missing Package Manager for macOS (or Lin…...

编程日记 2023/12/19 1:05:06

Kubernetes (k8s) 快速认知

应用部署方式传统部署时代早期的时候，各个组织是在物理服务器上运行应用程序。缺点资源分配问题： 无法限制在物理服务器中运行的应用程序资源使用维护成本问题： 部署多个物理机，维护许多物理服务器的成本很高虚拟化部署时…...

编程日记 2023/12/19 1:04:05

Electron V28主进程与渲染进程互相通信总结

本文示例采用ElectronVue3TS编写，请读者理顺思路，自行带入自己的项目。注： 读本文前请先搞懂什么是主进程，什么是渲染进程。在Electron中有着ipcMain和ipcRenderer、contextBridge模块，以及创建窗口对象上的webCont…...

编程日记 2023/12/19 1:03:04

MySQL主从复制详解

目录 1. 主从复制的工作原理 1.1. 主从复制的角色 1.2. 主从复制的流程 2. 配置MySQL主从复制 2.1. 确保主服务器开启二进制日志 2.2. 设置从服务器 2.3. 连接主从服务器 2.4. 启动复制 3. 主从复制的优化与注意事项 3.1. 优化复制性能 3.2. 注意复制延迟 3.3. 处理…...

编程日记 2023/12/19 0:57:58

verilog基础语法-计数器

概述： 计数器是FPGA开发中最常用的电路，列如通讯中记录时钟个数，跑马灯中时间记录，存储器中地址的控制等等。本节给出向上计数器，上下计数器以及双向计数器案例。内容 1. 向上计数器 2.向下计数器 3.向上向下计数…...

编程日记 2023/12/19 0:50:52

有SCL,SDA,TRIG，I2C的元器件是什么？在哪找？proteus

寻找方法：...

编程日记 2023/12/19 0:48:51

再谈低代码开发——值得所有程序设计和开发者重视的建议！

前几天看到关于“低代码开发”的话题，简单的谈了些自己的看法，也看了一些朋友们各抒己见的好文章，今天想结合我们实际使用的开发平台和大家再做些探讨。在平台的简介中首先提出了这个大家一定很关心的问题： 一、“为什么使用低代…...

编程日记 2023/12/19 0:47:49

Docker部署MinIO对象存储服务器结合内网穿透实现远程访问

文章目录前言1. Docker 部署MinIO2. 本地访问MinIO3. Linux安装Cpolar4. 配置MinIO公网地址5. 远程访问MinIO管理界面6. 固定MinIO公网地址前言 MinIO是一个开源的对象存储服务器，可以在各种环境中运行，例如本地、Docker容器、Kubernetes集群等。它兼…...

编程日记 2023/12/19 0:46:48

USB System Description A USB system is described by three definitional areas: • USB interconnect • USB devices • USB host USB interconnect The USB interconnect is the manner in which USB devices are connected to and communicate with the host. USB Ho…...

编程日记 2023/12/19 0:40:44

GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

01. GPT-4V被超越？🤯

02. SEED-Bench-2 🧐

03. Q&A

相关文章：

GPT-4V被超越？SEED-Bench多模态大模型测评基准更新

数据库_mongoDB

Layui实现自定义的table列悬停事件并气泡提示信息

Tomcat从认识安装到详细使用

07-Eventing及实践

Linux下Netty实现高性能UDP服务

Ubuntu 22.04 Tesla V100s显卡驱动，CUDA，cuDNN，MiniCONDA3 环境的安装

FFmpeg转码流程和常见概念

【01】GeoScene生产海图或者电子航道图

TWS蓝牙耳机的船运模式

Vue系列之指令 v-html

Mac如何安装stable diffusion

Kubernetes (k8s) 快速认知

Electron V28主进程与渲染进程互相通信总结

MySQL主从复制详解

verilog基础语法-计数器

有SCL,SDA,TRIG，I2C的元器件是什么？在哪找？proteus

再谈低代码开发——值得所有程序设计和开发者重视的建议！

Docker部署MinIO对象存储服务器结合内网穿透实现远程访问

USB2.0 Spec

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

Spring Boot 实现流式响应（兼容 2.7.x）

vscode（仍待补充）

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

OPENCV形态学基础之二腐蚀

以光量子为例，详解量子获取方式

Xen Server服务器释放磁盘空间

基于TurtleBot3在Gazebo地图实现机器人远程控制

安宝特案例丨Vuzix AR智能眼镜集成专业软件，助力卢森堡医院药房转型，赢得辉瑞创新奖

【Go语言基础【12】】指针：声明、取地址、解引用