LLM - 多模态大模型的开源评估工具 VLMEvalKit 部署与测试 教程
欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/144353087
免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。

VLMEvalKit 是大型视觉语言模型设计的开源评估工具包,由 Open Compass 团队开发,它支持一键式评估体验,无需繁琐的数据准备工作,能够对多种视觉语言模型进行评估,并覆盖了多样化的任务场景。
VLMEvalKit:GitHub - open-compass/VLMEvalKit
1. 运行环境
准备 VLMEvalKit 工程环境:
- Python 使用 3.11
- 建议预先安装 PyTorch、Transformers、flash-attn 等基础 Python 库,避免冲突。
- 注意:默认
vlmeval库依赖较低版本的 Torch,需要重新升级 Torch 库。
git clone https://github.com/open-compass/VLMEvalKit
cd VLMEvalKitconda create -n vlm_eval_kit python=3.11
conda activate vlm_eval_kit# 预先安装
pip install torch torchvision torchaudio # 最新版本
pip install transformers==4.45.0
# pip install flash-attn (建议手动安装)# 其次安装
pip install -r requirements.txt
pip install -e .
# 重新升级 torch 库
pip uninstall torch
pip install torch torchvision torchaudio # 最新版本# 最后安装
pip install ipdb
pip install einops transformers_stream_generator
安装
flash-attn参考:使用 vLLM 部署 Qwen2-VL 多模态大模型 (配置 FlashAttention) 教程
MME(Multimodal Model Evaluation) 是由腾讯优图实验室和厦门大学联合开发,多模态大型语言模型评估基准,包含 14 个子任务,覆盖从粗粒度到细粒度的对象识别、常识推理、数值计算、文本翻译和代码推理等多个方面,全面评估模型的感知和认知能力。
评测 MME 多模态数据集:
LLaVA-CoT测试,请参考 LLaVA-CoT(o1) 推理模型 测试
python3 run.py --data MME --model Qwen2-VL-7B-Instruct --verbose
python3 run.py --data MME --model Llama-3.2-11B-Vision-Instruct --verbose
# python3 run.py --data MME --model LLaVA-CoT --verbose
torchrun --nproc-per-node=8 run.py --data MME --model LLaVA-CoT --verbose
Llama-3.2-11B-Vision-Instruct 显存占用 23446MiB / 81920MiB,即 23 G 左右
评估结果:
[2024-12-09 14:51:21] INFO - run.py: main - 400:
--------------------- --------
perception 1675.9
reasoning 640.714
OCR 155
artwork 151.25
celebrity 149.412
code_reasoning 160
color 180
commonsense_reasoning 155.714
count 160
existence 195
landmark 185
numerical_calculation 125
position 155
posters 182.993
scene 162.25
text_translation 200
--------------------- --------
输出结果 outputs/Qwen2-VL-7B-Instruct,即:
outputs/Qwen2-VL-7B-Instruct
├── Qwen2-VL-7B-Instruct_MME.xlsx -> outputs/Qwen2-VL-7B-Instruct/T20241209_Ga18f5d69/Qwen2-VL-7B-Instruct_MME.xlsx
├── Qwen2-VL-7B-Instruct_MME_auxmatch.xlsx -> outputs/Qwen2-VL-7B-Instruct/T20241209_Ga18f5d69/Qwen2-VL-7B-Instruct_MME_auxmatch.xlsx
├── Qwen2-VL-7B-Instruct_MME_score.csv -> outputs/Qwen2-VL-7B-Instruct/T20241209_Ga18f5d69/Qwen2-VL-7B-Instruct_MME_score.csv
└── T20241209_Ga18f5d69├── Qwen2-VL-7B-Instruct_MME.xlsx├── Qwen2-VL-7B-Instruct_MME_auxmatch.xlsx└── Qwen2-VL-7B-Instruct_MME_score.csv
其他参考 Llama-3.2-11B-Vision-Instruct 的效果
[2024-12-09 16:33:49] INFO - run.py: main - 400:
--------------------- --------
perception 1343.25
reasoning 325.714
OCR 125
artwork 87
celebrity 127.353
code_reasoning 27.5
color 143.333
commonsense_reasoning 110.714
count 143.333
existence 190
landmark 110.5
numerical_calculation 115
position 123.333
posters 153.401
scene 140
text_translation 72.5
--------------------- --------
2. 工程配置
2.1 环境变量(Env)
构建环境变量,在 VLMEvalKit 中,编写 .env 格式文件,指定 模型下载路径(HF_HOME),和 数据集下载路径(LMUData),即:
HF_HOME="[your path]/huggingface/"
LMUData="[your path]/huggingface/LMUData/"
使用
from dotenv import dotenv_values库,进行调用,参考vlmeval/smp/misc.py
2.2 评估模型(Env)
VLMEvalKit 的模型,参考 vlmeval/config.py,包括现有的主流模型,位置默认是 HuggingFace 的下载路径 $HF_HOME,即:
model_groups = [ungrouped, api_models,xtuner_series, qwen_series, llava_series, internvl_series, yivl_series,xcomposer_series, minigpt4_series, idefics_series, instructblip_series,deepseekvl_series, janus_series, minicpm_series, cogvlm_series, wemm_series,cambrian_series, chameleon_series, video_models, ovis_series, vila_series,mantis_series, mmalaya_series, phi3_series, xgen_mm_series, qwen2vl_series, slime_series, eagle_series, moondream_series, llama_series, molmo_series,kosmos_series, points_series, nvlm_series, vintern_series, h2ovl_series, aria_series,smolvlm_series
]
如果模型无法下载,例如 Llama-3.2-11B-Vision-Instruct,修改模型路径 vlmeval/config.py,调用位置 vlmeval/vlm/llama_vision.py,即:
# vlmeval/config.py
llama_series={# meta-llama/Llama-3.2-11B-Vision-Instruct 替换 [your path]/huggingface/meta-llama/Llama-3.2-11B-Vision-Instruct'Llama-3.2-11B-Vision-Instruct': partial(llama_vision, model_path='[your path]/huggingface/meta-llama/Llama-3.2-11B-Vision-Instruct'),'LLaVA-CoT': partial(llama_vision, model_path='[your path]/huggingface/Xkev/Llama-3.2V-11B-cot'),'Llama-3.2-90B-Vision-Instruct': partial(llama_vision, model_path='meta-llama/Llama-3.2-90B-Vision-Instruct'),
}# vlmeval/vlm/llama_vision.py
class llama_vision(BaseModel):INSTALL_REQ = FalseINTERLEAVE = False# This function is used to split Llama-3.2-90Bdef split_model(self):# ...# meta-llama/Llama-3.2-11B-Vision-Instruct 替换 [your path]/huggingface/meta-llama/Llama-3.2-11B-Vision-Instructdef __init__(self, model_path='meta-llama/Llama-3.2-11B-Vision-Instruct', **kwargs):
默认与 HuggingFace 下载路径一致,需要指定,则修改
vlmeval/config.py配置。
2.3 评估集(Env)
VLMEvalKit 的数据,参考 vlmeval/dataset/__init__.py,主要支持 IMAGE_DATASET、VIDEO_DATASET、TEXT_DATASET、CUSTOM_DATASET、DATASET_COLLECTION,即:
# run.py
dataset = build_dataset(dataset_name, **dataset_kwargs)# vlmeval/dataset/__init__.py
DATASET_CLASSES = IMAGE_DATASET + VIDEO_DATASET + TEXT_DATASET + CUSTOM_DATASET + DATASET_COLLECTIONdef build_dataset(dataset_name, **kwargs):for cls in DATASET_CLASSES:if dataset_name in cls.supported_datasets():return cls(dataset=dataset_name, **kwargs)
以 MME 为例,调用的是 vlmeval/dataset/image_yorn.py 数据集,即
DATASET_URL = {'MME': 'https://opencompass.openxlab.space/utils/VLMEval/MME.tsv','HallusionBench': 'https://opencompass.openxlab.space/utils/VLMEval/HallusionBench.tsv','POPE': 'https://opencompass.openxlab.space/utils/VLMEval/POPE.tsv','AMBER': 'https://huggingface.co/datasets/yifanzhang114/AMBER_base64/resolve/main/AMBER.tsv',
}
基类 ImageBaseDataset 负责处理逻辑:
# Return a list of dataset names that are supported by this class, can override
@classmethod
def supported_datasets(cls):return list(cls.DATASET_URL)
具体位置参考,位于 LMUData 变量之中,默认位置 ~/LMUData/images/MME,即:
def LMUDataRoot():if 'LMUData' in os.environ and osp.exists(os.environ['LMUData']):return os.environ['LMUData']home = osp.expanduser('~')root = osp.join(home, 'LMUData')os.makedirs(root, exist_ok=True)return root
3. 雷达图
绘制雷达图,参考 scripts/visualize.ipynb,使用 OpenVLM.json 全量的 MLLM 评估结果,进行绘制,效果如下:

Bug:
[your path]/miniconda3_62/envs/vlm_eval_kit/lib/python3.11/site-packages/torch/nn/modules/transformer.py:20: UserWarning: Failed to initialize NumPy: _ARRAY_API not found (Triggered internally at ../torch/csrc/utils/tensor_numpy.cpp:84.)device: torch.device = torch.device(torch._C._get_default_device()), # torch.device('cpu'),UserWarning: Failed to initialize NumPy: _ARRAY_API not found (Triggered internally at ../torch/csrc/utils/tensor_numpy.cpp:84.)device: torch.device = torch.device(torch._C._get_default_device()), # torch.device('cpu'),
即重新安装 torch 即可:
pip uninstall torch numpy
pip3 install torch torchvision torchaudio
相关文章:
LLM - 多模态大模型的开源评估工具 VLMEvalKit 部署与测试 教程
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/144353087 免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。 VLMEva…...
数据结构(Queue队列)
前言: 在计算机科学中,数据结构是构建高效算法和程序的基础,而队列(Queue)作为一种经典的线性数据结构,具有重要的地位。与栈(Stack)不同,队列遵循“先进先出”…...
Qt 图形框架下图形拖动后位置跳动问题
在使用Qt 的图形框架QGraphicsScene,QGraphicsView实现图形显示时。遇到一个很棘手的BUG。 使用的图形是自定义的QGraphicsObject的子类。 现象是将图形添加到画布上之后,用鼠标拖动图形,图形能正常改变位置,当再次用鼠标点击图…...
【Linux篇】走进Linux — 开启开源操作系统之旅
文章目录 初识Linux一.Linux的起源与发展二.Linux的特点三.Linux的应用四.Linux的发行版本 Linux环境搭建一.Linux环境的搭建方式二.购买云服务器三.使用XShell远程登陆到Linux 初识Linux 一.Linux的起源与发展 1.初始动机: Linux是一个功能强大的开源操作系统&am…...
如何利用DBeaver配置连接MongoDB和人大金仓数据库
最近根据国产化要求,需要使用国产数据库,但习惯使用DBeaver连接各种成熟的商业或开源数据库。因此,就想着如何继续基于该工具,连接MongoDB和人大金仓数据库,查了半天很多地方说法不统一,所以自己就简单整理…...
Android 车载虚拟化底层技术-Kernel 5.10 -Android12(multi-cards)技术实现
详细代码实现见 Android Display Graphics系列文章-汇总Android Display Graphics系列文章-汇总 Android Display Graphics系列文章-汇总 Android Display Graphics系列文章-汇总 本文主要包括部分: 一、Android12的Kernel 5.10版本 1.1 Kernel 5…...
Qt之点击鼠标右键创建菜单栏使用(六)
Qt开发 系列文章 - menu(六) 目录 前言 一、示例演示 二、菜单栏 1.MenuBar 2.Menu 总结 前言 QMainWindow是一个为用户提供主窗口程序的类,包含一个菜单栏(menubar)、多个工具栏(toolbars)、一个状态栏(status…...
开发一套SDK 第一弹
自动安装依赖包 添加条件使能 #ex: filetypesh bash_ls 识别 达到预期,多个硬件环境 等待文件文件系统挂在完成 或者创建 /sys/class/ 属性文件灌入配置操作 AI 提供的 netlink 调试方法,也是目前主流调用方法,socket yyds #include <linux/module.h> #include <linux…...
sftp+sshpass
实现场景,要求客户端定时将本地的日志文件传输到服务器。 工作环境ubuntu,注意不通操作系统的版本不通,依赖的工具的版本也有所不同 实现目标需要客户端满足安装工具: 1、下载安装sshpass ---安装命令:sudo apt-ge…...
【机器学习与数据挖掘实战】案例01:基于支持向量回归的市财政收入分析
【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈机器学习与数据挖掘实战 ⌋ ⌋ ⌋ 机器学习是人工智能的一个分支,专注于让计算机系统通过数据学习和改进。它利用统计和计算方法,使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数…...
Idea实现定时任务
定时任务 什么是定时任务? 可以自动在项目中根据设定的时长定期执行对应的操作 实现方式 Spring 3.0 版本之后自带定时任务,提供了EnableScheduling注解和Scheduled注解来实现定时任务功能。 使用SpringBoot创建定时任务非常简单,目前主要…...
Linux 安装NFS共享文件夹
程序默认使用2049端口,如果被占用需要修改端口104设置为服务端 122设置为客户端 一、在线安装(服务端和客户端执行) yum install nfs-utils rpcbind -y二、配置启动参数(服务端执行) 104服务器/mnt路径下创建shareda…...
bash 判断内存利用率是否高于60%
在 Bash 脚本中,可以通过 free 命令获取内存利用率,然后结合 awk 和条件判断语句实现监控内存利用率是否高于 60%。以下是一个示例脚本: 1. 示例脚本 #!/bin/bash# 获取总内存和已使用内存 total_mem$(free | awk /Mem:/ {print $2}) used_…...
推送(push)项目到gitlab
文章目录 1、git init1.1、在当前目录中显示隐藏文件:1.2、查看已有的远程仓库1.3、确保你的本地机器已经生成了 SSH 密钥:1.4、将生成的公钥文件(通常位于 ~/.ssh/id_rsa.pub)复制到 GitLab 的 SSH 设置中:1.5、测试 …...
centos9升级OpenSSH
需求 Centos9系统升级OpenSSH和OpenSSL OpenSSH升级为openssh-9.8p1 OpenSSL默认为OpenSSL-3.2.2(根据需求进行升级) 将源码包编译为rpm包 查看OpenSSH和OpenSSL版本 ssh -V下载源码包并上传到服务器 openssh最新版本下载地址 wget https://cdn.openb…...
硬件成本5元-USB串口采集电表数据完整方案-ThingsPanel快速入门
ThingsPanel开源物联网平台支持广泛的协议,灵活自由,本文介绍ThingsPanel通过串口来采集电表数据,简单易行,成本低廉,适合入门者学习试验,也适合一些特定的应用场景做数据采集。 适用场景: 降低…...
在AWS EMR上用Hive、Spark、Airflow构建一个高效的ETL程序
在AWS EMR(Elastic MapReduce)上构建一个高效的ETL程序,使用Hive作为数据仓库,Spark作为计算引擎,Airflow作为调度工具时,有几个关键的设计与实施方面需要注意。 在AWS EMR上构建高效的ETL程序,…...
前端(四)css选择器、css的三大特性
css选择器、css的三大特性 文章目录 css选择器、css的三大特性一、css介绍二、css选择器2.1 基本选择器2.2 组合选择器2.3 交集并集选择器2.4序列选择器2.5属性选择器2.6伪类选择器2.7伪元素选择器 三、css三大特性3.1 继承性3.2 层叠性3.3 优先级 一、css介绍 CSS全称为Casca…...
vscode 打开 setting.json
按下Ctrl Shift P(Windows/Linux)或Cmd Shift P(Mac)来打开命令面板。输入open settings,然后选择 Open User Settings(JSON)。打开settings.json文件 ------修改设置-----: 1、 html代码的行长度&am…...
关于网络安全攻防演化博弈的研究小议
1. 拉高视角,从宏观看网络安全攻防 伴随着信息化的发展,网络安全的问题就一直日益突出,与此同时,网络安全技术也成为研究热点,直到今日也没有停止。 从微观来看,网络安全技术研究指的是针对某项或某几项…...
实验室4篇论文被ICML 2026录用
点击下方卡片,关注“CVer”公众号AI/CV重磅干货,第一时间送达点击进入—>【顶会/顶刊】投稿交流群添加微信号:CVer2233,小助手拉你进群!扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶…...
从生态竞争到商业博弈:Lotka-Volterra模型如何解释市场中的‘你死我活’与‘共存共荣’
从生态竞争到商业博弈:Lotka-Volterra模型如何解释市场中的‘你死我活’与‘共存共荣’ 商业竞争的本质是什么?为什么有些市场最终形成双寡头格局,而另一些则演变为赢家通吃?当我们观察iOS与Android、可口可乐与百事可乐、美团与饿…...
别再折腾了!用Qt 5.14.2在Windows上配置Android开发环境,保姆级避坑指南
Qt 5.14.2 Windows平台Android开发环境配置实战指南 作为一名长期使用Qt进行跨平台开发的工程师,我深知在Windows上配置Android开发环境的各种"坑"。本文将带你避开这些常见陷阱,从零开始搭建一个稳定可靠的Qt Android开发环境。 1. 环境准备&…...
Switch手柄连接PC终极指南:三步解决BetterJoy驱动配置与蓝牙配对问题
Switch手柄连接PC终极指南:三步解决BetterJoy驱动配置与蓝牙配对问题 【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https:…...
【VSCode 2026启动加速黄金法则】:20年微软生态专家亲授7步冷启动<800ms实战方案
更多请点击: https://intelliparadigm.com 第一章:VSCode 2026启动性能优化的底层原理与测量基准 VSCode 2026 引入了基于 V8 TurboFan 编译器增强的主进程懒加载机制,将扩展初始化、语言服务器注册及 UI 渲染管线拆分为可调度的微任务队列&…...
告别卡顿!手把手教你用SuperMap iDesktop优化BIM模型(附厂房/楼宇实战参数)
工业级BIM模型性能优化实战:从Revit到SuperMap的高效处理指南 当你在深夜加班时,突然发现导入SuperMap的厂房BIM模型在场景中卡成幻灯片——这种崩溃感我太熟悉了。去年处理某汽车工厂项目时,一个包含20万构件的Revit模型让顶配显卡的帧率直接…...
Mac mini 从零开始:新建隔离用户 + 完整安装 Hermes Agent
全程我给你每一步点哪里、终端复制哪一行命令,你照着抄就行,零基础也能搞定!本教程通过新建用户的方式,让 Hermes 环境和现有 OpenClaw 完全隔离、互不冲突。第一步:Mac 新建一个专门用来装 Hermes 的隔离用户 桌面右上…...
PASTA框架:GPU深度学习性能分析的高效解决方案
1. 项目概述:PASTA框架的设计初衷在GPU计算和深度学习领域,性能分析工具就像外科医生的手术显微镜——它们需要同时具备高精度视野和灵活的操作空间。传统工具如NVIDIA Nsight Systems或AMD ROCm Profiler虽然能提供基础性能数据,但就像用固定…...
Taotoken 用量看板如何帮助开发者清晰掌握月度支出
Taotoken 用量看板如何帮助开发者清晰掌握月度支出 1. 用量看板的核心功能 Taotoken 用量看板为开发者提供了多维度的 API 调用数据分析能力。在控制台首页的用量统计区域,系统会实时展示当前计费周期内的总 token 消耗量、预估费用以及各模型调用占比的环形图。这…...
别再傻傻调延时了!用STM32F103的PWM+DMA驱动WS2812B,效果稳如老狗
STM32F103的PWMDMA驱动WS2812B:告别时序调试的终极方案 第一次尝试用STM32驱动WS2812B时,那种挫败感至今难忘。明明按照手册调整了延时参数,LED灯带却像得了帕金森一样闪烁不定。后来才发现,问题出在GPIO翻转的时序精度上——这种…...
