当前位置：首页 > news >正文

AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

news 2026/2/8 8:24:56

一、项目简介

MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型（MLLMs），提供⾼质量的⽂本输出，已发布4个版本。

1.1 主要模型及特性

（1）MiniCPM-Llama3-V 2.5：

参数规模: 8B
性能: 超越GPT-4V-1106、Gemini Pro、Qwen-VL-Max和Claude 3，⽀持30+种语⾔，多模态对话，增强OCR
和指令跟随能⼒。
部署: 量化、编译优化，可⾼效部署于端侧设备上的CPU和NPU。

（2）MiniCPM-V 2.0

参数规模: 2B
性能: 超越Yi-VL 34B、CogVLM-Chat 17B和Qwen-VL-Chat 10B，可处理任意纵横⽐和180万像素图像（例
如，1344x1344），低幻觉率。

1.2 MiniCPM-Llama3-V 2.5 关键特性

领先的性能
平均得分65.1（OpenCompass），超越多款专有模型。
强⼤的OCR能⼒
处理任意纵横⽐和180万像素图像，OCRBench评分700+，提供全⽂OCR提取和表格到Markdown转换
等⾼级实⽤功能。
值得信赖的⾏为
采⽤RLAIF-V⽅法，幻觉率10.3%，优于GPT-4V-1106。
多语⾔⽀持
⽀持30+种语⾔（含德语、法语、⻄班⽛语、意⼤利语、韩语等）。
⾼效部署
模型量化、CPU/NPU优化，实现端侧设备上的150倍图像编码加速和3倍语⾔解码加速。
易⽤性
⽀持llama.cpp、ollama，GGUF格式量化模型，LoRA微调，流输出，本地WebUI演示和HuggingFace
Spaces交互演示。

1.3 MiniCPM-V 2.0 关键特性

MiniCPM-V 2.0，这是MiniCPM系列的多模态版本。该模型基于MiniCPM 2.4B和SigLip-400M构建，总共有2.8B参数。MiniCPM-V 2.0显示出强⼤的OCR和多模态理解能⼒，在开源模型中的OCRBench上表现出⾊，甚⾄在场景⽂本理解上可以与Gemini Pro相媲美。

前沿性能
在多个基准测试中表现优异（如 OCRBench、TextVQA 等）。
超越 Qwen-VL-Chat 9.6B、CogVLM-Chat 17.4B 和 Yi-VL 34B。
强⼤的 OCR 能⼒，与 Gemini Pro 性能相当。
可信⾏为
使⽤多模态 RLHF 技术防⽌⽣成不符合事实的⽂本。
与 GPT-4V 在防⽌幻觉⽅⾯匹配。
⾼分辨率图像处理
接受 180万像素（例如，1344x1344）的图像，⽀持任意⻓宽⽐。
提升对细粒度视觉信息的感知能⼒。
⾼效能
⾼效部署于⼤多数 GPU 和个⼈电脑，⽀持移动设备。
使⽤感知器重采样技术，降低内存成本并提升速度。
双语⽀持
⽀持英语和中⽂的双语多模态能⼒。
基于 VisCPM 技术，实现跨语⾔的⼀般化多模态能⼒。

⼆、案例实战

2.1 环境配置

conda create -n cpm python=3.11
conda activate cpm# 下载项⽬，并进⾏依赖包安装
git clone https://github.com/OpenBMB/MiniCPM-V.git
cd MiniCPM-Vpip install -r requirements.txt
# 单独安装
pip install bitsandbytes streamlit gguf

2. 模型下载

# 前提，安装git和git-lfs【可选，如果已安装，则跳过】
sudo apt update
sudo apt install git
curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo
bash
sudo apt-get install git-lfs
git lfs install
# 下载模型，以int4量化的MiniCPM-Llama3-V-2_5为例
git clone https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5-int4

[无法访问外网的同学，可以把上面最后一行改为国内镜像地址：

git clone https://hf-mirror.com/openbmb/MiniCPM-Llama3-V-2_5-int4]

三. 本地 WebUI Demo

3.1 基于 Gradio 实现

# 注意：需要修改脚本 web_demo_2.5.py 中的代码：
# ① model_path = xxx
# ② server_port = xxx
cd MiniCPM-V/
python web_demo_2.5.py

3.2 基于 Streamlit 实现

# 注意：需要修改脚本 web_demo_streamlit-2_5.py 中的代码：
# ① model_path = xxx
# ② model = AutoModel.from_pretrained(model_path, trust_remote_code=True, 
torch_dtype=torch.float16, device_map="cuda")
streamlit run web_demo_streamlit-2_5.py --server.port 6006 --server.address 0.0.0.0

四. 多轮对话

# 注意：需要修改 chat.py 中的代码：
self.model = AutoModel.from_pretrained(model_path, trust_remote_code=True, 
device_map="cuda")
self.model.eval()

新建demo.py

# 案例-多轮对话
from chat import MiniCPMVChat, img2base64
import torch
import json
torch.manual_seed(0)
chat_model = MiniCPMVChat("/root/autodl-tmp/models/MiniCPM-Llama3-V-2_5-int4")
im_64 = img2base64('./assets/airplane.jpeg')
# 第⼀轮对话
msgs = [{"role": "user",
"content": "Tell me the model of this aircraft."}]
inputs = {"image": im_64,
"question": json.dumps(msgs)}
answer = chat_model.chat(inputs)
print(answer)
# 第⼆轮对话
# 传递多轮对话的历史上下⽂
msgs.append({"role": "assistant",
"content": answer})
msgs.append({"role": "user",
"content": "Introduce something about Airbus A380."})inputs = {"image": im_64,
"question": json.dumps(msgs)}
answer = chat_model.chat(inputs)
print(answer)

五. 基于 llama.cpp 推理

5.1 环境配置

# 1. 下载项⽬
git clone -b minicpm-v2.5 https://github.com/OpenBMB/llama.cpp.git
cd llama.cpp
# 2. 安装 g++ (可选，如果已经安装，则跳过)
sudo apt update
sudo apt install g++
# 3. 在项⽬ llama.cpp/ ⽬录下，执⾏命令
make
make minicpmv-cli

5.2 模型量化

# 4. 模型格式转换，hf -> gguf
# 【可选操作】可以直接 下载gguf模型
python ./examples/minicpmv/minicpmv-surgery.py -m /root/autodl-tmp/models/MiniCPM-Llama3-
V-2_5

python ./examples/minicpmv/minicpmv-convert-image-encoder-to-gguf.py -m /root/autodltmp/models/MiniCPM-Llama3-V-2_5 --minicpmv-projector /root/autodl-tmp/models/MiniCPMLlama3-V-2_5/minicpmv.projector --output-dir /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/ 
--image-mean 0.5 0.5 0.5 --image-std 0.5 0.5 0.5

python ./convert.py /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model --outtype f16 --
vocab-type bpe

# 5. quantize int4 version
./quantize /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/model-8B-F16.gguf 
/root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/ggml-model-Q4_K_M.gguf Q4_K_M

5.3 模型推理

# 6. 基于量化版模型进⾏推理
# run f16 version
./minicpmv-cli -m /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/model-8B-F16.gguf --
mmproj /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/mmproj-model-f16.gguf -c 4096 --temp
0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image /root/autodl-tmp/MiniCPMV/assets/airplane.jpeg -p "What is in the image?"

# run quantized int4 version(4bit量化推理)
./minicpmv-cli -m /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/ggml-modelQ4_K_M.gguf --mmproj /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/mmproj-model-f16.gguf -c
4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image /root/autodltmp/MiniCPM-V/assets/airplane.jpeg -p "What is in the image?"

# or run in interactive mode（交互模式）
./minicpmv-cli -m /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/model/ggml-modelQ4_K_M.gguf --mmproj /root/autodl-tmp/models/MiniCPM-Llama3-V-2_5/mmproj-model-f16.gguf -c
4096 --temp 0.7 --top-p 0.8 --top-k 100 --repeat-penalty 1.05 --image /root/autodltmp/MiniCPM-V/assets/airplane.jpeg -i

AI多模态实战教程：面壁智能MiniCPM-V多模态大模型问答交互、llama.cpp模型量化和推理

一、项目简介 MiniCPM-V 系列是专为视觉-语⾔理解设计的多模态⼤型语⾔模型（MLLMs），提供⾼质量的⽂本输出，已发布4个版本。 1.1 主要模型及特性 （1）MiniCPM-Llama3-V 2.5： 参数规模: 8B性能…...

编程日记 2024/7/27 2:12:08

Docker 搭建Elasticsearch详细步骤

本章教程使用Docker搭建Elasticsearch环境。一、拉取镜像 docker pull docker.elastic.co/elasticsearch/elasticsearch:8.8.2二、运行容器 docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-n...

编程日记 2024/7/27 2:09:05

mysql中提供的函数

文章目录 1.聚合函数2.字符串函数3.数值函数4.日期函数5.流程函数 MySQL 是一个功能强大的关系型数据库管理系统，其中包含了丰富的内置函数，用于处理各种数据操作和查询。这些函数可以分为多种类型，包括字符串函数、数值函数、日期和时间函数…...

编程日记 2024/7/27 2:07:03

加速下载，揭秘Internet Download Manager2024下载器的威力！

1. Internet Download Manager（IDM）是一款广受欢迎的下载管理软件，以其强大的下载加速功能和用户友好的界面著称。 IDM马丁正版下载如下: https://wm.makeding.com/iclk/?zoneid34275 idm最新绿色版一键安装包链接：抓紧保存以…...

编程日记 2024/7/27 2:05:01

oracle 宽表设计

Oracle宽表设计主要涉及到数据库表或视图中字段（列）数量较多的情况。在Oracle 23c及以后的版本中，数据库表或视图中允许的最大列数已增加到4096，这为宽表设计提供了更大的灵活性。以下是对Oracle宽表设计的详细分析： …...

编程日记 2024/7/27 2:04:00

winrar安装好后，鼠标右键没有弹出解压的选项

本来安装挺好的，可以正常使用，有天我把winrar相关的文件挪了个位置，就不能正常使用了。然后我去应用里面找，找到应用标识了，但是找不到对应的文件夹（因为我挪到另外一个文件夹里了）。于是我找…...

编程日记 2024/7/27 2:02:58

数字图像处理笔记（一）---- 图像数字化与显示

系列文章目录数字图像处理学习笔记（一）---- 图像数字化与显示数字图像处理笔记（二）---- 像素加图像统计特征数字图像处理笔记（三) ---- 傅里叶变换的基本原理文章目录系列文章目录前言一、数字图像处理二、图像数…...

编程日记 2024/7/27 2:01:57

Unity UGUI 之事件接口

本文仅作学习笔记与交流，不作任何商业用途本文包括但不限于unity官方手册，唐老狮，麦扣教程知识，引用会标记，如有不足还请斧正本文在发布时间选用unity 2022.3.8稳定版本，请注意分别 1.什么是事件接口&…...

编程日记 2024/7/27 2:00:56

Hadoop、HDFS、MapReduce 大数据解决方案

本心、输入输出、结果文章目录 Hadoop、HDFS、MapReduce 大数据解决方案前言HadoopHadoop 主要组件的Web UI端口和一些基本信息MapReduceMapReduce的核心思想MapReduce的工作流程MapReduce的优缺点Hadoop、HDFS、MapReduce 大数据解决方案编辑 | 简简单单 Online zuozuo 地址…...

编程日记 2024/7/27 1:56:52

Dubbo SPI 之负载均衡

1. 背景介绍在分布式系统中，负载均衡是一项核心技术，旨在将请求合理地分配到多个服务实例上，以提高系统的性能和可靠性。Dubbo 作为一个高性能的 Java RPC 框架，提供了多种负载均衡策略来满足不同的业务需求。本文将深入探讨 Du…...

编程日记 2024/7/27 1:55:52

规范：前后端接口规范

1、前言随着互联网的高速发展，前端页面的展示、交互体验越来越灵活、炫丽，响应体验也要求越来越高，后端服务的高并发、高可用、高性能、高扩展等特性的要求也愈加苛刻，从而导致前后端研发各自专注于自己擅长的领域深耕细作。然…...

编程日记 2024/7/27 1:54:51

Python --NumPy库基础方法（2）

NumPy Numpy(Numerical Python) 是科学计算基础库，提供大量科学计算相关功能，比如数据统计，随机数生成等。其提供最核心类型为多维数组类型（ndarray），支持大量的维度数组与矩阵运算，Numpy支持向…...

编程日记 2024/7/27 1:51:49

音视频入门基础：H.264专题（15）——FFmpeg源码中通过SPS属性获取视频帧率的实现

音视频入门基础：H.264专题系列文章： 音视频入门基础：H.264专题（1）——H.264官方文档下载音视频入门基础：H.264专题（2）——使用FFmpeg命令生成H.264裸流文件音视频入门基础&…...

编程日记 2024/7/27 1:48:46

【C++高阶】哈希之美：探索位图与布隆过滤器的应用之旅

📝个人主页🌹：Eternity._ ⏩收录专栏⏪：C “ 登神长阶 ” 🤡往期回顾🤡：模拟实现unordered 的奥秘 🌹🌹期待您的关注 🌹🌹 ❀哈希应用 &#x1f4…...

编程日记 2024/7/27 1:47:45

文件包涵条件竞争（ctfshow82）

Web82 利用 session.upload_progress 包含文件漏洞 <!DOCTYPE html> <html> <body> <form action"https://09558c1b-9569-4abd-bf78-86c4a6cb6608.challenge.ctf.show//" method"POST" enctype"multipart/form-data"> …...

编程日记 2024/7/27 1:44:43

通信原理-思科实验三：无线局域网实验

实验三无线局域网实验一：无线局域网基础服务集实验步骤： 进入物理工作区，导航选择城市家园; 选择设备 AP0，并分别选择Laptop0、Laptop1放在APO范围外区域修改笔记本的网卡，从以太网卡切换到无线网卡WPC300N 切…...

编程日记 2024/7/27 1:41:40

*算法训练（leetcode）第三十一天 | 1049. 最后一块石头的重量 II、494. 目标和、474. 一和零

刷题记录 *1049. 最后一块石头的重量 II*494. 目标和474. 一和零 *1049. 最后一块石头的重量 II leetcode题目地址本题与分割等和子集类似，要达到碰撞最后的石头重量最小，则尽可能把石头等分为两堆。时间复杂度： O ( m ∗ n ) O(m * n)…...

编程日记 2024/7/27 1:36:34

mac中如何使用obs推流以及使用vlc播放

使用obs推流 1.打开obs，在“来源”框中->点加号->选择媒体源->选择本地ts文件 2.obs中->点击右下角设置->点直播->服务选自定义->服务器填写你的srt服务url，比如：srt://192.168.13.211:14000?modecaller 注意&#xff…...

编程日记 2024/7/27 1:35:33

shopee虾皮 java后端一面面经整体感觉不难

面试总结：总体不难，算法题脑抽了只过了一半，面试官点出了问题说时间到了，反问一点点，感觉五五开，许愿一个二面 1.Java中的锁机制，什么是可重入锁 Java中的机制主要包括 synchronized关键字 Loc…...

编程日记 2024/7/27 1:33:31

HydraRPC: RPC in the CXL Era——论文阅读

ATC 2024 Paper CXL论文阅读笔记整理问题远程过程调用（RPC）是分布式系统中的一项基本技术，它允许函数在远程服务器上通过本地调用执行来促进网络通信，隐藏底层通信过程的复杂性简化了客户端/服务器交互[15]。RPC已成为数据中心…...

编程日记 2024/7/27 1:32:30

业务系统对接大模型的基础方案：架构设计与关键步骤

业务系统对接大模型：架构设计与关键步骤在当今数字化转型的浪潮中，大语言模型（LLM）已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中，不仅可以优化用户体验，还能为业务决策提供…...

编程新知 2026/2/8 4:53:03

【论文笔记】若干矿井粉尘检测算法概述

总的来说，传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度，通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

编程新知 2025/10/14 10:52:24

[10-3]软件I2C读写MPU6050 江协科技学习笔记（16个知识点）

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

编程新知 2026/1/28 8:34:48

JDK 17 新特性

#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持，不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的&#xff…...

编程新知 2026/1/29 5:34:29

【论文阅读28】-CNN-BiLSTM-Attention-（2024）

本文把滑坡位移序列拆开、筛优质因子，再用 CNN-BiLSTM-Attention 来动态预测每个子序列，最后重构出总位移，预测效果超越传统模型。文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵（S…...

编程新知 2026/2/2 3:06:53

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程四、Thread类的核心…...

编程新知 2025/8/28 21:52:02

基于Java Swing的电子通讯录设计与实现：附系统托盘功能代码详解

JAVASQL电子通讯录带系统托盘一、系统概述本电子通讯录系统采用Java Swing开发桌面应用，结合SQLite数据库实现联系人管理功能，并集成系统托盘功能提升用户体验。系统支持联系人的增删改查、分组管理、搜索过滤等功能，同时可以最小化到系统…...

编程新知 2025/10/4 20:58:43

AI病理诊断七剑下天山，医疗未来触手可及

一、病理诊断困局：刀尖上的医学艺术 1.1 金标准背后的隐痛病理诊断被誉为"诊断的诊断"，医生需通过显微镜观察组织切片，在细胞迷宫中捕捉癌变信号。某省病理质控报告显示，基层医院误诊率达12%-15%，专家会诊…...

编程新知 2026/2/6 20:53:34

从“安全密码”到测试体系：Gitee Test 赋能关键领域软件质量保障

关键领域软件测试的"安全密码"：Gitee Test如何破解行业痛点在数字化浪潮席卷全球的今天，软件系统已成为国家关键领域的"神经中枢"。从国防军工到能源电力，从金融交易到交通管控，这些关乎国计民生的关键领域…...

编程新知 2026/2/2 20:26:17

在 Spring Boot 项目里，MYSQL中json类型字段使用

前言： 因为程序特殊需求导致，需要mysql数据库存储json类型数据，因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...

编程新知 2025/7/9 16:55:37

一、项目简介

⼆、案例实战

三. 本地 WebUI Demo

四. 多轮对话

五. 基于 llama.cpp 推理

相关文章：