当前位置：首页 > news >正文

MiniGPT-Med 通用医学视觉大模型：生成医学报告 + 视觉问答 + 医学疾病识别

news 文章来源：https://blog.csdn.net/qq_41739364/article/details/140292492 2025/4/17 7:29:17

MiniGPT-Med 通用医学视觉大模型：生成医学报告 + 视觉问答 + 医学疾病识别

提出背景
解法拆解

论文：https://arxiv.org/pdf/2407.04106

代码：https://github.com/Vision-CAIR/MiniGPT-Med

提出背景

近年来，人工智能（AI）的进步引发了医疗保健领域的重大突破，特别是在精细化诊断程序方面。

然而，先前的研究往往局限于有限的功能。

本文介绍了MiniGPT-Med，一种从大规模语言模型中派生并专为医疗应用量身定制的视觉-语言模型。

MiniGPT-Med在各种成像模态（包括X射线、CT扫描和MRI）中展示了卓越的多功能性，提升了其实用性。

该模型能够执行医学报告生成、视觉问答（VQA）和医学图像中的疾病识别等任务。

其对图像和文本临床数据的集成处理显著提高了诊断准确性。

我们的实证评估证实了MiniGPT-Med在疾病定位、医学报告生成和VQA基准测试中的优异表现，代表了在辅助放射学实践方面的一大进步。

此外，它在医学报告生成方面取得了最先进的性能，比之前的最佳模型高出19%的准确率。

MiniGPT-Med有望成为放射学诊断的一般界面，提升各种医学影像应用中的诊断效率。

在这里插入图片描述
这张图展示了MiniGPT-Med模型在医学影像处理和疾病诊断方面的多样能力。图中主要包含以下信息：

模型简介：
- 名称：MiniGPT-Med
- 功能：能够处理所有医疗模态，包括X射线、CT扫描和MRI图像。
- 疾病检测：可以检测超过14种疾病，如肺炎、水肿、脑肿瘤、肺癌等。
- 数据集：在五个医疗数据集上进行训练，包括MIMIC、RSNA、NLST、RadVQA和SLAKE。
模型任务：
- 视觉语言任务：模型能够执行6种不同的视觉语言任务，包括疾病检测、图像描述（Captioning）、视觉问答（VQA）、定位（Grounding）、引用表达理解（Refer）和识别（Identify）。
基准对比：
- 图表列出了MiniGPT-Med与其他几种模型（LLaVA-Med、RadFM、XrayGPT、CheXagent、MedKLIP、BioViL）在这些任务上的表现对比。
- MiniGPT-Med：在所有任务（检测、描述、VQA、定位、引用、识别）上都表现出色，均为对号（✔）。
- 其他模型：各模型在不同任务上的表现有所不同。例如：
  - LLaVA-Med只在VQA任务上表现较好。
  - RadFM在VQA和定位任务上表现不错。
  - MedKLIP在检测和识别任务上表现良好。

总结：MiniGPT-Med是一个功能全面的医学影像处理模型，能够在多个任务上提供优异的性能，相比其他模型更为全面和高效。

解法拆解

在这里插入图片描述
这张图展示了MiniGPT-Med的架构概览，具体包括以下几个关键部分：

视觉编码器（Vision Encoder）：
- 输入的医学图像（如CT扫描图像）首先通过视觉编码器进行处理。
- 使用预训练的EVA视觉编码器将图像转换为视觉语义特征。
- 视觉编码器在整个训练过程中保持参数不变（冻结状态）。
线性投影层（Linear Projection Layer）：
- 从视觉编码器输出的特征被连接成单一的视觉标记。
- 线性投影层将这些视觉标记映射到大型语言模型的特征空间中。
大型语言模型（Large Language Model）：
- 使用LLaMA2-chat作为主要语言模型。
- 语言模型处理经过投影的视觉标记，并结合文本指令生成输出。
- 图中展示了指令示例：[INST] [refer] What part of the image indicates cancer? [/INST]。
输出：
- 语言模型生成对输入图像的描述或回答问题。
- 在图中，输出的结果是一个带有病灶区域边界框的图像，病灶的坐标格式为<nodule (<29><43><42><56>)>。

图示解说了MiniGPT-Med模型如何处理单个医学图像，将其转换为视觉语义特征，然后通过线性投影层和大型语言模型生成详细的诊断报告或回答医学相关的问题。

在整个训练过程中，视觉编码器的参数保持不变，而对大型语言模型和线性投影层进行微调。

目的：高效的医学视觉语言模型├── 子解法1：采用EVA作为视觉编码器│    └── 特征：处理复杂图像结构和变化├── 子解法2：采用LLaMA2-chat作为语言模型│    └── 特征：生成医学报告，定位肿瘤├── 子解法3：采用MiniGPT-v2架构，连接视觉标记│    └── 特征：提高处理高分辨率图像的效率├── 子解法4：添加任务特定标记│    └── 特征：减少多任务环境中的幻想和混淆└── 子解法5：文本表示边界框└── 特征：增强模型对图像空间信息的理解

MiniGPT-Med 通用医学视觉大模型：生成医学报告 + 视觉问答 + 医学疾病识别

MiniGPT-Med 通用医学视觉大模型：生成医学报告视觉问答医学疾病识别提出背景解法拆解论文：https://arxiv.org/pdf/2407.04106 代码：https://github.com/Vision-CAIR/MiniGPT-Med 提出背景近年来，人工智能（AI…...

编程日记 2024/7/10 5:36:19

如何判断ip地址在同一个网段：技术解析与实际应用

在网络世界中，IP地址就像每个人的身份证一样，是识别和定位网络设备的关键。然而，仅仅知道IP地址还不足以完全理解其背后的网络结构和通信方式。特别是当我们需要判断两个或多个IP地址是否位于同一网段时，就需要借助子网掩码这一概…...

编程日记 2024/7/10 5:35:18

linux高级编程（TCP）（传输控制协议）

TCP与UDP: TCP: TCP优点： 可靠，稳定 TCP的可靠体现在TCP在传递数据之前，会有三次握手来建立连接，而且在数据传递时，有确认、窗口、重传、拥塞控制机制，在数据传完后，还会断开连接用来节约系统…...

编程日记 2024/7/10 5:34:17

【常见开源库的二次开发】一文学懂CJSON

简介： JSON（JavaScript Object Notation）是一种轻量级的数据交换格式。它基于JavaScript的一个子集，但是JSON是独立于语言的，这意味着尽管JSON是由JavaScript语法衍生出来的，它可以被任何编程语言读取和生成…...

编程日记 2024/7/10 5:33:16

点云下采样有损压缩

转自本人博客：点云下采样有损压缩点云下采样是通过一定规则对原点云数据进行再采样，减少点云个数，降低点云稀疏程度，减小点云数据大小。 1. 体素下采样（Voxel Down Sample） std::shared_ptr<PointClo…...

编程日记 2024/7/10 5:31:14

AutoHotKey自动热键(六)转义符号

转义符号符号说明,, (原义的逗号). 注意: 在命令最后一个参数中的逗号不需要转义, 因为程序知道把它们作为原义处理. 对于 MsgBox 所有参数同样如此, 因为它会智能的处理逗号.%% (原义的百分号) (原义的重音符; 即两个连续的转义符产生单个原义字符);; (原义的分号). 注意: 仅…...

编程日记 2024/7/10 5:29:12

第16章主成分分析：四个案例及课后习题

1.假设 x x x为 m m m 维随机变量，其均值为 μ \mu μ，协方差矩阵为 Σ \Sigma Σ。考虑由 m m m维随机变量 x x x到 m m m维随机变量 y y y的线性变换 y i α i T x ∑ k 1 m α k i x k , i 1 , 2 , ⋯ , m y _ { i } \alpha _ { i } ^ { T } …...

编程日记 2024/7/10 5:28:11

股票分析系统设计方案大纲与细节

股票分析系统设计方案大纲与细节一、引言随着互联网和金融行业的迅猛发展，股票市场已成为重要的投资渠道。投资者在追求财富增值的过程中，对股票市场的分析和预测需求日益增加。因此，设计并实现一套高效、精准的股票分析系统显得尤为重要。本设计方案旨在提出一个基于大…...

编程日记 2024/7/10 5:27:09

.gitmodules文件

.gitmodules文件在Git仓库中的作用 .gitmodules 文件是 Git 版本控制系统中用来跟踪和管理子模块的配置文件。子模块允许你将一个 Git 仓库嵌套在另一个仓库中，这样可以方便地管理多个项目之间的依赖关系。在 .gitmodules 文件中，通常会记录每个子模块…...

编程日记 2024/7/10 5:26:08

STM32 SPI世界：W25Q64 Flash存储器的硬件与软件集成策略

摘要在嵌入式系统设计中，选择合适的存储解决方案对于确保数据的安全性和系统的可靠性至关重要。W25Q64 Flash存储器因其高性能和大容量成为STM32微控制器项目中的热门选择。本文将深入探讨STM32与W25Q64 Flash存储器的硬件连接、软件集成以及SPI通信的最佳实践。 …...

编程日记 2024/7/10 5:25:07

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验17 开放最短路径优先OSPF

一、实验目的 1.验证OSPF协议的作用； 二、实验要求 1.使用Cisco Packet Tracer仿真平台； 2.观看B站湖科大教书匠仿真实验视频，完成对应实验。三、实验内容 1.构建网络拓扑； 2.验证OSPF协议的作用。四、实验步骤 1.构建网…...

编程日记 2024/7/10 5:24:07

ChatGPT对话：python程序模拟操作网页弹出对话框

【编者按】单击一网页中的按钮，弹出对话框网页，再单击其中的“Yes”按钮，对话框关闭，请求并获取新网页。可能ChatGPT第一次没有正确理解描述问题的含义，再次说明后，程序编写就正确了。 1问：pyt…...

编程日记 2024/7/10 5:23:05

利用亚马逊云科技云原生Serverless代码托管服务开发OpenAI ChatGPT-4o应用

今天小李哥继续介绍国际上主流云计算平台亚马逊云科技AWS上的热门生成式AI应用开发架构。上次小李哥分享了利用谷歌云serverless代码托管服务Cloud Functions构建Gemini Pro API，这次我将介绍如何利用亚马逊的云原生服务Lambda调用OpenAI的最新模型ChatGPT 4o。…...

编程日记 2024/7/10 5:22:04

Selenium 切换 frame/iframe

环境： Python 3.8 selenium3.141.0 urllib31.26.19说明： driver.switch_to.frame() # 将当前定位的主体切换为frame/iframe表单的内嵌页面中 driver.switch_to.default_content() # 跳回最外层的页面# 判断元素是否在 frame/ifame 中 # 126 邮箱为例 # …...

编程日记 2024/7/10 5:21:02

VOI（Virtual Operating System Infrastructure，虚拟操作系统基础架构）

VOI（Virtual Operating System Infrastructure，虚拟操作系统基础架构）架构在桌面虚拟化领域具有其独特的优势，使得它在某些场景下表现尤为出色。以下是几个具体场景： 1. 重载性能需求场景表现： 高效利用…...

编程日记 2024/7/10 5:20:01

迭代器模式(大话设计模式)C/C++版本

迭代器模式 C #include <iostream> #include <string> #include <vector>using namespace std;// 迭代抽象类,用于定义得到开始对象、得到下一个对象、判断是否到结尾、当前对象等抽象方法，统一接口 class Iterator { public:Iterator(){};virtu…...

编程日记 2024/7/10 5:19:00

vue学习day04-计算属性、computed计算属性与methods方法、计算属性完整写法

10、计算属性 （1）概念： 基于现有的数据，计算出来的新属性。依赖于数据变化，自动重新计算。 （计算属性->可以将一段求值的代码进行封装） （2）语法： 1&a…...

编程日记 2024/7/10 5:17:59

关于力扣150题目——逆波兰表达式求值Java实现的三种解法

题目介绍逆波兰表达式是一种后缀表达式，其运算符位于操作数之后。力扣150题目要求我们实现一个函数，计算给定逆波兰表达式的值。本文将介绍三种不同的Java实现方法来解决这个问题。解法一：使用栈这是最直观和常见的解法，使用…...

编程日记 2024/7/10 5:15:57

FTP与TFTP

1、TFTP（简单文件传输协议） TFTP是TCP/IP协议族中一个用来在客户机与服务器之间进行简单文件传输的协议，提供不复杂、开销不大的文件传输服务。基于UDP协议端口号：69 特点：简单、轻量级、易于实现传输过程&…...

编程日记 2024/7/10 5:14:57

【Linux】System V信号量详解以及semget()、semctl()和semop()函数讲解

💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 ：阿然成长日记 …...

编程日记 2024/7/10 5:13:55

JAVA预编译简单理解

目录一、JSP预编译二、JDBC预编译一、JSP预编译 JSP（JavaServer Pages）是一种动态网页技术标准，它允许将Java代码嵌入到HTML页面中。当第一次请求一个JSP页面时，Web服务器（如Tomcat）会将JSP页面转换成一…...

编程日记 2024/7/10 5:12:53

nvm 管理多版本 node

1、下载先不安装node 下载 nvm 1.1.10-setup.zip 解压：nvm：https://nvm.uihtm.com/ 新建nodejs/node、nodejs/nvm文件夹用于存放node版本和nvm安装路径安装nvm：上述链接有安装教程查看是否安装成功：重新打开cmd 输入 nvm nv…...

编程日记 2024/7/10 5:11:53

C++中的多重继承和虚继承：横向继承、纵向继承和联合继承；虚继承

多重继承 A.横向多重继承： B.纵向多重继承： C.联合多重继承： 因为 single 和 waiter 都继承了一个 worker 组件，因此 SingingWaiter 将包含两个 worker 组件，那么将派生类对象的地址赋给基类指针将出现二义性那么如何…...

编程日记 2024/7/10 5:09:51

利用node连接mongodb实现一个小型后端服务系统demo

http 请求实现get请求数据库数据；实现添加数据实现编辑数据实现删除数据实现导出txt文件、Excel文件实现查询数据库数据并利用导出为excel文件 node 版本 16.16.0 node 版本 18.16.0 会连接 MongoDB 数据库错误。 Connected to MongoDB failed MongoServerSele…...

编程日记 2024/7/10 5:08:48

大数据面试题之数据库(3)

数据库有必要建索引吗? MySQL缺点? 什么是脏读?怎么解决? 为什么要有三大范式，建数据库时一定要遵循吗? 数据库一般对哪些列建立索引?索引的数据结构? MySOL中索引的建立需要考虑哪些问题关系型数据库与非关系型数据库区别 MySQL与Redis区别 …...

编程日记 2024/7/10 5:06:46

升级之道：精通Conda的自我升级艺术

升级之道：精通Conda的自我升级艺术引言 Conda是Python和其他科学计算语言的强大包管理器，它不仅管理着包的安装和依赖，还负责自身的更新。随着开源社区的不断发展，Conda定期发布新版本以修复已知问题、增加新功能和提高性能。本…...

编程日记 2024/7/10 5:05:45

领导者视角：识别系统问题的信号

作为企业的领导者，有时候我们面对的不仅是表面的小问题，而是根深蒂固的系统性问题。如果您发现以下症状，可能就是时候深入挖掘了： 1、资源消耗大：一个看似小的问题，解决起来却不断耗费大量资源。 2、反复无…...

编程日记 2024/7/10 5:04:44

CentOS7二进制安装和YUM安装mongodb，服务器无法安装5.0以上的 mongodb 数据库报错 Illegal instruction

文章目录 MongoDB 安装二进制安装YUM 安装 Tips:1、MongoDB安装问题2、MongoDB登录3、MongoDB排序时内存大小限制和创建索引4、创建用户5、Java yaml使用密码连接mongodb6、MongoDB增删改查 MongoDB 安装二进制安装 [rootmysql5-7 mongodb-6.0.4]# cat start.sh #!/bin/bash…...

编程日记 2024/7/10 5:03:43

AI的前世今生：从理论起源到未来展望

引言人工智能（AI）作为一门交叉学科，涵盖了计算机科学、数学、认知科学、神经科学等多个领域，已经成为现代科技的重要组成部分。本文将回顾AI的发展历程，从理论起源到当代应用，再到未来展望，为…...

编程日记 2024/7/10 5:02:42

C# list集合元素去重的几种方法

一、使用使用HashSet去重 List<int> dataSource new List<int>() { 1, 2, 2, 3, 4, 5, 5, 7, 8, 10 }; //源数组中共有10个元素HashSet<int> uniqueData new HashSet<int>(dataSource); //去重之后为8个//输出uniqueData元素为：1,2,3,4,5…...

编程日记 2024/7/10 5:01:41

MiniGPT-Med 通用医学视觉大模型：生成医学报告 + 视觉问答 + 医学疾病识别

提出背景

解法拆解

相关文章：