借助医疗保健专用的 LLM提高诊断支持与准确性
概述
最近的研究表明,大规模语言模型在医疗人工智能应用中非常有效。它们在诊断和临床支持系统中的有效性尤为明显,在这些系统中,它们已被证明能为各种医疗询问提供高度准确的答案(例如,医生在诊断过程中需要用到语言模型)。这些模型对提示设计很敏感,只要设计适当的提示,就能有效纠正医生的错误回答。
然而,在临床实践中实施大规模语言模型仍面临挑战。例如,复杂任务需要先进的提示技术。此外,虽然现有研究侧重于大规模语言模型的独立使用,但在实际医疗实践中,人类决策者(如医生)需要做出最终决定。要确保系统的实用性和可靠性,了解医生在获得人工智能代理协助时如何进行交互至关重要。
本文深入探讨了大规模语言模型如何有效地应用于医疗领域。特别是,本文探讨了医生在发表意见后由大规模语言模型向其提问的情况,并试图说明大规模语言模型如何在不质疑专家意见的情况下提供高质量的答案。它还探讨了提示的设计如何纠正医生的错误并促进医学推理,以及如何根据医生的输入调整大规模语言模型。
研究首先介绍了二进制 PubMedQA 数据集,该数据集以 GPT4 生成的有效正确答案和误解答案为特征,并具体展示了其有效性。其次,它强调了提示设计对于加强大规模语言模型与医学专业人员互动的重要性,提示设计可以纠正医生的错误、解释医学推理、根据医生的输入进行调整,并最终显示其对提高大规模语言模型性能的影响。在此过程中,它为 大规模语言模型如何在医疗实践中更有效地发挥作用提供了重要见解。
论文地址:https://arxiv.org/abs/2403.20288
算法框架
本文研究了大规模语言模型在医疗领域问题解答任务中的有效性。在有医生提供答案和解释和没有答案和解释的情况下,都对大规模语言模型的性能进行了评估。以往的研究表明,提示语的设计对大规模语言模型的反应有重大影响,本研究通过模拟真实医疗场景和与专家互动的多个学习场景来检验这种影响。这些场景包括
- 基线:基本问答(QA),医生不提供意见
- 案例 1:医生回答 “是/否”,并根据其准确性运行四种不同的情景。
- 案例 1a:医生总是给出正确的答案。
- 案例 1b:医生总是给出错误的答案。
- 案例 1c:医生总是回答 “是”。
- 案例 1d:医生总是回答 “不”。
- 病例 2:医生回答 “是/否”,并附加文字说明、根据准确度的不同,有四种不同的情况实施
- 案例 2a:医生总是给出正确的答案。
- 案例 2b:医生总是给出错误的答案。
- 案例 2c:医生总是回答 “是”。
- 案例 2d:医生总是回答 “不”。
- 案例 3:医生回答 “是/否”,给出正确答案的概率会波动。
- 模拟不同概率(70%、75%、80%、85%、90%、95%)的医生专业知识差异
下图显示了提示模板。
例如,在案例 1 中,首先要明确大规模语言模型的任务指令,如下图所示。
接下来,医生和大规模语言模型将进行模拟对话,如下图所示。
这些对话的顺序随不同场景中例子的顺序而变化。最后的提示由包含具体问题、上下文和医生回答的测试输入完成。
如下图所示,案例 2 还使用 GPT-4 API 为每个问题生成正确或错误的解释。例如,在案例 2a 中,医生总是给出正确答案,GPT-4 据此生成正确的解释。而在案例 2c 中,医生总是回答 “是”,GPT-4 会根据问题的正确答案是 "是 "还是 "否 "生成合理的正确或错误解释。通过模仿医生的解释,这增强了真实医疗互动的真实性。
实验和结果
本文件旨在回答以下问题
- 问题 1:大规模语言模型能否在必要时纠正医生的决定?
- 问题 2:大规模语言模型能否解释其自身答案的依据?
- 问题 3:大规模语言模型能否根据医生提供的论据纠正答案?
- 问题 4:基于医生提供的答案的大规模语言模型能否比自己或医生表现得更好?
该实验使用 “PubMedQA 数据集”。这是一个从 PubMed 摘要中生成的生物医学问答数据集,通常回答为 “是/否/可能”。在当前的实验中,该数据集被转换成二进制格式(只回答 “是/否”),并提供了 445 个测试示例。利用这些数据,GPT-4 需要为每个问题生成合理的正确答案和错误答案。
使用的模型包括最新的人工智能模型 Meditron-7B、对话式人工智能 Llama2-7B Chat 和 Mistral7B-Instruct(Jiang 等人,2023 年)。这些实验也是通过 Harness 框架进行的,其源代码可在线获取。
关于及时设计重要性的验证结果。结果如下表所示。提示设计对大规模语言模型的性能有重大影响。特别是在纠正医生的错误回答时,精心设计的提示能让大规模语言模型有效地纠正医生的错误回答。例如,在案例 1d 中,Mistral 模型在医生总是回答 "不 "的情况下取得了很高的准确率,尽管实际 "不 "的回答率只有 38%。Llama2 和 Meditron 对提示变化也很敏感,在某些情况下表现更好。
解释能力验证结果。结果如下表所示。此外,还对大规模语言模型能够解释其回答理由的程度进行了评估。具体来说,我们发现 Meditron 能够保持高质量的解释,不受医生简短回答的影响。另一方面,在医生给出正确答案的情况下,Llama2 的 ROUGE-L 分数往往较低,而 Mistral 则在多个场景中始终提供了出色的解释。这些结果表明,在适当的结构化提示下,大规模语言模型可以提供可靠的解释。
对医生论据的不同依赖程度的研究结果。很明显,大规模语言模型在多大程度上依赖于医生提供的论据。特别是,如果医生在答案中添加了论据,大规模语言模型对这些论据的依赖程度就会更高。在案例研究 2a 中,当医生持续提供准确的答案和解释时,Meditron 的准确率达到了 100%。这表明 Meditron 倾向于关注提示的最新例子,在某些情况下表现显著。
另一方面,LLama2 在所有场景中都非常依赖医生提供的论据,而 Mistral 的表现则更加稳健,而且提示变化较少。特别是在案例 2d 中,Mistral 在所有场景中都保持了 75% 以上的准确率,这证明它有能力在医生提供错误答案和论据时对其进行有效纠正。
下一组验证结果与解释的质量和一致性有关。对案例 2 中各模型的 ROUGE_L 分数的分析表明,LLama2 和 Mistral 根据包含医生意见的提示生成了更有效、更广泛的解释。相比之下,Meditron 严重依赖医生的意见,而医生的意见又在很大程度上决定了解释的质量。此外,每个模型提供的答案在一致性方面也存在差异,LLama2 和 Mistral 倾向于提供合理的解释,而与医生的立场无关。
此外,研究还表明,虽然包含专家回复的大规模语言模型可以提高其性能,但很难超过专家自身的能力。对案例研究 3 数据的分析(如下表)表明,虽然大规模语言模型的基本性能在不同场景下没有显著差异,但在某些条件下有明显的改进。例如,在医生准确率超过 80% 的场景 2 中,Meditron 能够超过基本性能;在医生准确率超过 85% 的所有场景中,LLama2 也超过了基本性能。
然而,在案例 3 中,医生的回答对 Mistral 模型的影响很大,往往会降低其性能。这表明大规模语言模型的性能取决于医生所提供信息的质量。
此外,当根据医生的回答对更大的模型(如 70B 模型)进行性能测试时,结果很差。当使用相同的提示时,观察到的性能下降,这表明更大的模型并不一定能保证更好的结果。特别是,LLama2-70B 模型在 MEDQA 多选数据集上的准确率不足 55%,这表明模型的大小可能并不是提高性能的关键。
总结
本文的见解表明,提示语的设计对大规模语言模型的性能有重大影响,模型对提示语的变化非常敏感,同时能通过适当的说明和示例有效纠正错误的医生回答。
此外,如果提示语经过精心设计,大规模语言模型就会显示出解释回答的能力。此外,大规模语言模型往往是医生为其回答提供论据的依据,而且受例子顺序的影响很大,尤其是在少数情况下。
研究还强调,大型模型(70B)并不总能保证取得优异成绩,提示质量是提高成绩的关键。研究结果要求进一步研究提示设计及其影响。本研究强调了提示在医疗人工智能发展中的作用,以及其对大规模语言模型和医疗专业人员之间互动的影响。
相关文章:
借助医疗保健专用的 LLM提高诊断支持与准确性
概述 最近的研究表明,大规模语言模型在医疗人工智能应用中非常有效。它们在诊断和临床支持系统中的有效性尤为明显,在这些系统中,它们已被证明能为各种医疗询问提供高度准确的答案(例如,医生在诊断过程中需要用到语言…...
微前端(qiankun)
微前端 特点:独立开发、独立部署,独立运行,增量升级 解决的问题:日常开发过程中,可能有很多老项目需要迭代,但是可能新的一些可能需要使用的依赖或者新的一些框架,老项目已经不满足,…...
速通c++(周二)
前言 Hello,大家好啊,我是文宇,不是文字,是文宇哦。 今天是速通c第二期。 运算符 c里的运算符种类有很多,因为这个教程是入门教程,所以只介绍其中我们会用到的几种。 算数运算 c中的算数运算有九个&a…...
拓扑未来物联网平台简介
拓扑未来物联网平台是基于Thingsboard二次开发的面向产业互联和智慧生活应用的物联网PaaS平台,支持适配各种网络环境和协议类型,可实现各种传感器和智能硬件的快速接入。有效降低物联网应用开发和部署成本,满足物联网领域设备连接、智能化改造…...
软件测试经理工作日常随记【7】-接口+UI自动化(多端集成测试)
软件测试经理工作日常随记【7】-UI自动化(多端集成测试) 自动化测试前篇在此 前言 今天开这篇的契机是,最近刚好是运维开发频繁更新证书的,每次更新都在0点,每次一更新都要走一次冒烟流程。为了不让我的美容觉被阉割…...
软考:软件设计师 — 9.数据流图
九. 数据流图 数据流图是下午场考试中第一个题目,分值 15 分。通常会考察实体名、存储名、加工名的补充,以及找到缺失的数据流并改正等。 1. 数据平衡原则 数据流的分析依赖于数据平衡原则。 父图与子图之间的平衡 父图与子图之间平衡是指任何一张 …...
收银系统源码-门店折扣活动应该怎么做
系统概况: 专门为零售行业的连锁店量身打造的收银系统,适用于常规超市、生鲜超市、水果店、便利店、零食专卖店、服装店、母婴用品、农贸市场等类型的门店使用。同时线上线下数据打通,线下收银的数据与小程序私域商城中的数据完全同步&#…...
Python数值计算(12)——线性插值
1. 概述 插值是根据已知的数据序列(可以理解为你坐标中一系列离散的点),找到其中的规律,然后根据找到的这个规律,来对其中尚未有数据记录的点进行数值估计的方法。最简单直观的一种插值方式是线性插值,它是…...
TypeScript(switch判断)
1.switch 语法用法 switch是对某个表达式的值做出判断。然后决定程序执行哪一段代码 case语句中指定的每个值必须具有与表达式兼容的类型 语法switch(表达式){ case 值1: 执行语句块1 break; case 值2: 执行语句块3 break; dfault: //如…...
血细胞自动检测与分类系统:深度学习与UI界面的结合
一、项目概述 项目背景 在医学实验室中,血细胞的检测和分类是诊断和研究的重要环节。传统方法依赖于人工显微镜检查,费时且容易出现误差。通过深度学习技术,特别是目标检测模型YOLO,可以实现自动化、快速且准确的血细胞检测和分…...
鸿蒙Flex布局
效果: 代码: 换行代码参数设置: wrap:FlexWrap.Wrap Entry Component struct FlexCase {State message: string Hello World;build() {Flex({direction:FlexDirection.Row,justifyContent:FlexAlign.SpaceAround,alignItems:ItemAlign.Cen…...
开发自己的 Web 框架
开发自己的 Web 框架 开发Web服务器主体程序开发Web框架程序使用模板来展示响应内容开发框架的路由列表功能采用装饰器的方式添加路由电影列表页面的开发案例 接收web服务器的动态资源请求,给web服务器提供处理动态资源请求的服务。根据请求资源路径的后缀名进行判断…...
用于自动驾驶的基于立体视觉的语义 3D 对象和自我运动跟踪
Stereo Vision-based Semantic 3D Object and Ego-motion Tracking for Autonomous Driving 论文 摘要: 我们提出了一种基于立体视觉的方法,用于在动态自动驾驶场景中跟踪相机自我运动和 3D 语义对象。我们建议使用易于标记的 2D 检测和离散视点分类以及…...
Spring@Autowired注解
Autowired顾名思义,就是自动装配,其作用是为了消除代码Java代码里面的getter/setter与bean属性中的property。当然,getter看个人需求,如果私有属性需要对外提供的话,应当予以保留。 因此,引入Autowired注解…...
32.x86游戏实战-使用物品call
免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…...
Prometheus+Alertmanager+邮件告警
参考node_exporter-CSDN博客,球球不要断更!!!! 大致流程 1.部署promethus 可以写一个自定义的 systemd 服务启动文档,详情见自定义的 systemd 服务启动方式-CSDN博客 [rootlocalhost system]# sudo tee /e…...
upload-labs漏洞靶场~文件上传漏洞
寻找测试网站的文件上传的模块,常见:头像上传,修改上传,文件编辑器中文件上传,图片上传、媒体上传等,通过抓包上传恶意的文件进行测试,上传后缀名 asp php aspx 等的动态语言脚本,查…...
PostgreSQL 高阶函数详解:全面深入的功能与实用示例
PostgreSQL 高阶函数详解 PostgreSQL 是一款功能强大的开源关系数据库管理系统,以其丰富的功能和高扩展性著称。在数据处理和分析方面,PostgreSQL 提供了一系列高阶函数,可以极大地简化和优化各种复杂操作。本文将详细介绍 PostgreSQL 的高阶…...
Redis——集合 SET
目录 1. 添加元素 SADD 2. 查看元素 SMEMBERS 3. 判断元素是否存在该集合 SISMEMBER 4. 删除元素 SREM 集合 SET 是一种无序集合;因此其与列表有以下区别: (1)列表是有序的,集合是无序的; ࿰…...
openEuler安装docker
1.下载地址 搜索docker 寻找docker-ce 复制地址 2.配置仓库 [rootlocalhost yum.repos.d]# pwd /etc/yum.repos.d [rootlocalhost yum.repos.d]# vim docker-ce.repo [docker-ce] namedocker baseurlhttps://mirrors.aliyun.com/docker-ce/linux/rhel/9/x86_64/stable/ gpgche…...
每天一个数据分析题(四百六十五)- 缺失值
某连续型变量的数据集存在缺失值,可以采用哪种方法处理? A. 插值法填补 B. EM算法填补 C. 随机森林填补 D. 以上均不对 数据分析认证考试介绍:点击进入 题目来源于CDA模拟题库 点击此处获取答案 数据分析专项练习题库 内容涵盖Pytho…...
干货 | 变频器的详细介绍
变频器简述 变频器是电机控制领域中常见的一种设备,也称变频调节器,是一种将固定频率的交流电转换为可调频率的交流电的电力电子设备,用于控制交流电机的转速和输出功率。变频器通过调节输出电源的电压和频率,从而控制电动机的转速…...
Linux线程2
线程相关函数 线程分离--pthread_detach(后面会详细讲) 函数原型:int pthread_datach(pthread_t thread); 调用该函数之后不需要 pthread_join 子线程会自动回收自己的PCB 杀死(取消)线程--pthread_cancel 取…...
乱弹篇(40)人类追求长寿
不要认为只有中国的老龄化才严重,实际上全球都面临老龄化,其中日本最为严重。 这是随着人类生活和医学水平的不断提高,寿命才会比过去数十年有了大幅度的提升。据资料显示,目前全球平均预期寿命估计为73岁。与百年之前相比&#…...
技术详解:互联网医院系统源码与医保购药APP的整合开发策略
本篇文章,小编将从系统架构、数据安全、用户体验和技术实现等方面详细探讨互联网医院系统与医保购药APP的整合开发策略。 一、系统架构 1.模块化设计 互联网医院系统与医保购药APP的整合需要采用模块化设计。 2.微服务架构 每个功能模块作为一个独立的微服务&am…...
N4 - Pytorch实现中文文本分类
🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 目录 任务描述步骤环境设置数据准备模型设计模型训练模型效果展示 总结与心得体会 任务描述 在上周的任务中,我们使用torchtext下载了托管的英文的…...
centos 如何安装sox音视频处理工具
要在 CentOS 系统上安装 Sox 音频处理软件,你可以遵循以下步骤。请注意,这些说明适用于 CentOS 7,对于 CentOS 8 及更高版本,某些包管理命令可能略有不同。 第一步:安装所需的依赖库 首先,你需要安装一系列…...
Java语言程序设计——篇十一(2)
🌿🌿🌿跟随博主脚步,从这里开始→博主主页🌿🌿🌿 欢迎大家:这里是我的学习笔记、总结知识的地方,喜欢的话请三连,有问题可以私信🌳🌳&…...
Linux 应急响应靶场练习 1
靶场在知攻善防实验室公众号中可以获取 前景需要:小王急匆匆地找到小张,小王说"李哥,我dev服务器被黑了",快救救我!! 挑战内容: (1)黑客的IP地址 (2࿰…...
AWS-Lambda的使用
介绍 Lambda 是一种无服务器(Serverless), 而且设计成事件驱动的计算服务器. 简单来说, 你可以将你的 code 上传, 当有事件产生(例如cronjob , 或者S3有新的文件被上传上來) , 你的code 就会在瞬间(零点几秒以內)被叫起來执行. 由于你不用管 Server如何维护, 或者自动扩展之类…...
网站关键词优化报价/怎么开展网络营销推广
1、mongodb安装好后第一次进入是不需要密码的,也没有任何用户,通过shell命令可直接进入,cd到mongodb目录下的bin文件夹,执行命令./mongo即可运行如下:[rootnamenode mongodb]# ./bin/mongo MongoDB shell version: 1.8…...
建设银行扬中网站/上海网站建设哪家好
String是Java.lang包下的final类,其值是不可以改变的。String类实现了java.io.Serializable,Comparable<String>,CharSequence 这三个接口。 java.io.Serializable 接口是 序列化接口,实现此接口的类,可以序列化和反序列化此类对象。 C…...
网站开发方案及报价单/如何推广一款app
一、基本查询语句 select的基本语法格式如下: select 属性列表 from 表名和视图列表 [ where 条件表达式1 ] [ group by 属性名1 [ having 条件表达式2 ] ] [ order by 属性名2 [ asc | desc ] ] 属性列表参数表示需要查询的字段名; 表名和视图列表参数表…...
上海网站建设基础/网站运营主要做什么工作
●一份文档就是一棵节点树。●节点分为不同的类型:元素节点、属性节点和文本节点等。●getElementById()方法将返回一个对象,该对象对应着文档里的一个特定的元素节点。●getElementsByTagName()方法将返回一个对象数组,它们分别对应着文档里…...
walker wordpress/小红书新媒体营销案例分析
使用教程 (1)电影院订票选座小程序 毕业设计 课程设计( 使用教程) https://ke.qq.com/course/3061789?taid10201006892562461&tuin2b10d56 (2)餐厅酒吧KTV等预约订座小程序 毕业设计 课程设计 使用教…...
网页制作一个网站八个页面咋做/如何做品牌营销
郝萌主倾心贡献,尊重作者的劳动成果。请勿转载。假设文章对您有所帮助,欢迎给作者捐赠,支持郝萌主,捐赠数额任意,重在心意^_^ 我要捐赠: 点击捐赠Cocos2d-X源代码下载:点我传送游戏官方下载:htt…...