pyton怎么做网站的代码/百度助手下载
5月I/O大会上,Med-PaLM 2重磅升级,甚至达到了专家水准。
今天,谷歌揭秘微调后的Med-PaLM,同样在医学问题上一骑绝尘。
研究成果已登Nature。
论文地址:https://www.nature.com/articles/s41586-023-06291-2
这项研究最重要的贡献在于,谷歌提出了全新的MultiMedQA评估基准,以评测大模型在临床方面的能力。
OpenAI带着ChatGPT在通用大模型领域领跑,而AI+医疗这条赛道,谷歌称得上是头部领先者。
有人或许疑问,这和Med-PaLM 2的区别在哪?
论文作者给出了答复,Med-PaLM 2是最新的模型,在USMLE风格的问题上达到了86.5%的准确率,比谷歌自己的Med-PaLM的最先进结果提高了19%。
# 主要贡献
如何评估AI的回答?尤其,在医学领域,对治病方案、医疗操作准确性要求极高。
目前,常见的评价医疗模型最主要的方法,主要依赖单个医疗测试的得分。
这就像把AI当成考生一样,去测试他的水平,然而在真实的医疗场景中,有时候并不能应对自如,甚至是个未知数。
那么,如何将一个AI考生变成一个真正的AI医生,构建一个全面的评估至关重要。
对此,谷歌提出了一个全新的基准测试——MultiMedQA,其中涵盖了医学考试、医学研究等领域的问题和回答。
基于MultiMedQA,研究人员还评估了PaLM及其指令微调变体Flan-PaLM。
接着,通过利用提示策略的组合,Flan-PaLM在MedQA(美国医疗执照考试USMLE)、MedMCQA、PubMedQA和MMLU临床主题上超越了SOTA。
特别是,在MedQA(USMLE)上比先前的SOTA提高了17%以上。
最后,研究人员通过指令提示微调,进一步将Flan-PaLM与医学领域对齐,并提出了全新的医学模型——Med-PaLM。
在人工评估框架下,Med-PaLM对消费者医学问题的回答与临床医生给出的回答相比表现出色,证明了指令提示微调的有效性。
# 医疗大模型最新基准MultiMedQA
**
**
谷歌最新Nature研究的第一个关键贡献:在医学问答背景下评估LLM。
谷歌构建的最新基准MultiMedQA,是由七个医学问答数据集组成的基准。
其中包括6个现有数据集:MedQA 、MedMCQA 、PubMedQA、LiveQA 、MedicationQA和MMLU临床主题 。
值得一提的是,谷歌在此添加了一个全新数据集,即第7个数据集「HealthSearchQA」。
它由常见的搜索健康问题组成,仅这个数据集就包含了3173个常见消费者医学问题。
具体来讲,这些数据集构成如下:
- MedQA数据集由USMLE风格的问题组成,有四个或五个可能的答案。开发集由11,450个问题组成,测试集有1,273个问题。
- MedMCQA数据集包含来自印度医学入学考试(AIIMS/NEET)的194,000多个四选项多项选择题。该数据集涵盖2,400个医疗保健主题和21个医学主题。开发集很丰富,有超过187,000个问题。
- PubMedQA数据集由1,000个专家标记的问答对组成,其中任务是在给定一个问题的情况下产生一个是/否/可能是多项选择题的答案,并将PubMed摘要作为上下文(Q+上下文+A)。
- MMLU包含57个领域的试题。团队选择了与医学知识最相关的子任务:解剖学、临床知识、大学医学、医学遗传学、专业医学和大学生物学。每个MMLU子任务包含四个选项的多项选择题以及答案。
- LiveQA数据集是作为2017年文本检索挑战赛(TREC)的一部分策划的。该数据集由人们提交给国家医学图书馆(NLM)的医学问题组成。
- MedicationQA数据集由常见的消费者关于药物的问题组成。除了问题之外,数据集还包含与药物焦点和相互作用相对应的标注。
为了使用使用MultiMedQA评估LLM,研究人员构建了语言模型PaLM,一个5400亿参数的LLM,及其指令微调模型变体Flan-PaLM。
# 模型开发和性能评估
研究第二个关键贡献是:
通过少样本、CoT、以及自洽性提示策略的组合,Flan-PaLM在MedQA、MedMCQA、PubMedQA和MMLU临床主题上取得了SOTA,超越几个强大LLM基线。
第三个关键贡献是:
研究引入指令提示微调,并构建了Med-PaLM。这是一种用于将LLM与安全关键的医学领域保持一致方法。
MedQA的最新技术
在由具有4个选项的USMLE样式问题组成的MedQA数据集上,Flan-PaLM 540B模型达到了67.6%的多选题正确率,比DRAGON(在其他论文中用过)模型高出20.1%。
与谷歌的研究同时进行的PubMedGPT是一个专门训练于生物医学摘要和论文的27B模型,该模型在具有4个选项的MedQA问题上取得了50.3%的成绩。
它是MedQA的最新技术,而Flan-PaLM 540B比它高出了17.3%。
在MedMCQA 和 PubMedQA中的成绩
**
**
在由印度的医学入学考试问题组成的MedMCQA数据集上,Flan-PaLM 540B在开发测试集上达到了57.6%的成绩,超过了Galactica模型取得的52.9%的最好成绩。
同样,在PubMedQA数据集上,谷歌的模型达到了79.0%的准确率,超过了先前的最先进模型BioGPT21的0.8%(如上图)。
虽然与MedQA和MedMCQA数据集相比,提高似乎不大,但单一评分(single-rater)的人类在PubMedQA上的成绩也只是78.0%,说明在这个任务的成绩可能存在一定的软上限。
** **
在MMLU临床主题中的表现
**
**
MMLU数据集包含来自多个临床知识、医学和生物学相关主题的多项选择问题。
其中包括解剖学、临床知识、专业医学、人类遗传学、大学医学和大学生物学等内容。
Flan-PaLM 540B在所有这些子集上都最佳的成绩,在专业医学和临床知识子库中,Flan-PaLM 540B分别达到了83.8%和80.4%的最佳准确率。
下图总结了结果,并与其他LLM进行了比较。
# 消融实验
谷歌对三个多选题择数据集(MedQA、MedMCQA和PubMedQA)进行了几项消融研究,目的是更好地理解他们的结果并确定对Flan-PaLM性能贡献的关键部分。
指令微调改善了性能
**
**
在所有大小的模型中,谷歌发现到指令微调的Flan-PaLM模型在MedQA、MedMCQA和PubMedQA数据集上的性能优于基线PaLM模型。
在PubMedQA数据集中,8B的Flan-PaLM模型的性能领先基线PaLM模型超过30%。
在62B和540B变体的情况下,也发现了类似的显著改进。
如下图所示的这些结果表明了指令微调的强大优势。
谷歌没有对指令提示微调对多项选择准确性的影响进行彻底分析。
在本节中,谷歌的分析是针对Flan-PaLM而不是Med-PaLM的。
规模提升改善医学问题回答的表现
当将模型从8B扩展到540B时,性能提升了约2倍,对于PaLM还是Flan-PaLM模型都是这样的。
这些改进在MedQA和MedMCQA数据集中更为显著,特别是对于Flan-PaLM来说,540B变体的性能比62B变体提高了14%以上,比8B变体提高了24%以上。
鉴于这些结果和Flan-PaLM 540B模型的强大性能,谷歌在后续的实验和消融研究中都会基于这个模型。
思维链提示
研究人员没有发现COT在MedQA、MedMCQA和PubMedQA多项选择数据集上优于标准的少样本提示词策略的提升。
这可能是由于存在许多可能的思路推理路径导向特定答案,随机选择一条路径可能无法产生最准确的结果。
此外,研究人员还探索了使用非医学COT提示的方法。
下图的结果表明,COT提示在引导模型解决这些类型问题方面是有效的,不用向模型添加新的知识。
# 人类评估结果
研究人员从HealthSearchQA中随机选择了100个问题,从LiveQA中随机选择了20个问题,从MedicationQA中随机选择了20个问题作为一个较小的长答案基准,用于详细的人类评估。
那么具体评估结果如何?
理解、检索和推理
为了研究Med-PaLM在医学理解、知识检索和推理方面的能力。
团队邀请了一组临床医生来评估这些回答中包含的医学阅读理解、医学知识检索和医学推理是否正确(一个或多个示例)。
通过对比可以看到,专家给出的答案大幅优于Flan-PaLM,而指令提示微调则显著提升了Med-PaLM的性能。
例如,在正确检索医学知识的证据方面,临床医生的答案得分为97.8%,而Flan-PaLM的得分为76.3%。
然而,经过指令提示微调的Med-PaLM模型的得分为95.4%,缩小了与临床医生之间的差距。
内容不正确或缺失
为了评估模型的答案是否有信息缺失、或者给出不正确回复,来了解生成的答案的完整性和正确性。
与Flan-PaLM相比,临床医生在1.4%的情况下会给出不适当或错误的内容,而Flan-PaLM则为16.1%。
指令提示微调似乎降低了性能,Med-PaLM有18.7%的答案,被认为包含不适当或错误的内容。
相比之下,指令提示微调提高了模型在「遗漏重要信息」方面的性能。
Flan-PaLM答案中有47.6%被判断为遗漏重要信息,而Med-PaLM答案中仅有15.3%遗漏,减小了与临床医生之间的差距。
根据评估,临床医生的答案在11.1%的情况下被认为遗漏了信息。
如下表中展示了一些定性例子,表明LLM的答案在未来的使用场景中可以作为对医生回答患者问题的补充和完善。
对这些发现的一个潜在解释是,指令提示微调教会了Med-PaLM模型生成比Flan-PaLM模型更详细的答案,减少了重要信息的遗漏。
科学共识和安全性
在科学共识方面,临床医生给出的答案中,有92.9%与其一致。
同时,利用全新的指令提示微调技术进行对齐的Med-PaLM,也有92.6%的答案与其一致。
相比之下,只经过通用指令微调的Flan-PaLM,一致性仅有61.9%。
除此之外,指令提示微调也可以让生成的答案更安全。
其中,29.7%的Flan-PaLM回答被认为有潜在的伤害风险,这一数字在Med-PaLM中降至5.9%,与临床医生生成的答案(5.7%)相近。
同样,在伤害可能性的评估中,指令提示微调使Med-PaLM答案能够与专家生成的答案相媲美。
医学人群统计偏见
对于偏见的评估,团队试图了解答案是否包含对特定人群不准确或不适用的任何信息。
对于每个答案,评审员被问及「所提供的答案是否包含对某个特定患者群体或人口群体不适用或不准确的信息」。
例如,答案是否仅适用于特定性别的患者,而另一性别的患者可能需要不同的信息?,评审员需要给出是或否的回答。
根据这个偏见的定义,Flan-PaLM的答案在7.9%的情况下被认为包含有偏见的信息。
然而,对于Med-PaLM来说,这个数字降至0.8%,与临床医生的答案(在1.4%的情况下被认为包含有偏见的证据)相比,有明显的优势。
普通用户评估
除了专家评估,研究团队还请一组非领域专家(印度的非医学背景普通人)评估答案。
如图所示,Flan-PaLM的答案在只有60.6%的情况下被认为是有帮助的,而Med-PaLM竟有80.3%。
然而,这仍然不如临床医生的答案,医生有91.1%的回复是有帮助的。
同样,Flan-PaLM的答案在90.8%的情况下被认为直接回答了用户问题。而Med-PaLM的比例为94.4%,临床医生的答案在95.9%。
普通用户的评估进一步展示了指令提示微调有助于输出更满足用户的答案,此外还表明,在不断靠近人类临床医生所提供的输出质量方面还有很多工作要做。
如何学习AI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】

一、全套AGI大模型学习路线
AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!
二、640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。
三、AI大模型经典PDF籍
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。
四、AI大模型商业化落地方案
作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。
相关文章:

谷歌医疗大模型登Nature,Med-PaLM重磅揭秘!AI医生成绩比肩人类
5月I/O大会上,Med-PaLM 2重磅升级,甚至达到了专家水准。 今天,谷歌揭秘微调后的Med-PaLM,同样在医学问题上一骑绝尘。 研究成果已登Nature。 论文地址:https://www.nature.com/articles/s41586-023-06291-2 这项研究…...

java-字符串相关类的底层原理
在 Java 中,字符串处理是编程中的一个常见任务。Java 提供了多种字符串相关的类,如 String, StringBuilder, StringBuffer 和 CharSequence 等,以满足不同的需求。这些类的底层原理基于 Java 内部的数据结构和算法。在本教程中,我…...

C++模板编程—学习C++类库的编程基础
课程总目录 文章目录 一、详解函数模板二、类模板三、类模板实践:实现向量容器vector四、理解容器空间配置器allocator的重要性 一、详解函数模板 模板的意义:对类型也可以进行参数化了 // 也可以用template<class T>,但class容易和类…...

[每周一更]-(第99期):MySQL的索引为什么用B+树?
文章目录 B树与B树的基本概念B树(Balanced Tree)B树(B-Plus Tree)对比 为什么MySQL选择B树1. **磁盘I/O效率**2. **更稳定的查询性能**3. **更高的空间利用率**4. **并发控制** 其他树结构的比较参考 索引是一种 数据结构&#x…...

详解MySQL的MVCC机制
多版本并发控制(MVCC,Multi-Version Concurrency Control)是MySQL InnoDB存储引擎用于实现事务隔离和提高并发性能的一种机制。MVCC通过在同一数据的多个版本之间进行管理,允许读写操作并发进行,从而避免了传统锁机制带…...

docker部署skywalking
skywalking版本下载 1:拉取skywalking的oap镜像(可以选择自己的版本,最好与ui,agent版本一致) docker pull apache/skywalking-oap-server:9.5.02:启动oap docker run -d -p 11800:11800 -p 12800:12800 --name sw_oap apache/…...

Mac 使用Docker安装Elasticsearch、Kibana 、ik分词器、head
安装ElasticSearch 通过docker安装es docker pull elasticsearch:7.8.1 在本地创建elasticsearch.yml文件 mkdir /Users/ky/Documents/learn/es/elasticsearch.yml 编辑yml文件内容 http: host: 0.0.0.0 xpack.security.enabled: false xpack.security.enrollment.enabled: t…...

【Webpack4打包机制原理解析】
webpack是一个打包模块化 JavaScript 的工具,在 webpack里一切文件皆模块,通过 Loader 转换文件,通过 Plugin 注入钩子,最后输出由多个模块组合成的文件。webpack专注于构建模块化项目。 # 简单版打包模型步骤 我们先从简单的入手…...

如何提高接口响应速度
在非大数据(几万以上记录)的情况下,影响接口响应速度的因素中最大的是查询数据库的次数,其次才是数组遍历和简单数据处理(如根据已有字段增加新的属性,或计算值)。 一般一次数据库查询需要50毫秒…...

项目敏感配置信息加固
概述 引入jasypt做密码等敏感配置信息的加固 项目集成依赖 pom.xml引入jasypt-spring-boot-starter依赖 <dependency><groupId>com.github.ulisesbocchio</groupId><artifactId>jasypt-spring-boot-starter</artifactId><version>3.0.…...

HCIA-AI课程大纲
该阶段详细介绍各个机器学习范式方法,涵盖有监督、无监督、半监督、强化学习,以及深度学习算法基础,共计 72 课时。 第一节:华为云 ModelArts 云服务开发环境搭建 - (2 课时) - 华为云 ModelArts 云服务简…...

keil program algorithm 出错
前段时间 在 调试下载算法时,遇到一个奇怪的问题 就是 加载下载算法后, 下载算法的RAM空间 大小不能修改为 单片机的最大RAM,只能改到最大4KB的空间大小, 再大就报错 刚开始报错 一直不知道原因,走了很多弯路, 到最…...

SITNE24V2BNQ-3/TR一种瞬态电压抑制器,对标PESD1CAN
SITNE24V2BNQ是一种瞬态电压抑制器,设计用于保护两个汽车控制器区域 网络(CAN)母线不受ESD等瞬变造成的损坏。 SITNE24V2BNQ采用SOT-23封装。标准产品不含铅和卤素。 产品参数 方向:双向通道数:2VRWM(V)(Max):24IPP8/20μS(A)(M…...

Vue3【四】使用Vue2的写法写一个新的组件子组件和根组件
Vue3【四】使用Vue2的写法写一个新的组件 Vue3【四】使用Vue2的写法写一个新的组件 Vue3是向下兼容的,所有可以使用Vue的选项式写法 运行截图 目录结构 文件源码 App.vue <template><div class"app"><h1>你好世界! 我是App根组件<…...

指标体系建设10大坑
在企业经营和运营管理中,指标体系的建设至关重要,它在一定程度上是反映业务的问题状况,影响决策者的决策。但是,在指标体系的建设过程中,常常会存在一些不容忽视的“坑”,今天做个总结,以下为个…...

ubuntu 20.04上docker 使用gpu
要在Docker容器中使用GPU,你需要确保系统上已经安装了正确的NVIDIA驱动程序,并且安装了NVIDIA Container Toolkit。以下是详细的步骤: 1. 安装NVIDIA驱动程序 确保你的系统上已经安装了适当版本的NVIDIA驱动程序。你可以通过运行以下命令来检查驱动程序是否正确安装: nv…...

短剧系统投流版开发,为运营公司投流业务赋能
短剧系统投流版开发是一项复杂的任务,旨在为运营公司的投流业务提供强大的技术支持和赋能。以下是一些关键步骤和考虑因素,以确保短剧系统投流版的成功开发: 一、明确业务需求与目标 首先,需要深入了解运营公司的业务需求、目标…...

入坑必看的几个嵌入式方向热点问题
我们为何要学嵌入式?---需求、薪资、长期发展 嵌入式是成为下一个JAVA吗? 互联网开发和嵌入式开发怎么选? 高薪热门就业方向有哪些? 刚入门,刚毕业,学完没有“工作经验”,能有人要吗&#x…...

电能表如何与智能家居进行有效的融合
随着智能家居技术的不断发展,越来越多的家庭开始使用智能家电、智能照明、智能安防等智能设备,以实现更加便捷、舒适、安全的居住环境。而电能表作为电力系统中不可或缺的一环,不仅承担着计量电能的重要职责,还可以为智能家居系统…...

jmeter多用户登录并退出教程
有时候为了模拟更真实的场景,在项目中需要多用户登录并退出操作,大致参考如下 多用户登录前面已经实现:参考博文 多用户登录并退出jmx文件:百度网盘 提取码:0000 一、多用户退出操作 添加一个setUp线程组࿰…...

阿里云ECS实例镜像本地取证
更新时间:2024年03月21日10:09:37 1. 说明 很多非法案件中,服务器是直接搭建在阿里云上的,比如我们在拿到OSSKey之后(技术方法、其它方法等),可以将涉案服务器镜像导出,在本地进行取证分析。 …...

不要硬来!班组管理有“巧思”
班组管理,听起来似乎是一个充满“硬气”的词汇,让人联想到严肃、刻板的制度和规矩。然而,在实际操作中,我们却需要运用一些“巧思”,以柔克刚,让班组管理既有力度又不失温度。 在班组管理中,我们…...

[原创][Delphi多线程]使用TMonitor和TQueue配合实现TThreadedQueue的经典使用案例.
[简介] 常用网名: 猪头三 出生日期: 1981.XX.XX QQ: 643439947 个人网站: 80x86汇编小站 https://www.x86asm.org 编程生涯: 2001年~至今[共22年] 职业生涯: 20年 开发语言: C/C、80x86ASM、PHP、Perl、Objective-C、Object Pascal、C#、Python 开发工具: Visual Studio、Delph…...

vue3 基于el-tree增加、删除节点(非TypeScript 写法)
话不多说,直接贴代码 <template><div class"custom-tree-container"><!-- <p>Using render-content</p><el-tree style"max-width: 600px" :data"dataSource" show-checkbox node-key"id" …...

小抄 20240607
1 一定要多接触幸运的人,好运的人更有可能继续好运。 这不是迷信,好运的背后是见识、性格、逻辑的加持,一定有过人之处,才能经常好运。 反过来,那些经常走霉运的人,一定是底层逻辑出了问题,陷…...

【GIS教程】土地利用转移矩阵
随着科技社会的不断进步,人类活动对地理环境的影响与塑造日益明显,土地不断的侵蚀与改变也导致一系列的环境问题日益突出。土地利用/覆盖(LUCC)作为全球环境变化研究的重点问题为越来越多的国际研究机构所重视,研究它的…...

API接口测试工具:jmeter的安装、汉化、Jmeter桌面快捷图标和基本使用
文章目录 测试工具:JmeterJmeter安装和配置Jmeter汉化设置中文语言:永久方式设置中文语言:临时方式 设置Jmeter桌面快捷图标jmeter基本用法Jmeter无法保存测试问题解决 测试工具:Jmeter Jmeter依赖于JDK,所以必须确保…...

电动汽车使用时,这10个方面需要引起重视。
1、续航里程和放电深度有关。为避免放电过深而影响动力电池的性能,建议您在发现车内仪表有低电量警告灯报警时及时充电。这意味着您需要注意电池的电量,并确保在电量不足时及时充电,以保护电池的性能。2、空调的使用会降低整车续航里程。因此…...

SD-WAN加速跨国服务器访问
在当今全球化的商业环境中,企业常常需要从国内访问国外的服务器。然而,由于地理位置和网络架构的限制,这种跨国访问通常会面临速度缓慢和高延迟的问题。SD-WAN(软件定义广域网)技术的崛起,为企业提供了一种…...

Vue2指令
本节目标 掌握vue指令 定义常用指令案例-小黑记事本指令修饰符 介绍 指令就是带有v-前缀的标签属性, 不同的指令, 可以实现不同的功能 常用指令 渲染指令 语法: v-html 动态渲染标签作用: 动态设置元素的innerHTML场景: 用来动态解析标签 语法: v-text 动态渲染文本会…...