探索GPT-4V在学术领域的应用——无需编程即可阅读和理解科学论文
1. 概述
论文地址:https://arxiv.org/pdf/2312.05468.pdf
随着人工智能潜力的不断扩大,人工智能(AI)在化学领域的应用也在迅速发展。特别是大规模语言模型的出现,极大地扩展了人工智能在化学研究中的作用。由于这些模型具有支持化学研究中各种任务的超强能力,并且能够轻松地使用自然语言进行 "编程 "或 “教学”,因此备受关注。现在,大规模语言模型已从纯文本发展到多模态,可处理多种信息,成为应用广泛的强大而有用的人工智能助手。
GPT-4V 是这一演变的先驱。V "代表了它的视觉能力,它理解视觉和文本信息的能力远远超过了传统模型,能够从科学文献的图表中发现并分析有价值的数据。GPT-4V 的这一能力意味着,即使没有专业编程知识或计算机视觉技能的研究人员也能使用它,而且研究人员还可以通过定制指令来使用它。
本文展示了 GPT-4V 如何应用于网状化学研究。GPT-4V 能够整合和解释科学论文中的文字和图表数据,极大地提高了关键信息的提取和分析能力,尤其是从图表内容中读取物理特性结果的重要性。这种方法并不局限于网状化学,表明自动文献分析可以扩展到其他科学学科。
GPT-4V 的推出表明,人工智能可以进一步加强其在促进科学创新和发现方面的作用,缩小先进计算工具与前沿化学研究之间的差距。
2. 对 GPT-4V 性能的初步评估
在此,我们通过识别和解释网状化学文献中常见的图表来评估 GPT-4V 的性能。我们尤其关注氮等温线、粉末 X 射线衍射 (PXRD) 图样、热重分析 (TGA) 曲线、核磁共振 (NMR) 和红外光谱以及散点图、柱状图、二维和三维分子结构等各种图表,以了解 GPT-4V 是否能充分解释这些图表。该项目基于以下研究。此外,我们还分析了实验图像,包括合成方案、显微镜和扫描电子显微镜(SEM)图像。下图就是一个例子。
当被要求对每个图表进行详细描述时,GPT-4V 不仅能准确地对图像进行分类,还能深入浅出地讲述具体细节,包括注释、坐标轴范围、颜色编码、符号和线条形状、标签和图例,令人印象深刻。他们还能根据提供的图表说明信息进行推断。这种先进的上下文数据解读和综合分析功能凸显了 GPT-4V 作为强大的人工智能助手在科学文献图像和数据挖掘方面的适用性。
3. 及时设计页面内容标签
本文的目的是测试 GPT-4V 能否自主浏览科学文章、识别特定信息、将其编译成综合数据集并进行分析。本文特别关注显示金属有机框架(MOFs)物理性质的关键图表–氮等温线、粉末 X 射线衍射(PXRD)图、热重分析(TGA)曲线、晶体结构和拓扑图以及其他气体吸附等温线。这些图表对于阐明化合物的重要特性至关重要,如永久孔隙率、结晶度、热稳定性、拓扑结构和对气体的选择性。从这些图表中有效提取信息,并将其整合到大量文献中,对于提高我们对结构-性质关系的理解和加速新化合物的发现具有巨大潜力。
为实现这一目标,我们使用 GPT-4V 设计了针对上述类别的特定提示。这些提示考虑到了由于科学文献中常见的不同图和表并存的情况,一个页面上可能存在多个选项。此外,如果缺少某个类别,GPT-4V 也会明确指出缺少该类别。因此,GPT-4V 共有六个选项。这些提示的开发遵循文本挖掘提示工程的基本原则。下图为其概览。
4. GPT-4V 的性能评估
在这里,GPT-4V 对所选文献的每一页进行成像和分析。具体来说,GPT-4V 将页面图像与专门设计的文本提示相结合,并收集回复,从而自动对内容进行分类,并识别出包含情节的页面,以便进行深入分析。这一过程允许 GPT-4V 遵循特定的回复格式,并根据内容自动标记每一页。
GPT-4V 可准确识别每一页上所需的情节,无论信息的复杂程度如何、展示标注能力。
为了评估 GPT-4V 的分类准确性,我们将其与地面实况数据集进行了比较,地面实况数据集包含由网状化学专家人工审核和标注的 6,240 张图像。结果显示,除 "其他气体吸附等温线 "外,所有类别的准确率都超过 94%,但准确率、召回率和 F1 分数都在 87% 到 99% 之间。该类别的准确率较低,可能是由于提示说明不充分以及红外光谱和核磁共振光谱偶尔出现标记错误,这表明有机会进一步完善提示的针对性。
GPT-4V 的性能在网络接口和应用程序接口中也显示出相似的准确率,再次证明了基础模型的一致性。
这一自动化流程提供了多种操作选项,并能高效地从文献中收集信息。混淆矩阵分析显示了 GPT-4V 在大量文献中识别出氮等温线、PXRD 图样和 TGA 曲线的页数。
此外,许多页面被归类为缺乏感兴趣的情节,这可能有助于研究人员今后简化某些类型文献情节的审查过程。
5. 利用 GPT-4V 解释氮等温线数据
本节将探讨在成功标注页面内容后,如何使用 GPT-4V 对以氮等温线图为特色的页面进行详细解读和分析。对提示策略进行了改进,加入了更多特定语言,指导 GPT-4V 识别氮等温线,并从每个图中提取和报告关键信息。
其中包括图号、化合物名称、表面积和孔体积值、吸附-解吸曲线是否存在滞后现象、等温线的饱和高原以及对图周围边框的估计。
这种方法的关键在于指示 GPT-4V 只使用页面图像上的可用信息,而 "N/A "则表示数据不可用。因此,GPT-4V 通过分析等温线及其相关坐标轴、图例和文本内容,显示出高效提取这些细节的能力,令人印象深刻。
为了确认 GPT-4V 分析的准确性,我们对所选论文中超过 200 页的反应(包括氮等温线)进行了人工审核。特别是在图号、化合物名称和孔隙度分析方面,观察到了很高的准确性。这表明,GPT-4V 在图像处理功能中可能使用了光学字符识别 (OCR) 工具。此外,GPT-4V 对文本的高熟练度似乎对与可直接从图像中读取的文本信息相关的任务产生了积极影响。
然而,对于其他三个描述符,如是否存在滞后、饱和高原和边界框估计,其性能总体上令人满意,从 76.25% 到 84.58%不等。这些任务是更高级、更微妙的挑战,需要对所有图像元素进行全面分析。尽管如此,总体性能还是特别令人印象深刻,而且研究人员可以用自然语言对 GPT-4V 进行简单的指导,这进一步凸显了该技术的强大功能。
6. 加速网状化学数字数据库
在此,我们探讨了使用 GPT-4V 简化网状化合物详细数据库构建的可能性。特别是,我们根据科学界发表的文献中的实验结果,识别出具有独特氮等温线图的网页,并使用 WebPlotDigitizer 等工具仔细提取这些通常为非数字格式的数据。通过这一过程,提取的数据被系统地编译并存储到数据库中。这种方法提供了一个收集氮等温线数据点的实际例子,显示了各种等温线类型和孔隙度特征。
此外,还利用 CoRE MOF 数据库来匹配论文中讨论的化合物的计算结果和实验结果,从而对理论值和实验值进行比较。在这项分析中,将每种化合物的理论值与实验得出的表面积和孔隙率绘制成散点图,从而揭示化合物之间的一般趋势。
比较结果表明,即使是在实验确定的结构基础上,理论预测和实验结果之间也存在差异。这凸显了在选择材料时完全依赖计算结果的风险。
这项研究的启示表明,GPT-4V 不仅适用于网状化学,还适用于广泛的科学学科。娴熟的提示设计对于有效的数据库建设至关重要,而 DSPy 等创新工具的引入则有可能进一步改进研究过程,加快自然语言处理工具的发展。这一进步有望扩大文献数据挖掘的范围,并进一步增加人工智能工具在科学研究中的应用。
7. 总结
本文展示了GPT-4V 在网状化学领域的文本、图像和数据挖掘方面的作用。它重点介绍了 GPT-4V 使用独特设计的提示处理页面图像的能力,并成功识别和分类了包含所需信息的准确页面。值得注意的是,它表明这种方法可能不仅适用于网状化学,也适用于其他科学领域。
GPT-4V 等大型语言模型可以使用通常使用的自然语言进行 “编程”,消除了编码技术和特殊模型学习识别特定图表和图形的障碍。这种灵活性强调了一个事实,即只需对提示进行简单修改,就可以将分析从 TGA 曲线等转移到水等温线等完全不同的数据类型 。
此外,还建议整合 DSPy 等先进平台,使 GPT-4V 的使用更加有效。预计这将为科学数据挖掘开辟新的可能性,并使人工智能成为开发科学知识过程中更容易获取和使用的工具。这种方法有望大大提高科学研究领域的工作效率,并为从文献中提取更多数据提供机会。
相关文章:
探索GPT-4V在学术领域的应用——无需编程即可阅读和理解科学论文
1. 概述 论文地址:https://arxiv.org/pdf/2312.05468.pdf 随着人工智能潜力的不断扩大,人工智能(AI)在化学领域的应用也在迅速发展。特别是大规模语言模型的出现,极大地扩展了人工智能在化学研究中的作用。由于这些模…...
耐用充电宝有哪些?优质充电宝到底选哪个?良心推荐!
在电量即生产力的现今时代,如何为移动设备寻找一位最佳的伴侣呢?一款耐用、优质的充电宝无疑是你的不二之选。今天我们将带您揭开市场隐藏的一面,揭示哪些充电宝品牌真正代表了耐用与品质的标杆。让我们一起深入了解并选购最适合自己的充电宝…...
何为屎山代码?
在编程界,有一种代码被称为"屎山代码"。这并非指某种编程语言或方法,而是对那些庞大而复杂的项目的一种形象称呼。屎山代码,也被称为"祖传代码",是历史遗留问题,是前人留给我们的"宝藏"…...
基于esp8266_点灯blinker_智能家居
文章目录 一 实现思路1 项目简介2 项目构成3 代码实现4 外壳部分 二 效果展示UI图片 一 实现思路 摘要:esp8266,mixly,点灯blinker,物联网,智能家居,3donecut 1 项目简介 1 项目效果 通过手机blinker app…...
Web前端开发交流群:深度探索、实践与创新的集结地
Web前端开发交流群:深度探索、实践与创新的集结地 在数字时代的浪潮中,Web前端开发扮演着举足轻重的角色。为了促进前端技术的交流与发展,Web前端开发交流群应运而生,成为众多开发者学习、分享、创新的集结地。本文将从四个方面、…...
苹果AI一夜颠覆所有,Siri史诗级进化,内挂GPT-4o
苹果AI一夜颠覆所有,Siri史诗级进化,内挂GPT-4o 刚刚,苹果AI,正式交卷! 今天,苹果构建了一个全新AI帝国——个人化智能系统Apple Intelligence诞生,智能助手Siri迎来诞生13年以来的史诗级进化…...
量子计算的奥秘与魅力:开启未来科技的钥匙(详解)
目录 一、量子计算的基本概念 二、量子计算的基本原理 1.量子叠加态与相位态 一、概念 二、量子叠加态 定义与原理 特性与影响 应用领域 三、量子相位态 定义与原理 特性与影响 应用领域 2.量子门操作 一、概念 二、量子门操作的基本概念 三、常见的量子门操作…...
redis 主从同步时,是同步主节点的缓存积压区的数据,还是同步主节点的aof文件
Redis 的主从同步(replication)是同步主节点的数据到从节点上,但它既不是直接同步 AOF 文件,也不是同步缓存积压区。 当一个 Redis 从节点启动并连接到主节点时,会发生以下步骤: 同步数据集:从…...
Unity年中大促618活动又来了3折模板特效角色动画插件工具FPS生存建造模板RPG和2D素材优惠码UNITY6182024限时20240611
独立游戏开发需要找各种美术资源和模板,可以在低价时看看,节省开发时间。 Unity年中大促618活动又来了3折模板特效角色动画插件工具FPS生存建造模板RPG和2D素材优惠码UNITY6182024限时202406111104 300 款Unity引擎适配资源 3 折特惠,结账时输…...
【MyBatis-plus】saveBatch 性能调优和【MyBatis】的数据批量入库
总结最优的两种方法: 方法1: 使用了【MyBatis-plus】saveBatch 但是数据入库效率依旧很慢,那可能是是因为JDBC没有配置,saveBatch 批量写入并没有生效哦!!! 详细配置如下:批量数据入…...
前端三剑客之JavaScript基础入门
目录 ▐ 快速认识JavaScript ▐ 基本语法 🔑JS脚本写在哪? 🔑注释 🔑变量如何声明? 🔑数据类型 🔑运算符 🔑流程控制 ▐ 函数 ▐ 事件 ▐ 计时 ▐ HTML_DOM对象 * 建议学习完HTML和CSS后再…...
Fyndiq买家号下单:自养号测评如何打造本土物理环境系统?
Fyndiq 是一个瑞典电子商务平台,我们通过该平台为渴望讨价还价的购物者提供一系列产品。该公司为希望以可访问的方式提高销售额的所有类型的零售商提供销售渠道。Fyndiq几乎是瑞典家喻户晓的存在,是瑞典折扣促销平台。以销售质优价廉的商品吸引了大量忠实…...
自动检测曲别针数量:图像处理技术的应用
引言 在这篇博客中,我们将探讨如何使用计算机视觉技术自动检测图像中曲别针的数量。 如图: [1]使用灰度转换 由于彩色信息对于曲别针计数并不重要,我们将图像转换为灰度图,这样可以减少处理数据的复杂度,加速后续的…...
【Git】多人协作 -- 详解
一、多人协作(1) ⽬前,我们所完成的工作如下: 基本完成 Git 的所有本地库的相关操作,git 基本操作,分支理解,版本回退,冲突解决等等。 申请码云账号,将远端信息 clone…...
Eureka和Nacos有哪些区别?
Eureka和Nacos都能起到注册中心的作用,用法基本类似。但还是有一些区别的,例如: Nacos支持配置管理,而Eureka则不支持。 而且服务注册发现上也有区别,我们来做一个实验: 我们停止user-service服务&#x…...
如何正确使用 include-what-you-use
简单地说,由 Google 开发的 include-what-you-use(IWYU)让源代码文件包含代码里用到的所有头文件。这种方法确保在改动了一些接口之后,代码依然最有可能编译成功。 之前我写了一篇关于 include-what-you-use 工具的文章ÿ…...
企业内网安全软件分享,有什么内网安全软件
内网安全? 其实就是网络安全的一种。 什么是内网安全软件? 内网安全软件是企业保障内网安全的一种重要工具。 它主要帮助企业实现对网络设备、应用程序、用户行为等方面的监控和管理,以预防和应对各种网络攻击。 这类软件主要用于对内网中…...
【摘葡萄game】
您想要了解的“摘葡萄游戏”可能是一个编程项目或者是一个编程相关的练习。我可以提供一个简单的摘葡萄游戏的思路和代码示例。这个游戏可以用多种编程语言来实现,比如Python、Java等。这里我以Python为例,给出一个基础版本的摘葡萄游戏的概念和代码。 …...
java如何实现字符串连接
在java中,字符串与字符串连接可以用运算符和 比如有字符串a,字符串b 想要把a和b连接起来,定义一个字符串变量c cab 或者 ab 示例代码 public class Zifuchuanlianjie {public static void main(String[] args) {String a"我叫李狗蛋";S…...
流量卡选卡攻略,拯救不会选流量卡的小白!
家人们,你们知道不,选择一款性价比高的流量卡,真的超级省钱。 一、首先,说一说申请。 运营商推出线上流量卡,注意是线上的流量卡,都是免费领取,运营商包邮到家,在激活充值之前不…...
python class __format__ __bytes__区别
在Python中,__format__和__bytes__是两个特殊方法,它们允许对象自定义它们在特定情境下的字符串表示。以下是这两个方法的区别和作用: __format__ 作用:__format__方法用于定义对象在使用format()函数或格式化字符串(…...
C++ | Leetcode C++题解之第134题加油站
题目: 题解: class Solution { public:int canCompleteCircuit(vector<int>& gas, vector<int>& cost) {int n gas.size();int i 0;while (i < n) {int sumOfGas 0, sumOfCost 0;int cnt 0;while (cnt < n) {int j (i …...
【Linux】ls命令
这个命令主要是用于显示指定工作目录下之内容(列出目前工作目录所含的文件及子目录)。 掌握几个重点的常使用的就可以: ls -l # 以长格式显示当前目录中的文件和目录 ls -a # 显示当前目录中的所有文件和目录&am…...
多态、虚函数表与动态绑定的深入解析
目录 多态简介 虚函数表与动态绑定 虚函数表 动态绑定机制 内存与性能影响 纯虚函数与抽象类 纯虚函数 抽象类 动态类型转换与typeid操作符 dynamic_cast typeid操作符 虚析构函数的重要性 在面向对象编程中,多态性是一种核心特性,它允许我们…...
VitePress+Docker+jenkins构建个人网站
VitePress官网 VitePress | 由 Vite 和 Vue 驱动的静态站点生成器 可以理解为一个前端脚手架:快速生成个人站点 最好先大概看一遍 快速开始 | VitePress 可以在线体验一下 安装条件 node -v 检查下node版本 在D盘创建一个文件夹 例如:VitePress 进入文件夹 cmd npm ini…...
Windows11下Docker使用记录(五)
目录 准备1. WSL安装cuda container toolkit2. win11 Docker Desktop 设置3. WSL创建docker container并连接cuda4. container安装miniconda(可选) Docker容器可以从底层虚拟化,使我们能够在 不降级 CUDA驱动程序的情况下使用 任何版本的CU…...
快速学习Java的多维数组技巧
哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一…...
C语言运算类型有哪些
C语言中的运算类型主要分为以下几类: 1. 算术运算符: - 加法运算符 - 减法运算符 - - 乘法运算符 * - 除法运算符 / - 取模运算符 %(取余数) 2. 关系运算符: - 大于 > - 小于 < - 大…...
【深度学习】Loss为Nan的可能原因
文章目录 1. 问题情境2. 原因分析3. 导致Loss为Nan的其他可能原因 1. 问题情境 在某个网络架构下,我为某个数据项引入了一个损失函数。 这个数据项是nn.Embedding类型的,我加入的损失函数是对nn.Embedding空间做约束。 因为我在没加入优化loss前&#x…...
解密!考研数学满分学霸的备考书单
这题我太会了,高数视频有是有真的又臭又长,我也不喜欢看 但是自己看教材,有的地方又比较难以理解,所以,这个时候一本通俗易懂的教材就显得格外重要,国内很多教材都讲的晦涩难懂,所以我给大家推…...
天津企业网站制作/关键词查询的五种常用工具
满意答案叶丹181546推荐于 2016.12.02采纳率:50% 等级:11已帮助:10824人对味黑人说唱:歌名: 歌手:Fuck You Cash MoneyHands Up ChingyLookin At You The GameToo Much The GameGangsta Rap Made Me Do …...
营销网站建设推广/建立一个国外的网站
title: I01 物理隔离条件下Windows与Linux服务器的文件传输脚本author: Adolph Leecategories: 进阶tags:paramiko打怪升级mathjax: false背景在工作环境中,为了网络与数据传输的安全性、保密性。服务器往往与办公室网络环境存在物理隔离条件,一般是通过…...
别人能打开的网站我打不开/企业网站建设的步骤
EDA365欢迎您登录!您需要 登录 才可以下载或查看,没有帐号?注册x3 K1 ~ W3 V6 w6 h w) B1 I. C$ X在概率论和信息论中,两个随机变量的互信息(Mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖…...
wordpress打开xml-rpc/品牌营销策略分析
今天学习了Wildfly V9.0服务器环境的基本管理与运营,包括启动、停止、修改端口、在同一台机器上运行多个实例。配置DB2数据源。...
做旅游网站会遇到什么问题/什么是网络推广营销
Python相比于C语言、PHP、Java等编程语言,更加简单易学,很多没有编程经验或者对编程一知半解的人员往往会选择Python作为入门编程语言,Python虽然入门简单,但是要想更深入的掌握Python知识和技能,还需要下一番苦功&…...
wordpress二级开发/东莞关键词排名提升
这题弄了两天才做出来,还是去请教了竹教主。 贴个别人的解说吧,自己懒得写了 把斐波那契数列转化为矩阵:A{1,1} {1,0}; {f[n1],f[n]} {f[n],f[n-1]} A^n ;最后输出右上角那项或者用{f[n2],f[n1]}{f[n1], f[n] } A^(n1); 最后输出右下角那项 我们用第…...