当前位置: 首页 > news >正文

RadGraph: Extracting Clinical Entities and Relations from Radiology Reports代码

文章来源:NeurIPS

文章类别:IE(Information Extraction)在这里插入图片描述


RadGraph主要基于dygie++,主要文件为inference.py。

inference.py:

1、get_file_list(data_path)

def get_file_list(path):file_list = [item for item in glob.glob(f"{path}/*.txt")]with open('./temp_file_list.json', 'w') as f:json.dump(file_list, f)

该函数从data_path中读取所有的reports(txt文件)列表,然后保存到temp_file_list.json文件中。例如:

["data/s56075423.txt", "data/s59358936.txt", "data/s58951365.txt"]

2、preprocess_reports()

def preprocess_reports():file_list = json.load(open("./temp_file_list.json"))final_list = []for idx, file in enumerate(file_list):temp_file = open(file).read()sen = re.sub('(?<! )(?=[/,-,:,.,!?()])|(?<=[/,-,:,.,!?()])(?! )', r' ',temp_file).split()temp_dict = {}temp_dict["doc_key"] = file## Current way of inference takes in the whole report as 1 sentencetemp_dict["sentences"] = [sen]final_list.append(temp_dict)if(idx % 1000 == 0):print(f"{idx+1} reports done")print(f"{idx+1} reports done")with open("./temp_dygie_input.json",'w') as outfile:for item in final_list:json.dump(item, outfile)outfile.write("\n")

从temp_file_list.json中获取list,对每个report切分,形成单独的词,生成字典形式{“doc_key”: , “sentences”: },保存temp_dygie_input.json中。
在这里插入图片描述
3、run_inference(model_path, cuda)
此处使用的是allennlp。从temp_dygie_input.json中读取数据,然后保存到temp_dygie_output.json中。

def run_inference(model_path, cuda):""" Args:model_path: Path to the model checkpointcuda: GPU id"""out_path = "./temp_dygie_output.json"data_path = "./temp_dygie_input.json"os.system(f"allennlp predict {model_path} {data_path} \--predictor dygie --include-package dygie \--use-dataset-reader \--output-file {out_path} \--cuda-device {cuda} \--silent")

4、postprocess_reports(),生成final_dict
调用postprocess_individual_report(file, final_dict),单独处理每个report。

def postprocess_reports():"""Post processes all the reports and saves the result in train.json format"""final_dict = {}file_name = f"./temp_dygie_output.json"data = []with open(file_name,'r') as f:for line in f:data.append(json.loads(line))for file in data:postprocess_individual_report(file, final_dict)return final_dict

5、postprocess_individual_report( )

def postprocess_individual_report(file, final_dict, data_source=None):  """Args:file: output dict for individual reportsfinal_dict: Dict for storing all the reports"""try:temp_dict = {}temp_dict['text'] = " ".join(file['sentences'][0])n = file['predicted_ner'][0]r = file['predicted_relations'][0]s = file['sentences'][0]temp_dict["entities"] = get_entity(n,r,s)temp_dict["data_source"] = data_sourcetemp_dict["data_split"] = "inference"final_dict[file['doc_key']] = temp_dictexcept:print(f"Error in doc key: {file['doc_key']}. Skipping inference on this file")    

6、get_entity(n,r,s)

def get_entity(n,r,s):"""Gets the entities for individual reportsArgs:n: list of entities in the reportr: list of relations in the reports: list containing tokens of the sentenceReturns:dict_entity: Dictionary containing the entites in the format similar to train.json """dict_entity = {}rel_list = [item[0:2] for item in r]ner_list = [item[0:2] for item in n]for idx, item in enumerate(n):temp_dict = {}start_idx, end_idx, label = item[0], item[1], item[2]temp_dict['tokens'] = " ".join(s[start_idx:end_idx+1])temp_dict['label'] = labeltemp_dict['start_ix'] = start_idxtemp_dict['end_ix'] = end_idxrel = []relation_idx = [i for i,val in enumerate(rel_list) if val== [start_idx, end_idx]]for i,val in enumerate(relation_idx):obj = r[val][2:4]lab = r[val][4]try:object_idx = ner_list.index(obj) + 1except:continuerel.append([lab,str(object_idx)])temp_dict['relations'] = reldict_entity[str(idx+1)] = temp_dictreturn dict_entity

相关文章:

RadGraph: Extracting Clinical Entities and Relations from Radiology Reports代码

文章来源&#xff1a;NeurIPS 文章类别&#xff1a;IE(Information Extraction) RadGraph主要基于dygie&#xff0c;主要文件为inference.py。 inference.py&#xff1a; 1、get_file_list(data_path) def get_file_list(path):file_list [item for item in glob.glob(f&q…...

13. OPenGL与QT界面元素交互控制图形渲染

1. 说明&#xff1a; 前面文章中讲到的 OPenGL 渲染都是在页面加载完成即立刻渲染的&#xff0c;如果向控制图形渲染的时间&#xff0c;可以在QT界面中添加一些元素来进行控制。此时需要用到OPenGL当中的makeCurrent(),update(),doneCurrent()函数。 效果展示&#xff1a; ope…...

高通平台开发系列讲解(USB篇)libuvc详解

文章目录 一、什么是UVC二、UVC拓扑结构三、libuvc的预览时序图沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇文章将介绍libuvc。 一、什么是UVC UVC,全称为:USB video(device) class。 UVC是微软与另外几家设备厂商联合推出的为USB视频捕获设备定义的协议标…...

ICC2:set_route_opt_target_endpoints

route_opt阶段通过指定endpoint/driver pin list的方式执行incremental优化。 set_route_opt_target_endpoints [-setup_endpoints file] [-setup_endpoints_collection pin_list] [-hold_endpoints file] [-hold_endpoints_collection pin_list] [-ldrc_objects fil…...

5、小程序面试题

1, 小程序页面有哪些生命周期函数onLoad: 页面加载onReady: 页面初次渲染完成onShow: 页面显示onHide: 页面隐藏onUnload: 页面卸载2, 一页小程序页面有哪些文件组成,分别有什么作用.wxml: 使用微信框架设计的一套组件构建页面结构.wxss: 用于设置页面样式, 和css基本一致.js :…...

Java特殊操作流

6 特殊操作流 6.1 标注输入输出流 System类中有两个静态的成员变量&#xff1a; public static final InputStream in&#xff1a;标准输入流&#xff0c;通常该流对应于键盘输入或由主机环境或用户指定的另一个输入源public static final PrintStream out&#xff1a;标准输…...

如何用SCRM销售管理系统管理销售和做销售管理

每一家企业都在找适合自己公司的销售管理方法&#xff0c;实现销售目标和努力提高业绩。 我们常说&#xff0c;做好销售管理有很多路径和方法&#xff0c;但我们不知道从哪里开始&#xff1f;每个阶段我们该怎么办&#xff1f;如何有效管理销售团队&#xff1f;好的企企业微信…...

分享117个HTML婚纱模板,总有一款适合您

分享117个HTML婚纱模板&#xff0c;总有一款适合您 117个HTML婚纱模板下载链接&#xff1a;https://pan.baidu.com/s/1cC3I5cfh91-KmQj4nfSoPA?pwd9hod 提取码&#xff1a;9hod Python采集代码下载链接&#xff1a;采集代码.zip - 蓝奏云 import os import shutil import …...

VIVADO2022 sdk 工程创建流程

正点原子uart历程复现 create block design&#xff08;起名 为System&#xff09; -> open block design -> 号/IP catalog 中搜索zynq 双击打开&#xff0c; 将和pl相关的时钟都干掉 再auto 布线一下 把herarchy中的sources 中的system.bd右键、 无脑下一步导出 如…...

【MyBatis】源码学习 02 - Java 元注解以及 MyBatis @Param 注解分析

文章目录前言参考目录学习笔记1、Java 注解1.1、Java 元注解1.2、Java ElementType 枚举值1.3、自定义注解2、Param 注解分析2.1、Param 注解2.2、测试方法2.3、流程分析&#xff08;重点&#xff1a;ParamNameResolver&#xff09;前言 本文内容对应的是书本第 7 章的内容&am…...

贪心算法-蓝桥杯

一、贪心算法的优缺点优点&#xff1a;1.容易理解:生活常见。2.操作简单:在每一步都选局部最优。3.效率高: 复杂度常常是O(1)的。缺点&#xff1a;1.局部最优不一定是全局最优。二、例子: 最少硬币问题硬币面值1、2、5。支付13元&#xff0c;要求硬币数量最少。贪心法: (1) 5元…...

zookeeper 复习 ---- chapter03

zookeeper 复习 ---- chapter03如何创建 zookeeper 对象 要求&#xff1a; 1&#xff1a;知道这几个构造参数 2&#xff1a;知道每一个参数的含义 ZooKeeper(String connectString, int sessionTimeout, Watcher watcher) ZooKeeper(String connectString, int sessionTimeout…...

1.PostgreSQL

文章目录LIMITWITH 和RECURSIVEPostgreSQL 约束PostgreSQL AUTO INCREMENT&#xff08;自动增长&#xff09;PostgreSQL PRIVILEGES&#xff08;权限&#xff09;GRANT语法LIMIT SELECT * FROM COMPANY LIMIT 3 OFFSET 2;WITH 和RECURSIVE WITH RECURSIVE t(a,b) AS (VALUES (…...

buu [UTCTF2020]basic-crypto 1

题目描述&#xff1a; 01010101 01101000 00101101 01101111 01101000 00101100 00100000 01101100 01101111 01101111 01101011 01110011 00100000 01101100 01101001 01101011 01100101 00100000 01110111 01100101 00100000 01101000 01100001 01110110 01100101 00100000 0…...

火山引擎数智平台的这款产品,正在帮助 APP 提升用户活跃度

更多技术交流、求职机会&#xff0c;欢迎关注字节跳动数据平台微信公众号&#xff0c;回复【1】进入官方交流群 你有没有关注过 APP 给你推送的消息&#xff1f; 出于提升用户活跃度的考虑&#xff0c;APP 会定期在应用内面向用户进行内通推送&#xff0c;推送形式既包括 APP …...

记录每日LeetCode 2341.数组能形成多少数对 Java实现

题目描述&#xff1a; 给你一个下标从 0 开始的整数数组 nums 。在一步操作中&#xff0c;你可以执行以下步骤&#xff1a; 从 nums 选出 两个 相等的 整数从 nums 中移除这两个整数&#xff0c;形成一个 数对 请你在 nums 上多次执行此操作直到无法继续执行。 返回一个下标…...

Ant Design Chart词云图

什么是词云图&#xff1f;词云图&#xff0c;也叫文字云&#xff0c;是对网络文本中出现频率较高的“关键词”予以视觉上的突出&#xff0c;出现越多&#xff0c;显示的字体越大&#xff0c;越突出&#xff0c;这个关键词也就越重要。让浏览者通过词云图一眼就可以快速感知最突…...

mysql索引

索引 mysql索引&#xff1a; 在MySQL中&#xff0c;索引是存储引擎实现的&#xff0c;所以没有统一的索引标准&#xff0c;不同存储引擎的索引工作方式也不一样&#xff0c;也不是所有的存储引擎都支持所有类型的索引即使是多个存储引擎都支持同一种类型的索引&#xff0c;他…...

Java中怎样将数据对象序列化和反序列化?

程序在运行过程中&#xff0c;可能需要将一些数据永久地保存到磁盘上&#xff0c;而数据在Java中都是保存在对象当中的。那么我们要怎样将对象中的数据保存到磁盘上呢?这时就需要使用Java中的对象序列化。对象的序列化(Serializable)是指将一个Java对象转换成一个I/O流中字节序…...

ffmpeg filter的理解

ffmpeg filter的理解 filter的简介 从整体看&#xff0c;filte rgraph包含filter chain&#xff0c;而filter chain又包含了filter&#xff0c;所以可以分为是三个层次去理解。 filterfilter chainfilter graph filter graph是链接多个filter的有向图。它可以包含循环&#…...

炔活化的生物素化试剂773888-45-2,Alkyne-Biotin,炔基生物素

【产品描述】炔活化的生物素化试剂&#xff0c;可通过铜催化的点击反应与叠氮化物反应&#xff0c;产生稳定的三唑键&#xff0c;生物素炔烃在结构上与生物素炔烃相同。用于通过点击化学制备各种生物素化共轭物的生物素炔烃。Alkyne activated biotinylation reagents can prod…...

了解僵尸网络攻击:什么是僵尸网络,它如何传播恶意软件以及如何保护自己?

进行系统安全安排的专业人员非常了解“僵尸网络”一词。通常用于被劫持的计算机/系统链&#xff0c;如果指示恢复性和健壮的系统&#xff0c;则应很好地理解“僵尸网络”一词&#xff0c;因为它们的错误使用会导致巨大的混乱。 文章目录前言一、僵尸网络定义僵尸网络如何工作&a…...

大学生博主-14天学习挑战赛活动-CSDN

还在为写文没有流量发愁吗&#xff1f;还沉浸在假期中无法恢复状态吗&#xff1f;赶快来参与面向CSDN的大学生博主而举办的活动吧&#xff01;本次活动为了避免刷量行为&#xff0c;也为了保持公平性&#xff0c;能够选出最优秀的文章&#xff0c;特意邀请了五位在C站具有一定影…...

如何自学芯片设计?

众所周知&#xff0c;芯片设计自学还是比较困难的&#xff0c;更不存在速成的。这里简单说一下学习的规划。 学会相应的知识 无论是科班毕业&#xff0c;还是理工科专业&#xff0c;想要入行IC&#xff0c;那就一定要具备相关的基础知识。尤其是在学校里&#xff0c;学习的很…...

通过中断控制KUKA机器人暂停与再启动的具体方法示例

通过中断控制KUKA机器人暂停与再启动的具体方法示例 中断程序的基本介绍:  当出现例如输入信号变化等事先定义的事件时,机器人控制器中断当前程序,并处理一个已定义好的子程序  由中断而调用的子程序称为中断程序  最多允许同时声明32个中断  同一时间最多允许有16个…...

pandas基本操作

df.head()/tail() 查看头/尾5条数据&#xff1b;df.info 查看表格简明概要&#xff1b;df.dtypes 查看字段数据类型&#xff1b;df.index 查看表格索引&#xff1b;df.columns 查看表格列名&#xff1b;df.values 以array形式返回指定数据的取值&#xff1b;list(dt.groupby(&q…...

论文笔记NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

NeRF使用神经网络来表示场景。给定一个场景&#xff0c;输入该场景稀疏的视角图片&#xff0c;NeRF可以合成该场景新的视角的图片。 神经辐射场 神经辐射场&#xff08;neural radiance field&#xff0c;NeRF&#xff09;使用5D的向量值函数表示一个场景。 输入是连续的5D坐…...

花3个月面过京东测开岗,拿个20K不过分吧?

背景介绍 计算机专业&#xff0c;代码能力一般&#xff0c;之前有过两段实习以及一个学校项目经历。第一份实习是大二暑期在深圳的一家互联网公司做前端开发&#xff0c;第二份实习由于大三暑假回国的时间比较短&#xff08;小于两个月&#xff09;&#xff0c;于是找的实习是在…...

Leetcode DAY 35:柠檬水找零and根据身高重建队列 and用最少数量的箭引爆气球

860.柠檬水找零 class Solution { public:bool lemonadeChange(vector<int>& bills) {int five 0;int ten 0;for(int i 0; i < bills.size(); i) {if(bills[i] 5) {five;} else if(bills[i] 10) {ten;five--;if(five < 0){return false;}} else {if(ten …...

java-spring_bean实例化

bean是如何创建的实例化bean的三种方式构造方法静态工厂&#xff08;了解&#xff09;实例工厂与FactoryBean实例工厂FactoryBeanbean是如何创建的实例化bean的三种方式 构造方法 bean本质上就是对象&#xff0c;创建bean使用构造方法完成 提供可访问的构造方法 public clas…...

wordpress个性/一般开车用什么导航最好

本文是对《【硬刚大数据之学习路线篇】从零到大数据专家的学习指南(全面升级版)》的ES部分补充。...

第三方做公司网站/2345网址导航电脑版

sessionid, uuid 2个字段上都有索引&#xff0c;但是查询条件 (sessionidxxx or uuidyyy) 不能使用索引 > 拆成2个sql sessionidxxx, uuidyyy 将查询出来的结果合并 /*** param array $a* param array $b* param callable|NULL $compare* return array*/private function…...

网站搭建完手机访问/竞价代运营外包公司

目前 Servlet2.4和JSP2.0常用的有7个监听器接口&#xff0c;分为3类&#xff1a;1. Servlet上下文进行监听(Application级)&#xff1a;用于监听 ServletContext 对象的创建和删除以及属性的添加、删除和修改等操作,该监听器需要用到如下两个接口类:(1) ServletContextAttribut…...

想开发一个旧物交易网站应该怎么做/万能bt搜索引擎

0. 前言是什么原因不敢上MySQL MGR&#xff1f;1. 什么是MySQL MGR当我在群里说起MySQL MGR时&#xff0c;的确还有人不知道这是啥东东。有群友打趣&#xff0c;说这是&#xff1a;美国人卖狗肉蒙古人我只能说&#xff0c;你们真的都是天才。言归正传。MySQL MGR是MySQL组复制&…...

网站底部分享怎么做/建站公司网站源码

1. 父页面获取子页面对象 $("#id_iframe").contents().find("#id_button_test"); 2. 子页面获取父页面对象 var $iframe $(".parentId", parent.document);//对应的javascript版本为:var iframe window.parent.document.getElementById("…...

wordpress播放m3u8/网站建设图片

一&#xff1a;表单元素使用easyui时&#xff0c;textbox和validatebox设置值和获取值的方式不一样【转】 1.为text-box设置值只能使用id选择器选择表单元素&#xff0c;只能使用textbox("setValue", value) 方式设置值&#xff0c;使用textbox("getValue"…...