当前位置: 首页 > news >正文

研究论文 2022-Oncoimmunology:AI+癌RNA-seq数据 识别细胞景观

Wang, Xin, et al. "Deep learning using bulk RNA-seq data expands cell landscape identification in tumor microenvironment." Oncoimmunology 11.1 (2022): 2043662. https://www.tandfonline.com/doi/full/10.1080/2162402X.2022.2043662

被引次数:5

2022年分区:大类医学2区;小类免疫学2区,肿瘤学 3区

IF 7.723 JCR Q1

一、数据集

从GDC数据库(https://portal.gdc.cancer.gov/projects)下载32种“癌症样本和正常样本”,共有10906患者的表达谱和临床数据。

非小细胞肺癌数据的两种亚型:肺腺癌(LUAD)和肺鳞状细胞癌(LUSC)

从GEO数据集(https://www.ncbi.nlm.nih.gov/geo/)下载5个数据集:

  • GSE81861(CRC):11例结直肠癌患者的样本,包含7种细胞类型。引用文献32

  • GSE75688(BC):11个乳腺癌细胞和淋巴结转移的单细胞测序数据。引用文献33。包括515个单细胞RNA测序数据,使用Illumina HiSeq 2500进行测序。基因表达水平以TPM(每百万转录本)表示,已经进行了标准化,可以在下一步的分析中进行比较。

  • GSE86146(FGC):2167个个体生殖细胞及其生殖腔细胞,涵盖了从怀孕后4周到26周的女性和男性人类胚胎的发育阶段。引用文献21。

  • GSE72056(Melanoma):31个黑色素瘤样本及其6种细胞类型。引用文献34。

  • GSE78220(PD1):38个黑色素瘤活检样本在抗PD-1治疗之前的转录组样本和相应的临床数据。引用文献35。

  • 细胞类型及其对应的标记基因来自CellMarker数据库(http://bio-bigdata.hrbmu.edu.cn/CellMarker/)。

CellMarker数据预处理

从CellMarker数据库中下载了来自158个人类组织中的467种细胞类型的13,605个标记基因。

数据处理如下:由于一些细胞及其标记基因在不同人类组织中重复出现,我们删除了组织特异性的重复,仅保留一个细胞及其标记基因作为重复组的代表。为了DCNet模型的训练目的,删除了在TCGA基因集中未检测到的标记基因[详见TCGA数据预处理],然后排除了33个细胞类型,因为未检测到任何标记基因。最终,保留了434个细胞类型,包括免疫细胞、癌细胞、基质细胞等,以及它们对应的9078个标记基因,用于进一步的分析。通过整合CellMarker数据库(http://biocc.hrbmu.edu.cn/CellMarker/)和Cell Ontology数据库(OBO:http://www.obofoundry.org/ontology/cl.html)中的类别信息,计算了主要细胞类型的细胞丰度。在DCNet识别的434个细胞类型中,有77个细胞类型没有Cell Ontology ID,137个细胞类型没有自己的Cell Ontology ID,但被分配到其父类的术语ID,220个细胞类型在OBO数据库中有自己的Cell Ontology ID。对于没有Cell Ontology ID或仅有其父类Cell Ontology ID的细胞类型,从CellMarker数据库中获取了细胞类型之间的层次关系信息。对于具有自己Cell Ontology ID的细胞类型,从Cell OBO数据库中下载了细胞类型之间的本体结构信息。整合这些信息,创建了附表1,其中包含了父细胞类型和子细胞类型的名称、细胞本体ID的父细胞类型和子细胞类型、数据源数据库(CellMarker或OBO)。

对于CellMarker数据库,父细胞类型的细胞丰度是通过累加其子细胞类型的细胞丰度计算的;而对于OBO数据库,父细胞类型的细胞丰度是通过累加其在细胞本体结构中的叶节点的细胞丰度计算的。

TCGA的表达谱数据预处理

对于TCGA的表达谱数据,删除了在超过1/3的样本中表达水平为0的基因,保留了21,136个基因,并进行了对数归一化。我们将每个样本的基因表达分为输入数据(9078个标记基因的表达水平)和输出数据(21,136个基因的表达水平)。由于癌症样本分布不均匀,我们采用了过采样方法来扩大样本数量,同时平衡样本类别。此外,在实验测量过程中,由于某些基因的低表达强度或实验误差,可能无法检测到一些基因,这将导致模型的输入维度与标记基因维度不匹配。为解决这个问题,输入数据以0.1、0.3、0.5的概率被随机删除(0填充),这不仅可以增加训练样本,还可以降低过拟合的风险。最后,所有样本按80%和20%的比例划分为训练集和测试集。

我们还使用TCGA biolink 软件包从TCGA队列中获取了1487名肿瘤转移患者的临床数据和药物治疗信息。如果接受某种药物治疗的患者数量小于48,则该药物的信息将被截断。

二、DCNet神经网络构建与训练

DCNet model trains a deep neural network, which embeds the relationships between cells and their marker genes, to predict more than 400 cell types proportion within bulk seq dataset. 

DCNet 模型训练深度神经网络,该网络嵌入细胞及其标记基因之间的关系,以预测批量 seq 数据集中 400 多种细胞类型的比例。

图1. DCNet架构和设计流程。 (a) 组织中不同的细胞类型,如基质细胞、红细胞、巨噬细胞、T细胞、B细胞、神经元细胞等。这些细胞又可进一步分割不同的细胞(b) DCNet模型的基本结构。输入是bulk RNA-seq中标记基因的表达水平,输出是所有基因的表达水平。中间层人工神经网络。(c) 神经灰色DCNet模型的第一级关系是细胞与标记基因的对应关系。DCNet模型的中间层代表细胞的相对内容。 显示全尺寸

三、比较

不同参数量下的NN比较(类似敏感性分析)

与其他方法比较:CIBERSORTx、EPIC、MCP-Counter、quanTIseq、xCell(默认参数,代码链接见正文,同时R包immunoconv包含了这些方法可用来预测细胞丰度)

四、模型训练

相关文章:

研究论文 2022-Oncoimmunology:AI+癌RNA-seq数据 识别细胞景观

Wang, Xin, et al. "Deep learning using bulk RNA-seq data expands cell landscape identification in tumor microenvironment." Oncoimmunology 11.1 (2022): 2043662. https://www.tandfonline.com/doi/full/10.1080/2162402X.2022.2043662 被引次数&#xff1…...

ChatGPT4与ArcGIS Pro3助力AI 地理空间分析和可视化及助力科研论文写作

在地学领域,ArcGIS几乎成为了每位科研工作者作图、数据分析的必备工具,而ArcGIS Pro3除了良好地继承了ArcMap强大的数据管理、制图、空间分析等能力,还具有二三维融合、大数据、矢量切片制作及发布、任务工作流、时空立方体等特色功能&#x…...

okhttp系列-一些上限值

1.正在执行的任务数量最大值是64 异步请求放入readyAsyncCalls后,遍历readyAsyncCalls取出任务去执行的时候,如果发现runningAsyncCalls的数量大于等于64,就不从readyAsyncCalls取出任务执行。 public final class Dispatcher {private int …...

C++面向对象(OOP)编程-STL详解(vector)

本文主要介绍STL六大组件,并主要介绍一些容器的使用。 目录 1 泛型编程 2 CSTL 3 STL 六大组件 4 容器 4.1 顺序性容器 4.1.1 顺序性容器的使用场景 4.2 关联式容器 4.2.1 关联式容器的使用场景 4.3 容器适配器 4.3.1 容器适配器的使用场景 5 具体容器的…...

postman几种常见的请求方式

1、get请求直接拼URL形式 对于http接口,有get和post两种请求方式,当接口说明中未明确post中入参必须是json串时,均可用url方式请求 参数既可以写到URL中,也可写到参数列表中,都一样,请求时候都是拼URL 2&am…...

openai最新探索:超级对齐是否可行?

前言 今天来介绍一篇openai最新的paper:弱到强的对齐。 openai专门成立了一个团队来做大模型的超级对齐即superhuman model,之前chatgpt取得成功依赖RLHF即依赖人类反馈,但是作者期望的superhuman model将会是一个能够处理各种复杂问题的强…...

本地websocket服务端结合cpolar内网穿透实现公网访问

文章目录 1. Java 服务端demo环境2. 在pom文件引入第三包封装的netty框架maven坐标3. 创建服务端,以接口模式调用,方便外部调用4. 启动服务,出现以下信息表示启动成功,暴露端口默认99995. 创建隧道映射内网端口6. 查看状态->在线隧道,复制所创建隧道的公网地址加端口号7. 以…...

关于“Python”的核心知识点整理大全37

目录 13.6.2 响应外星人和飞船碰撞 game_stats.py settings.py alien_invasion.py game_functions.py ship.py 注意 13.6.3 有外星人到达屏幕底端 game_functions.py 13.6.4 游戏结束 game_stats.py game_functions.py 13.7 确定应运行游戏的哪些部分 alien_inva…...

Vivado中的FFT IP核使用(含代码)

本文介绍了Vidado中FFT IP核的使用,具体内容为:调用IP核>>配置界面介绍>>IP核端口介绍>>MATLAB生成测试数据>>测试verilogHDL>>TestBench仿真>>结果验证>>FFT运算。 1、调用IP核 该IP核对应手册pg109_xfft.pd…...

​创新驱动,边缘计算领袖:亚马逊云科技海外服务器服务再进化

2022年亚马逊云科技re:Invent盛会于近日在拉斯维加斯成功召开,吸引了众多业界精英和创新者。亚马逊云科技边缘服务副总裁Jan Hofmeyr在演讲中分享了关于亚马逊云科技海外服务器边缘计算的最新发展和创新成果,引发与会者热烈关注。 re:Invent的核心主题是…...

什么是“人机协同”机器学习?

“人机协同”(HITL)是人工智能的一个分支,它同时利用人类智能和机器智能来创建机器学习模型。在传统的“人机协同”方法中,人们会参与一个良性循环,在其中训练、调整和测试特定算法。通常,它的工作方式如下…...

数学建模笔记-拟合算法

内容:拟合算法 一.概念: 拟合的结果就是找到一个确定的曲线 二.最小二乘法: 1. 2.最小二乘法的二表示的是平方的那个2 3.求解最小二乘法: 三.评价拟合的好坏 1.总体评分和SST: 2.误差平方和SSE: 3.回…...

非线性约束的优化问题_序列二次规划算法代码

1. 理论部分 2. 序列二次规划算法代码及解析 3.完整代码 1.理论部分 a.约束优化问题的极值条件 库恩塔克条件(Kuhn-Tucker conditions,KT条件)是确定某点为极值点的必要条件。如果所讨论的规划是凸规划,那么库恩-塔克条件也是充分条件。 &#xff…...

【数据结构之顺序表】

数据结构学习笔记---002 数据结构之顺序表1、介绍线性表1.1、什么是线性表? 2、什么是顺序表?2.1、概念及结构2.2、顺序表的分类 3、顺序表接口的实现3.1、顺序表动态存储结构的Seqlist.h3.1.1、定义顺序表的动态存储结构3.1.2、声明顺序表各个接口的函数 3.2、顺序表动态存储…...

junit-mock-dubbo

dubbo单元测试分两种情况 Autowired注解是启动上下文环境,使用上下文对象进行测试,适合调试代码 InjectMocks注解是启动上下文环境,使用mock对象替换上下文对象,适合单元测试 BaseTest *** Created by Luohh on 2023/2/10*/ S…...

json解析之fastjson和jackson使用对比

前言 最近项目中需要做埋点分析,首先就需要对埋点日志进行解析处理,刚好这时候体验对比了下fastjson和jackson两者使用的区别,以下分别是针对同一个json串处理,最终的效果都是将json数据解析出来,并统一展示。 一、fa…...

设计模式之-模板方法模式,通俗易懂快速理解,以及模板方法模式的使用场景

系列文章目录 设计模式之-6大设计原则简单易懂的理解以及它们的适用场景和代码示列 设计模式之-单列设计模式,5种单例设计模式使用场景以及它们的优缺点 设计模式之-3种常见的工厂模式简单工厂模式、工厂方法模式和抽象工厂模式,每一种模式的概念、使用…...

微软官方出品:GPT大模型编排工具,支持C#、Python等多个语言版本

随着ChatGPT的火热,基于大模型开发应用已经成为新的风口。虽然目前的大型模型已经具备相当高的智能水平,但它们仍然无法完全实现业务流程的自动化,从而达到用户的目标。 微软官方开源的Semantic Kernel的AI编排工具,就可以很好的…...

docker安装的php 在cli中使用

1: 修改 ~/.bashrc 中新增 php7 () {ttytty -s && tty--ttydocker run \$tty \--interactive \--rm \--volume /website:/website:rw \--workdir /website/project \--networkdnmp_dnmp \dnmp_php php "$" }–networkdnmp_dnmp 重要, 不然连不上数据库, 可通…...

tcp vegas 为什么好

我吹捧 bbr 时曾论证过它在和 buffer 拧巴的时候表现如何优秀,但这一次说 vegas 时,我说的是从拥塞控制这个问题本身看来,vegas 为什么好,并且正确。 接着昨天 tcp vegas 鉴赏 继续扯。 假设一群共享带宽的流量中有流量退出或有…...

【设计模式】命令模式

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、什么是命令模式? 二、命令模式的优点和应用场景 三、命令模式的要素和实现 3.1 命令 3.2 具体命令 3.3 接受者 …...

Unity头发飘动效果

Unity头发飘动 介绍动作做头发飘动头发骨骼绑定模拟物理组件 UnityChan插件下载UnityChan具体用法确定人物是否绑定好骨骼节点(要做的部位比如头发等)给人物添加SpringManager骨骼管理器给骨骼节点添加SpringBone这里给每个头发骨骼都添加上SpringBone。…...

【MIKE】MIKE河网编辑器操作说明

目录 MIKE河网编辑器说明河网定义河网编辑工具栏河网文件(.nwk11)输入步骤1. 从传统的地图引入底图1.1 底图准备1.2 引入河网底图1.3 输入各河段信息2. 从ARCView .shp文件引入底图MIKE河网编辑器说明 河网编辑器主要功能有两个: ①河网的编辑和参数输人,包括数字化河网及…...

RIPV1配置实验

查看路由器路由表: 删除手工配置的静态路由项: Route1->Config->static Remove删除路由项 删除Route3的路由项,方法同上删除Route2的路由项,方法同上 完成路由器RIP配置: Route1->Config->RIP->Ne…...

快速实现农业机械设备远程监控

农业机械设备远程监控解决方案 一、项目背景 近年来,农业生产事故时有发生,农业安全问题已经成为农业生产中的关键问题,农业监控系统在农业安全生产中发挥着重要作用。农业机械设备以计划维修或定期保养为主,在日常应用的过程中因…...

解决用Fiddler抓包,网页显示你的连接不是专用/私密连接

关键:重置fiddler的证书 在Fiddler重置证书 1、Actions --> Reset All Certificates --> 弹窗一路yes 2、关掉Fiddler,重新打开 3、手机删掉证书,重新下载安装。 (如果还不行,重新试一遍,先把浏览器…...

单片机原理及应用:流水灯的点亮

流水灯是一种简单的单片机控制电路&#xff0c;由许多LED组成&#xff0c;电路工作时LED会按顺序点亮&#xff0c;类似于流水的效果。 下面是运行在keil上的代码&#xff0c;分别使用了数组&#xff0c;移位符和库函数来表示。 //数组法 #include <reg52.h> //头文…...

蓝桥杯宝藏排序算法(冒泡、选择、插入)

冒泡排序: def bubble_sort(li): # 函数方式for i in range(len(li)-1):exchangeFalsefor j in range(len(li)-i-1):if li[j]>li[j1]:li[j],li[j1]li[j1],li[j]exchangeTrueif not exchange:return 选择排序: 从左往右找到最小的元素&#xff0c;放在起始位置…...

使用@jiaminghi/data-view实现一个数据大屏

<template><div class"content bg"><!-- 全局容器 --><!-- <dv-full-screen-container> --><!-- 第二行 --><div class"module-box" style"align-items: start; margin-top: 10px"><!-- 左 -->…...

神经网络:池化层知识点

1.CNN中池化的作用 池化层的作用是对感受野内的特征进行选择&#xff0c;提取区域内最具代表性的特征&#xff0c;能够有效地减少输出特征数量&#xff0c;进而减少模型参数量。按操作类型通常分为最大池化(Max Pooling)、平均池化(Average Pooling)和求和池化(Sum Pooling)&a…...

如何查看 网站诊断/百度搜索关键词怎么刷上去

01 熟悉TCP/UDP网络协议及相关编程、进程间通讯编程&#xff1b; 02 了解NoSQL&#xff0c;key_value存储原理。 03 了解分布式系统设计与开发、负载均衡技术&#xff0c;系统容灾设计&#xff0c;高可用系统等知识。 具备一定架构能力&#xff0c;熟悉数据&#xff0c;有大容…...

wordpress做门户网站/西安百度推广运营公司

本文原创&#xff0c;版权属作者个人所有&#xff0c;如需转载请联系作者本人。Q&微&#xff1a;155122733 -------------------------------------------------------------------------------------------------------- 使用步骤&#xff1a;1、把该脚本放到想要生成pyc的…...

商业活动的网站建设/自己怎么免费做网站

阿酷TONY / 2022-11-18 / 长沙 MR场景直播、MR培训场景和内容呈现以及直播互动功能&#xff0c;帮助企业高效开展员工培训&#xff0c;让整个培训过程更高效~~~ MR场景直播有哪些有意思的地方呢&#xff1f;先来一个图&#xff1a; ▲ 模拟真实光照还原现实景 丰富培训场景&a…...

深圳做营销型网站/宁波seo网络推广公司排名

1、从仿真角度来说&#xff0c;HDL语言面对的是编译器&#xff0c;相当于使用软件思路&#xff0c;此时&#xff1a;wire对应于连续赋值&#xff0c;如assign&#xff1b;reg对应于过程赋值&#xff0c;如always&#xff0c;initial&#xff1b;2、从综合角度&#xff0c;HDL语…...

做的网站在百度上搜不出来的/百度网址大全下载安装

展开全部唔&#xff0c;你也没写具体问题…… 给你个python的字符串处理汇总吧。strpython String function生成字符串变量strpython String function字符串长度32313133353236313431303231363533e4b893e5b19e31333361316132获取&#xff1a;len(str)例&#xff1a;print %s le…...

wordpress bootsharp/网上培训

HAProxy 的压缩、健康检查和其它相关参数详解1、拓扑2、相关博客3、compression3.1 HTTPD 服务器添加比较大的 HTML 文件3.2 进行 index1.html 访问3.3 HAProxy cfg 文件进行压缩相关配置3.4 此时再进行 index1.html 访问&#xff0c;发现压缩配置生效4、http-check4.1 HAProxy…...