单细胞数据整合-去除批次效应harmony和CCA (学习)
目录
单细胞批次效应学习
定义
理解
常用的去批次方法-基于Seurat
1) Seurat-integration(CCA)
2) Seurat-harmony
去批次代码
①Seurat-integration(CCA)
②Seurat-harmony
单细胞批次效应学习
定义
在单细胞RNA测序(scRNA-seq)数据分析中,去除批次效应是至关重要的步骤,因为技术噪声和批次效应可能掩盖真正的生物学差异。批次效应来源于实验过程中的多种因素,如不同的实验批次、实验人员、仪器或实验条件的变化等。这些效应可能导致数据不一致性、增加噪声、降低实验的灵敏度和准确性,以及降低可重复性。
scRNA-seq实验成本的降低鼓励建立大型项目,如人类细胞图谱,这些项目对数千至数百万个细胞的转录组进行分析。对于如此大规模的研究,物流限制不可避免地要求数据单独生成,即在不同的时间和不同的操作员生成。数据也可以在多个实验室中使用不同的细胞解离和处理方案、文库制备技术和/或测序平台生成。所有这些因素都会导致批量效应,其中一个批次中的基因表达与另一个批次中的基因表达存在系统性差异。这种差异可能会掩盖潜在的生物学特征,或在数据中引入虚假结构;因此,为了避免产生误导性的结论,在进一步分析之前必须纠正它们。
批次校正-单细胞转录组分析批次效应的校正scRNA-02_scrna 去批次效应-CSDN博客
理解
描述不同的特征:
同学A [身高:180,体重:50,肤色:白色...]
同学B [身高:170,体重:55,肤色:黄色...]
同学C [身高:175,体重:60,肤色:白色...]
同学D [身高:165,体重:50,肤色:黑色...]
单细胞转录组分析来说,同一类细胞其基因表达具有相似性。
#'单细胞转录组的counts矩阵细胞A 细胞B 细胞C 细胞D
基因1 0 1 1 0
基因2 1 0 0 1
基因3 1 1 0 0
...
聚类:根据每个细胞的所有基因表达情况对细胞进行基因表达模式的分析,将相似的基因表达模式的细胞聚类在一起。
批次效应:批次效应,就是因为每个批次的实验方法等不同造成同一个类型的细胞的某些(非细胞类型的关键基因)基因表达量存在较大的差异,使得在聚类可视化的时候,明明是同一个类型的细胞,却因为批次没有聚在一起。
图红框中的细胞,根据细胞类型注释它们都是CD14+细胞,然而在最左边的可视化图中,却因为batch不同形成了分群。
样本的批次无法消除,要数据量多就需要尽可能使用不同实验室、不同机构测出来的数据。去除批次效应,只能通过各种算法,重新计算细胞之间的相似度(根据细胞类型的关键基因),将同一个类型的细胞的基因表达量校正回来。例如在肿瘤分析中,尽量减少不同病人之间同一细胞类型的误差。
常用的去批次方法-基于Seurat
关于去除多组数据中的批次效应,有多种算法,如Seurat包的CCA(canonical correlation analysis)、LIGER的NMF(non-negative matrix factorization)、Scran包的mnnCorrect、Seurat包的sctransform
1) Seurat-integration(CCA)
Seurat-integration是Seurat包带有的单细胞批次效应处理方法;函数:FindIntegrationAnchors
Seurat-integration方法为CCA(Canonical Correlation Analysis)分析,其原理为MNN算法。
单细胞笔记7-scRNA-seq去除批次效应的方法总结 - 简书 (jianshu.com)
源于江湾青年
-
使用CCA分析将两个数据集降维到同一个低维空间,因为CCA降维之后的空间距离不是相似性而是相关性,所以相同类型与状态的细胞可以克服技术偏倚重叠在一起。
-
CCA降维之后细胞在低维空间有了可以度量的“距离”,MNN(mutual nearest neighbor)算法以此找到两个数据集之间互相“距离”最近的细胞,Seurat将这些相互最近邻细胞称为“锚点细胞”。我们用两个数据集A和B来说明锚点,假设:
- A样本中的细胞A3与B样本中距离最近的细胞有3个(B1,B2,B3)
- B样本中的细胞B1与A样本中距离最近的细胞有4个(A1,A2,A3,A4)
- B样本中的细胞B2与A样本中距离最近的细胞有2个(A5,A6)
- B样本中的细胞B3与A样本中距离最近的细胞有3个(A1,A2,A7)
从图中可以看出,A3与B1是“相互“最近邻的细胞(双箭头),而A3与B2、B3不是相互最近邻细胞,A3+B1就是A、B两个数据集中的锚点之一。实际数据中,两个数据集之间的锚点可能有几百上千个。
-
理想情况下,相同类型和状态的细胞才能构成配对锚点细胞,但是异常的情况也会出现,如C图中query数据集中黑色的细胞团。它在reference数据集没有相同类型的细胞,但是它也找到了锚点配对细胞(红色连线)。Seurat会通过两步过滤这些不正确的锚点:
- 在CCA低维空间找到的锚点,返回到基因表达数据构建的高维空间中验证,如果它们的转录特征相似性高则保留,否则过滤此锚点。
- 检查锚点细胞所在数据集最邻近的30个细胞,查看它们重叠的锚点配对细胞的数量,重叠越多分值越高,代表锚点可靠性更高。
-
经过层层过滤剩下的锚点细胞对,可以认为它们是相同类型和状态的细胞,它们之间的基因表达差异是技术偏倚引起的。Seurat计算它们的差异向量,然后用此向量校正这个锚点锚定的细胞子集的基因表达值。校正后的基因表达值即消除了技术偏倚,实现了两个单细胞数据集的整合。
Tutorial:https://satijalab.org/seurat/articles/integration_mapping.html
Paper:https://www.cell.com/cell/fulltext/S0092-8674(19)30559-8
2) Seurat-harmony
如何使用Harmony整合单细胞数据_哔哩哔哩_bilibili
Harmony原理
- Harmony需要输入低维空间的坐标值(embedding),一般使用PCA的降维结果。Harmony导入PCA的降维数据后,会采用soft k-means clustering算法将细胞聚类。常用的聚类算法仅考虑细胞在低维空间的距离,但是soft clustering算法会考虑我们提供的校正因素。
- 例如,细胞c2距离cluster1有点远,本来不能算作cluster1的一份子;但是c2和cluster1的细胞来自不同的数据集,因为我们期望不同的数据集融合,所以破例让它加入cluster1了。
- 聚类之后,先计算每个cluster内各个数据集的细胞的中心点,然后根据这些中心点计算各个cluster的中心点。最后通过算法让cluster内的细胞向中心聚集,实在收敛不了的离群细胞就过滤掉。调整之后的数据重复:聚类—计算cluster中心点—收敛细胞—聚类的过程,不断迭代直至聚类效果趋于稳定。
Tutorial:http://htmlpreview.github.io/?https://github.com/immunogenomics/harmony/blob/master/docs/SeuratV3.html
Paper:https://www.nature.com/articles/s41592-019-0619-0
去批次代码
①Seurat-integration(CCA)
library(Seurat)
sc<-"" #'Seurat对象
split.by<-"" #'需要去除批次的批次标签名字
method<-"" #'标准化的方法 log或者sct或者harmony
nfeatures<-3500 #'高变基因保留的数目,默认3500
dims<-30 #'降维的维度
resolution<-0.5 #'聚类分辨率
sc.list<-SplitObject(sc, split.by = split.by)
if (method == "log") {sc.list = lapply(sc.list, function(x) {x = NormalizeData(x) %>% FindVariableFeatures(nfeatures = nfeatures) %>% ScaleData()return(x)})sc.anchors <- FindIntegrationAnchors(object.list = sc.list, dims = 1:30)sc.combined <- IntegrateData(anchorset = sc.anchors, dims = 1:30)DefaultAssay(sc.combined) <- "integrated"sc.combined <- sc.combined %>% ScaleData() %>% RunPCA() %>% FindNeighbors(dims = 1:dims) %>% RunUMAP(dims = 1:dims) %>% FindClusters(resolution = resolution)data <- sc.combined
}
pdf("umap_seurat_clusters.pdf",height=7,width=10)
DimPlot(data,reduction = "umap",group.by="seurat_clusters")
dev.off()
pdf("umap_groups.pdf",height=7,width=10)
DimPlot(data,reduction = "umap",group.by="groups")
dev.off()
pdf("umap_samples.pdf",height=7,width=10)
DimPlot(data,reduction = "umap",group.by="orig.ident")
dev.off()
#'data就是去除批次后的数据
Tutorial:https://satijalab.org/seurat/articles/integration_mapping.html
②Seurat-harmony
library(Seurat)
library(harmony)
sc<-"" #'Seurat对象
split.by<-"" #'需要去除批次的批次标签名字
method<-"" #'标准化的方法 log或者sct或者harmony
nfeatures<-3500 #'高变基因保留的数目,默认3500
dims<-30 #'降维的维度
resolution<-0.5 #'聚类分辨率
sc.list<-SplitObject(sc, split.by = split.by)
if(method=="harmony"){sc <- NormalizeData(sc, normalization.method = "LogNormalize", scale.factor = 10000)sc <- FindVariableFeatures(sc, selection.method = "vst", nfeatures = nfeatures)all.genes <- rownames(sc) #'ScaleData使用的基因,否则后面可能报错sc <- ScaleData(sc , features = all.genes, vars.to.regress = "nCount_RNA")sc <- RunPCA(sc, features = VariableFeatures(object = sc))sc <- RunHarmony(sc, split.by , plot_convergence = F,dims.use = 1:dims)sc.combine <- scsc.combine = RunTSNE(sc.combine, reduction = "harmony", dims = 1:dims)sc.combine = RunUMAP(sc.combine, reduction = "harmony", dims = 1:dims)sc.combine = FindNeighbors(sc.combine, reduction = "harmony",dims = 1:dims)sc.combine = FindClusters(sc.combine, resolution = resolution)data<-sc.combine
}
Tutorial:http://htmlpreview.github.io/?https://github.com/immunogenomics/harmony/blob/master/docs/SeuratV3.html
参考:
1,批次校正-单细胞转录组分析批次效应的校正scRNA-02_scrna 去批次效应-CSDN博客
2,单细胞笔记7-scRNA-seq去除批次效应的方法总结 - 简书 (jianshu.com)
3,如何使用Harmony整合单细胞数据_哔哩哔哩_bilibili
4,SCS【23】单细胞转录组之数据整合 (Harmony)-CSDN博客
相关文章:
单细胞数据整合-去除批次效应harmony和CCA (学习)
目录 单细胞批次效应学习 定义 理解 常用的去批次方法-基于Seurat 1) Seurat-integration(CCA) 2) Seurat-harmony 去批次代码 ①Seurat-integration(CCA) ②Seurat-harmony 单细胞批次效应学习 …...
MuRF代码阅读
对图像Size的处理, 以适应Transformer 在MVSPlat 当中使用 Center_Crop 裁剪图像,适用于 Transformer 的32 倍数, 其中 焦距 f 不变化,只改变 cx,cy.MuRF 直接对图像进行 插值,合成理想的 size. 根据 ori_size 和 inference_size…...
pycharm无法导入pyside2模块;“ModuleNotFoundError: No module named ‘PySide2“
参考博客: 1)pycharm中配置pyqt designer和pyside2【功能是在pycharm中可以打开designer,并且可以把.ui文件转换为.py文件】 https://blog.csdn.net/kuntliu/article/details/117219237 2).ui转化为.py后,点击运行,报错…...
c语言指针中“数组名的理解”以及“一维数组传参”的本质
数组名的理解 数组名就是数组首元素的地址。 例如:输入一个数组的所有元素,再打印出来。 另一种写法 以上可以看出:*arri) arr[i] 也即是:*(iarr)i[arr] 本质上无区别 1:数组就是数组,是一块…...
计算机毕业设计Python+Flask微博舆情分析 微博情感分析 微博爬虫 微博大数据 舆情监控系统 大数据毕业设计 NLP文本分类 机器学习 深度学习 AI
基于Python/flask的微博舆情数据分析可视化系统 python爬虫数据分析可视化项目 编程语言:python 涉及技术:flask mysql echarts SnowNlP情感分析 文本分析 系统设计的功能: ①用户注册登录 ②微博数据描述性统计、热词统计、舆情统计 ③微博数…...
KubeBlocks v0.9 解读|最高可管理 10K 实例的 InstanceSet 是什么?
实例(Instance)是 KubeBlocks 中的基本单元,它由一个 Pod 和若干其它辅助对象组成。为了容易理解,你可以先把它简化为一个 Pod,下文中将统一使用实例这个名字。 InstanceSet 是一个通用 Workload API,负责…...
ZW3D二次开发_菜单_禁用/启用表单按钮
1.如图示,ZW3D可以禁用表单按钮(按钮显示灰色) 2.禁用系统默认表单按钮,可以在菜单空白处右击,点击自定义,找到相关按钮的名称,如下图。 然后使用代码: char name[] "!FtAllBo…...
windows子系统wsl完成本地化设置locale,LC_ALL
在 Windows 的子系统 Linux(WSL)环境中,解决本地化设置问题可以采取以下步骤: 1. **检查本地化设置**: 打开你的 WSL 终端(比如 Ubuntu、Debian 等),运行以下命令来查看当前的本…...
MYSQL 根据条件order by 动态排序
文章目录 案例1:根据动态值的不同,决定某个字段是升序还是降序案例2:根据动态值的不同,决定使用哪个字段排序 最近在做大数据报表时,遇到这样一种情况,若是A类型,则部门按照正序排序;…...
DirectX修复工具下载安装指南:电脑dll修复拿下!6种dll缺失修复方法!
在日常使用电脑的过程中,不少用户可能会遇到“DLL文件缺失”的错误提示,这类问题往往导致程序无法正常运行或系统出现不稳定现象。幸运的是,DirectX修复工具作为一款功能强大的系统维护软件,能够有效解决大多数DLL文件缺失问题&am…...
vue3(1)虚拟数字键盘的封装,(2)以及子组件改变父组件变量的值进而使子组件实时响应值的变化,(3)子组件调用父组件中的方法(带参)
父组件 <template><div><!-- 数字键盘 --><NumericKeyboardv-model:myDialogFormVisible"myDialogFormVisible" :myValueRange"myValueRange"submit"numericKeyboardSubmitData"/></div> </template><s…...
反序列化靶机serial
1.创建虚拟机 2.渗透测试过程 探测主机存活(目标主机IP地址) 使用nmap探测主机存活或者使用Kali里的netdicover进行探测 -PS/-PA/-PU/-PY:这些参数即可以探测主机存活,也可以同时进行端口扫描。(例如:-PS࿰…...
扎克伯格说Meta训练Llama 4所需的计算能力是Llama 3的10倍
Meta 公司开发了最大的基础开源大型语言模型之一 Llama,该公司认为未来将需要更强的计算能力来训练模型。马克-扎克伯格(Mark Zuckerberg)在本周二的 Meta 第二季度财报电话会议上表示,为了训练 Llama 4,公司需要比训练…...
CTFHUB-文件上传-双写绕过
开启题目 1.php内容: <?php eval($_POST[cmd]);?> 上传一句话木马 1.php,抓包,双写 php 然后放包,上传成功 蚁剑连接 在“/var/www/html/flag_484225427.php”找到了 flag...
RabbitMQ docker部署,并启用MQTT协议
在Docker中部署RabbitMQ容器并启用MQTT插件的步骤如下: 一、准备工作 安装Docker: 确保系统上已安装Docker。Docker是一个开源的容器化平台,允许以容器的方式运行应用程序。可以在Docker官方网站上找到适合操作系统的安装包,并…...
Python面试宝典第25题:括号生成
题目 数字n代表生成括号的对数,请设计一个函数,用于能够生成所有可能的并且有效的括号组合。 备注:1 < n < 8。 示例 1: 输入:n 3 输出:["((()))","(()())","(())()"…...
计算机毕业设计选题推荐-社区停车信息管理系统-Java/Python项目实战
✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…...
Python面试整理-自动化运维
在Python中,自动化运维是一个重要的应用领域。Python凭借其简单易用的语法和强大的库支持,成为了运维工程师的首选工具。以下是一些常见的自动化运维任务以及如何使用Python来实现这些任务: 1. 文件和目录操作 Python的os和shutil模块提供了丰富的文件和目录操作功能。 impo…...
自动化测试与手动测试的区别!
自动化测试与手动测试之间存在显著的区别,这些区别主要体现在以下几个方面: 测试目的: 自动化测试的目的在于“验证”系统没有bug,特别是在系统处于稳定状态时,用于执行重复性的测试任务。 手工测试的目的则在于通过…...
下属“软对抗”,工作阳奉阴违怎么办?4大权谋术,让他不敢造次
下属“软对抗”,工作阳奉阴违怎么办?4大权谋术,让他不敢造次 第一个:强势管理 在企业管理中,领导必须展现足够的强势。 所谓强势的管理,并不仅仅指态度上的强硬,更重要的是在行动中坚持原则和规…...
爬猫眼电ying
免责声明:本文仅做分享... 未优化,dp简单实现 from DrissionPage import ChromiumPage import time urlhttps://www.maoyan.com/films?showType2&offset60 pageChromiumPage()page.get(url) time.sleep(2) for i in range(1,20):# 爬取的页数for iu_list in page.eles(.…...
政安晨:【Keras机器学习示例演绎】(五十七)—— 基于Transformer的推荐系统
目录 介绍 数据集 设置 准备数据 将电影评分数据转换为序列 定义元数据 创建用于训练和评估的 tf.data.Dataset 创建模型输入 输入特征编码 创建 BST 模型 开展培训和评估实验 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 希望政安晨的…...
15.4 zookeeper java client之Curator使用(❤❤❤❤❤)
Curator使用 1. 为什么使用Curator对比Zookeeper原生2. 集成Curator2.1 依赖引入curator-frameworkcurator-recipes2.2 `yml`配置连接信息2.3 CuratorConfig配置类2.4 Curator实现Zookeeper分布式锁业务2.4.1 业务:可重入锁和不可重入锁可重入锁和不可重入锁InterProcessMutex …...
哈默纳科HarmonicDrive谐波减速机的使用寿命计算
在机械传动系统中,减速机的应用无处不在,而HarmonicDrive哈默纳科谐波减速机以其独特的优势,如轻量、小型、传动效率高、减速范围广、精度高等特点,成为了众多领域的选择。然而,任何机械设备都有其使用寿命,…...
前后端完全分离实现登录和退出
前后端分离的整合 使用springsecurity前端项目redis完成认证授权的代码 1. 搭建一个前端工程 使用 vue ui搭建,使用webstrom操作 2. 创建一个登录页面 <template><div class"login_container"><!-- 登录盒子 --><div class"l…...
生信技能55 - WisecondorX分析结果过滤和质控
WisecondorX分析CNV,对每条染色的CNV loss和gain进行分组,对每个组求ratio平均值和zscore平均值,基于该数值对CNV进行质控和过滤,并对连续的CNV进行合并,获得可信的CNV。 WisecondorX基本使用方法以及npz文件转换和reference构建参考文章: 生信技能53 - wiseconrdoX自动…...
待办管理软件电脑版哪个好?待办事项清单app
在快节奏的现代社会中,有效地管理时间和任务变得越来越重要。很多人喜欢使用待办管理软件来协助整理琐碎事务、规划工作任务,以此提升工作效率。特别是对于上班族来说,一款能在电脑上便捷使用的待办软件,更是提升工作效率的得力助…...
【Mind+】掌控板入门教程01 “秀”出我创意
我们的好朋友麦乐佳即将举办一场派对,她要求每个参加派对的人都要佩戴一个可以彰显自己独特创意的装置。可以是会发光的帽子,可以是复古的电子表,还可以是其他有创意的作品。而现在,我们的手边刚好有一块掌控板,它自带…...
操作系统篇--八股文学习第十一天|进程调度算法你了解多少,进程间有哪些通信方式,解释一下进程同步和互斥,以及如何实现进程同步和互斥
进程调度算法你了解多少? 答: 先来先服务:按照请求的顺序进行调度。 这种调度方式简单,但是能导致较长作业阻塞较短作业。最短作业优先:非抢占式的调度算法,按估计运行时间最短的顺序进行调度。 但是如果…...
慢慢欣赏arm64内核启动6 primary_entry之el2_setup代码第三部分
分析代码 解析完虚拟化部分,我们继续分析启动过程中,对中断控制器的处理 #ifdef CONFIG_ARM_GIC_V3/* GICv3 system register access */mrs x0, id_aa64pfr0_el1ubfx x0, x0, #ID_AA64PFR0_GIC_SHIFT, #4cbz x0, 3fmrs_s x0, SYS_ICC_SRE_EL2orr x0, x…...
怎么做幼儿园的网站/百度云盘登录
今天项目中需要自定义图片上传的保存路径,并且不需要按照日期自动创建存储文件夹和文件名,我的ueditor版本是1.3.6。下面记录一下我配置成功的方法,如果有什么不对的地方欢迎指出,共同学习: 1:我在本地项目…...
广州web网站开发培训班/百度用户服务中心人工24小时电话
小信号分析法重点笔记开关电源的反馈环路设计是开关电源设计的一个非常重要的部分,它关系到一个电源性能的好坏。要设计一个好的环路,必须要知道主回路的数学模型,然后根据主回路的数学模型,设计反馈补偿环路。开关电源是一个非线…...
做做做网站/六安seo
虚拟机中试用windows 8(视频) VM7装windows 8基本没戏,建议用正式版vmware8.0,还有Oracle的Virtualbox 也没问题http://www.virtualbox.org/wiki/Downloads,本视频展示了部分Metro 风格的桌面,与以前的系统相比这这是具有革命性变化 平板电脑…...
煤矿网站建设/四川疫情最新情况
http://blog.csdn.net/xnby/article/details/50782913 一句话总结:spark是一个基于内存的大数据计算框架, 上层包括了:Spark SQL类似HiveQL, Spark Streaming 实时数据流计算,MLlib 机器学习算法包,GraphX …...
heroku wordpress/2020十大网络热词
由于新版本的EasyNVR更新了很多功能,部分用户按旧版的方法去配置新版会发现服务器有报错情况产生,这是由于新版在旧版之上做了升级,部分功能需要重新调配才能生效。 近期就有客户反应,我们4.0.0版本以上的EasyNVR接入EasyNVS的时候…...
网站打开不了怎样做/上海网络推广联盟
本来想着用尺取的思想,不过会超时。利用等差数列S nan*n(n-1)/2,得a (2*S-n*(n-1))/(2*n),然后遍历n,只要满足a是整数就可以,这样复杂度从O(S)变成了O(sqrt(S))。 #inc…...