当前位置: 首页 > news >正文

genome comparison commend 2 MCMCtree

仅本人练习使用!!后续会逐渐修改!!

mcmctree估算物种分歧时间 - 简书

https://www.cnblogs.com/bio-mary/p/12818888.html

估算系统树分歧时间 —— paml.mcmctree,r8s | 生信技工

http://www.chenlianfu.com/?p=2948

4. 使用PAML软件的mcmctree进行物种分歧时间计算

# 新建文件夹并进入
mkdir d.divergence_time && cd d.divergence_time

seqfile:orthofinder中得到的SpeciesTreeAlignment.fasta文件,将物种数和碱基数(碱基数将SpeciesTreeAlignment.fasta文件导入TBtools,统计每条序列的碱基数即可)加在每条序列的前面一行,且序列间间隔一行;
treefile:orthofinder中SpeciesTreeAlignment.fasta序列用raxml软件跑出的最优树(RAxML_bestTree.jjh_1.tre),将后缀改为“trees”,并在文件第一行加上物种数目和树的数目,先按照上面程序跑一下,终端中会出现一个reading master tree,然后手动粘贴出来为trees文件,在其中加上几个校准点(在timetree中查询),添加格式参照参考网址。

TimeTree :: The Timescale of Life

另外,一定要注明外群的校准点和外群之外的校准点。开头和结尾不用补括号。想看校准点位置加的是否正确可以在Figtree中查看。
mcmctree.ctl:路径输入时,直接右键复制该文件,粘贴在终端里即可 

(1) 准备Newick格式的树文件,根据RAxML的结果提取系统发育树的拓扑结构

按照paml4.9i/examples中的mcmctree.ctl文件配置自己的数据文件在JJHdata中,主要是seq文件和tree文件,具体格式参照给出文件。

echo "97 1" > input.trees
# 文件内容分两行:第一行表述树中有97个物种,共计1个树,两个数值之间用空分割;
# 第二行则是Newick格式树信息,其中包含有校准点信息。校准点信息一般指95%HPD(Highest Posterior Density)对应的置信区间;校准点单位是100MYA(软件说明文档中使用该单位,也推荐使用该单位,若使用其它单位,后续配置文件中的相关参数也需要对应修改)。此外,Newick格式的树尾部一定要有分号,没有的话程序可能不能正常运行
# echo "(((laame,plost),(parub,sccit)'>0.76<1.08')'>2.29<2.66',(lasul,phgig));" >> input.trees
# Paxillus rubicundulus <=> Scleroderma citrinum        89MYA 76-108MYA
# Paxillus rubicundulus <=> Laccaria amethystina	246MYA 229-266MYA
# Hymenochaetaceae 125Mya  Agaricales-90Mya  Agaricomycetes-290Mya  Basidiomycota-400Mya
# 把iqtree/raxml-ng等建树软件中得到的树文件中的支持率和枝长信息删除,添加化石校准点时间信息(格式是时间范围’>0.23<0.26’或者时间点‘@0.245’),单位时百万年前100Ma;再在首行添加两个数字(物种数量和树的数量),空格隔开,可得到input.tre文件。
手动添加,并用Figtree检验
1(JJH) Rickenella <=> Sanghuangporus 227–277Mya
2(JJH) Trametes <=> Heterobasidion 187–236Mya
3(JJH) Pleurotus <=> Schizophyllum 110–201Mya
4(other) Laccaria bicolor <=> Coprinopsis cinerea 120–180Mya

(2) 准备多序列比对Phylip格式输入文件,可以综合三个位点核酸序列的多序列比对文件

/media/aa/DATA/JJH/software/standard-RAxML-master/usefulScripts/convertFasta2Phylip.sh ../c.species_tree/allSingleCopyOrthologsAlign.Codon.fasta > input.txt
perl -p -i -e 's/\s+/  /' input.txtecho $(cat ../c.species_tree/allSingleCopyOrthologsAlign.Codon.fasta) |sed "s/ >/\n/g" |sed "s/>//g"|sed "s/ / /g" >input2.phy

(3) 准备paml mcmctree配置文件

(JJH) ndata = 1; seqtype = 2; burnin = 1,000,000; sampfreq = 10; nsample = 500,000. 

# 软件自带测试数据是3组数据,而我们的数据只有一组!
# 修改mcmctree.ctl
seqfile = input.txt
treefile = input.trees
mcmcfile = mcmc.txt
outfile = out.txt
ndata = 1 # 输入的多序列比对的数据个数,这里密码子3个位置的数据;如果有一个,则设置为1
seqtype = 0    * 0: nucleotides; 1:codons; 2:AAs #数据类型
usedata = 3    * 0: no data; 1:seq like; 2:normal approximation; 3:out.BV (in.BV) # 设置是否利用多序列比对的数据:
#0,表示不使用多序列比对数据,则不会进行likelihood计算,虽然能得到mcmc树且计算速度飞快,但是其分歧时间结果是有问题的;
#1,表示使用多序列比对数据进行likelihood计算,正常进行MCMC,是一般使用的参数; 
#2,进行正常的approximation likelihood分析,此时不需要读取多序列比对数据,直接读取当前目录中的in.BV文件。该文件是使用usedata = 3参数生成的out.BV文件重命名而来的。
#此外,由于程序BUG,当设置usedata = 2时,一定要在改行参数后加 *,否则程序报错 Error: file name empty.. 
#3,程序利用多序列比对数据调用baseml/codeml命令对数据进行分析,生成out.BV文件。由于mcmctree调用baseml/codeml进行计算的参数设置可能不太好(特别时对蛋白序列进行计算时),
#推荐自己修该软件自动生成的baseml/codeml配置文件,然后再手动运行baseml/codeml命令,再整合其结果文件为out.BV文件。
clock = 2    * 1: global clock; 2: independent rates; 3: correlated rates
RootAge = '<8.0'  * safe constraint on root age, used if no fossil for root.
model = 4
alpha = 0.5
ncatG = 5
burnin = 4000000 #将前x次迭代burnin后,再进行取样(即打印出该次迭代计算的结果信息,各内部节点分歧时间、平均进化速率、sigma2值和各分支进化速率等)
sampfreq = 10 #每10次迭代则取样一次。
nsample = 100000 # 当取样次数达到该次数时,则取样结束(程序也将运行结束)。

(4) 运行PAML软件的mcmctree (若数据量较大,则每当程序调用baseml时,按ctrl + c终止,再手动并行化运行baseml)

# 进入conda环境
conda activate FigTree
# 运行
mcmctree mcmctree.ctl
cp out.BV in.BV

(5) 使用mcmctree进行approximate likelihood分析

# 配置文件中参数 usedata = 2,再次运行同样的mcmctree命令
# 新建文件夹
mkdir run01 run02
cp input.txt input.trees mcmctree.ctl in.BV run01
cp input.txt input.trees mcmctree.ctl in.BV run02
cd run01; mcmctree mcmctree.ctl &> mcmctree.log
cd run02; mcmctree mcmctree.ctl &> mcmctree.log

 (7) 比较两次运行的MCMC树,若差异较小,则认可其结果

perl -n -e 'my $out; while (s/(.*?(\d\.\d+))//) { my $info = $1; my $value = $2; my $new = $value * 100; $info =~ s/$value/$new/;  $out .= $info; } $out .= $_; print $out' run01/FigTree.tre > tree01.nex
perl -n -e 'my $out; while (s/(.*?(\d\.\d+))//) { my $info = $1; my $value = $2; my $new = $value * 100; $info =~ s/$value/$new/;  $out .= $info; } $out .= $_; print $out' run02/FigTree.tre > tree02.nex
perl -e 'while (<>) { if (s/\s*UTREE.*?=\s*//) { s/\s*\[.*?\]//g; print; } }' tree01.nex > tree01.txt
perl -e 'while (<>) { if (s/\s*UTREE.*?=\s*//) { s/\s*\[.*?\]//g; print; } }' tree02.nex > tree02.txt
/media/aa/DATA/DATA/SZQ2/command/clf/bin/calculating_branchLength_bias_percentage_of_two_trees.pl --no_normalization_of_total_branch_length tree01.txt tree02.txt > bias_of_2runs.txt
# 1.41%	0.77%	0.77%
rm tree*
perl -n -e 'my $out; while (s/(.*?(\d\.\d+))//) { my $info = $1; my $value = $2; my $new = $value * 100; $info =~ s/$value/$new/;  $out .= $info; } $out .= $_; print $out' run01/FigTree.tre > tree_abbr.mcmctree

(8) 将树信息中的简称换成属名和种名全称(选做)

cp tree_abbr.mcmctree tree_fullName.mcmctree
cut -f 1,2 ../a.preparing_data/source.txt | perl -p -e 's/\t/\t\"/; s/$/\"/;' | perl -p -e 's#\s+#/#; s#^#perl -p -i -e "s/#; s#\n$#/" tree_fullName.mcmctree\n#;' | perl -p -e 's#/\"#/\\\"#; s#\"/#\\\"/#;' | sh
java -jar /opt/biosoft/FigTree_v1.4.4/lib/figtree.jar tree_fullName.mcmctree
cd ..

最后利用chiplot作图

地质时间标尺网站:https://energyeducation.ca/encyclopedia/Geologic_time_scale

相关文章:

genome comparison commend 2 MCMCtree

仅本人练习使用&#xff01;&#xff01;后续会逐渐修改&#xff01;&#xff01; mcmctree估算物种分歧时间 - 简书 https://www.cnblogs.com/bio-mary/p/12818888.html 估算系统树分歧时间 —— paml.mcmctree,r8s | 生信技工 http://www.chenlianfu.com/?p2948 4. 使用PAM…...

Linux安装JenkinsCLI

项目简介安装目录 mkdir -p /opt/jenkinscli && cd /opt/jenkinscli JenkinsCLI下载 wget http://<your-jenkins-server>/jnlpJars/jenkins-cli.jar # <your-jenkins-server> 替换为你的 Jenkins 服务器地址 JenkinsCLI授权 Dashboard-->Configure Glob…...

Midjourney学习(一)prompt的基础

prompt目录 sd和mj的比较prompt组成风格表现风格时代描述表情色彩情绪环境 sd和mj的比较 自从去年9月份开始&#xff0c;sd就变得非常或火&#xff0c;跟它一起的还有一个midjourney。 他们就像是程序界的两种模式&#xff0c;sd是开源的&#xff0c;有更多的可能性更可控。但是…...

12 权重衰退

过拟合的应对方法——weight_decay 权重衰退是最广泛使用的正则化方法之一。 模型容量受参数个数和参数范围影响&#xff0c;通过L2正则项限制w的取值范围&#xff0c;权重w每次更新乘以小于1的数&#xff0c;w的数值范围不会太大&#xff0c;从而降低模型复杂度&#xff0c;…...

简化测试流程,提供卓越服务:TestComplete+Salesforce满足不断发展的企业的需求

2015年&#xff0c;一群前Salesforce员工发现了病毒防护市场中的一个空白&#xff1a;Salesforce不会对文档进行威胁扫描。为了填补这一空白&#xff0c;他们创建了一个平台&#xff0c;并以该平台作为中心帮助公司保护所有的企业云SaaS系统&#xff0c;使其免受威胁。这个平台…...

kafka 命令脚本说明以及在java中使用

一、命令行使用 1.1、topic 命令 1、关于topic,这里用window 来示例 bin\windows\kafka-topics.bat2、创建 first topic,五个分区&#xff0c;1个副本 bin\windows\kafka-topics.bat --bootstrap-server localhost:9092 --create --partitions 5 --replication-factor 1 -…...

Qt应用开发(基础篇)——文件选择对话框 QFileDialog

一、前言 QFileDialog类继承于QDialog&#xff0c;提供了一个允许用户选择文件或目录的对话框。 对话框窗口 QDialog QFileDialog文件选择对话框允许用户在当前文件系统中选择一个或者多个文件或者文件路径&#xff0c;使用静态函数创建是很简便的方式&#xff0c;比如&#xf…...

图像OCR转文字,验证码识别技术太疯狂-UI软件自动化

现在用PYTHON识别图片文字&#xff0c;PaddleOCR&#xff0c;Tesseract,Opencv等很多开源技术。知识大爆炸年代&#xff0c;几年不学习就跟不上时代了。 以前早的时候一个验证码图片上有4个不同颜色字符&#xff0c;带一些杂点&#xff0c;我写点代码按颜色最多的进行提取&…...

Docker:自定义镜像

&#xff08;总结自b站黑马程序员课程&#xff09; 环环相扣&#xff0c;跳过部分章节和知识点是不可取的。 一、镜像结构 镜像是分层结构&#xff0c;每一层称为一个Layer。 ①BaseImage层&#xff1a;包含基本的系统函数库、环境变量、文件系统。 ②Entrypoint&#xff1…...

【Nginx22】Nginx学习:FastCGI模块(四)错误处理及其它

Nginx学习&#xff1a;FastCGI模块&#xff08;四&#xff09;错误处理及其它 FastCGI 最后一篇&#xff0c;我们将学习完剩下的所有配置指令。在这里&#xff0c;错误处理还是单独拿出来成为一个小节了&#xff0c;而剩下的内容都放到其它中进行学习。不要感觉是其它的就没用了…...

轮毂电机单位换算-米每秒/转每分

先前写了一篇度/S和RPM的关系 这次补全一点 假设轮毂电机直径20CM 0.2M 周长为0.628M 0.2*3.14 轮子转一圈走0.628M 1RPM的单位是转/分 换成转/S 就除以60 也就是轮子转一圈的速度0.628/60 m/S 0.010467m/S 所以换算如下: 1RPM0.010467 m/S 那么1m/S1/(0.010467) RPM95.5RPM 如…...

博流RISC-V芯片BL616开发环境搭建

文章目录 1、工具安装2、代码下载3、环境变量配置4、下载交叉编译器5、编译与下载运行6、使用ninja编译 本文分别介绍博流RISC-V芯片 BL616 在 Windows和Linux 下开发环境搭建&#xff0c;本文同时适用BL618&#xff0c;BL602&#xff0c;BL702&#xff0c;BL808系列芯片。 1、…...

Weblogic漏洞(三)之 Weblogic 弱口令、任意文件读取漏洞

Weblogic 弱口令、任意文件读取漏洞 环境安装 此次我们实验的靶场&#xff0c;是vnlhub中的Weblogic漏洞中的weak_password靶场&#xff0c;我们 cd 到weak_password&#xff0c;然后输入以下命令启动靶场环境&#xff1a; docker-compose up -d输入以下的命令可以查看当前启…...

15 mysql tiny/meidum/long blob/text 的数据存储

前言 这里主要是 由于之前的一个 datetime 存储的时间 导致的问题的衍生出来的探究 探究的主要内容为 int 类类型的存储, 浮点类类型的存储, char 类类型的存储, blob 类类型的存储, enum/json/set/bit 类类型的存储 本文主要 的相关内容是 tiny/medium/long blob/text 类…...

【方案】基于视频与AI智能分析技术的城市轨道交通视频监控建设方案

一、背景分析 地铁作为重要的公共场所交通枢纽&#xff0c;流动性非常高、人员大量聚集&#xff0c;轨道交通需要利用视频监控系统来实现全程、全方位的安全防范&#xff0c;这也是保证地铁行车组织和安全的重要手段。调度员和车站值班员通过系统监管列车运行、客流情况、变电…...

mysql8 修改数据存储位置

1、停止MySQL服务 systemctl stop mysqld2、复制现有的数据库目录到新的位置 默认情况下&#xff0c;MySQL的数据库目录位于/var/lib/mysql。假设您想将数据库目录更改为/home/mysql&#xff0c;您可以使用以下命令来复制数据库目录 cp -R /var/lib/mysql /home/mysql3、修改…...

Qt QSlider样式

滑块控件QSlider&#xff0c;如果设置的垂直样式&#xff0c;其进度颜色和剩余颜色&#xff0c;刚好和横向样式的颜色相反的&#xff0c;不确定这个是否是Qt的BUG&#xff0c;Qt456都是这个现象 QSlider::groove:horizontal{ height:8px; background:#FF0000; }QSlider::add-p…...

Redis五大数据类型

Redis五大数据类型 Redis-Key 官网&#xff1a;https://www.redis.net.cn/order/ 序号命令语法描述1DEL key该命令用于在 key 存在时删除 key2DUMP key序列化给定 key &#xff0c;并返回被序列化的值3EXISTS key检查给定 key 是否存在&#xff0c;存在返回1&#xff0c;否则返…...

chatGPT训练过程

强化学习基础 强化学习是指智能体在不确定环境中最大化其获得的奖励从而达到自主决策的目的。其执行过程为&#xff1a;智能体依据策略决策从而执行动作&#xff0c;然后感知环境获取环境的状态&#xff0c;进而得到奖励(以便下次再到相同状态时能采取更优的动作)&#xff0c;…...

原神角色数据分析项目说明文档

---项目涉及--- 前端html语言&#xff0c;flask框架&#xff0c;excel&#xff0c;MySQL&#xff0c;DataFrame数组&#xff0c;numpy&#xff0c;pyecharts ---实现方式--- 将所有角色数据存储在excel表格中&#xff0c;在需要时读取&#xff0c;当用户想要查看某一项时&…...

日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下&#xff0c;越来越多的求职者将目光投向了日本及中日双语岗位。但是&#xff0c;一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧&#xff1f;面对生疏的日语交流环境&#xff0c;即便提前恶补了…...

【力扣数据库知识手册笔记】索引

索引 索引的优缺点 优点1. 通过创建唯一性索引&#xff0c;可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度&#xff08;创建索引的主要原因&#xff09;。3. 可以加速表和表之间的连接&#xff0c;实现数据的参考完整性。4. 可以在查询过程中&#xff0c;…...

Java 8 Stream API 入门到实践详解

一、告别 for 循环&#xff01; 传统痛点&#xff1a; Java 8 之前&#xff0c;集合操作离不开冗长的 for 循环和匿名类。例如&#xff0c;过滤列表中的偶数&#xff1a; List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

Redis数据倾斜问题解决

Redis 数据倾斜问题解析与解决方案 什么是 Redis 数据倾斜 Redis 数据倾斜指的是在 Redis 集群中&#xff0c;部分节点存储的数据量或访问量远高于其他节点&#xff0c;导致这些节点负载过高&#xff0c;影响整体性能。 数据倾斜的主要表现 部分节点内存使用率远高于其他节…...

STM32---外部32.768K晶振(LSE)无法起振问题

晶振是否起振主要就检查两个1、晶振与MCU是否兼容&#xff1b;2、晶振的负载电容是否匹配 目录 一、判断晶振与MCU是否兼容 二、判断负载电容是否匹配 1. 晶振负载电容&#xff08;CL&#xff09;与匹配电容&#xff08;CL1、CL2&#xff09;的关系 2. 如何选择 CL1 和 CL…...

MySQL 索引底层结构揭秘:B-Tree 与 B+Tree 的区别与应用

文章目录 一、背景知识&#xff1a;什么是 B-Tree 和 BTree&#xff1f; B-Tree&#xff08;平衡多路查找树&#xff09; BTree&#xff08;B-Tree 的变种&#xff09; 二、结构对比&#xff1a;一张图看懂 三、为什么 MySQL InnoDB 选择 BTree&#xff1f; 1. 范围查询更快 2…...

Vue ③-生命周期 || 脚手架

生命周期 思考&#xff1a;什么时候可以发送初始化渲染请求&#xff1f;&#xff08;越早越好&#xff09; 什么时候可以开始操作dom&#xff1f;&#xff08;至少dom得渲染出来&#xff09; Vue生命周期&#xff1a; 一个Vue实例从 创建 到 销毁 的整个过程。 生命周期四个…...

DeepSeek源码深度解析 × 华为仓颉语言编程精粹——从MoE架构到全场景开发生态

前言 在人工智能技术飞速发展的今天&#xff0c;深度学习与大模型技术已成为推动行业变革的核心驱动力&#xff0c;而高效、灵活的开发工具与编程语言则为技术创新提供了重要支撑。本书以两大前沿技术领域为核心&#xff0c;系统性地呈现了两部深度技术著作的精华&#xff1a;…...

如何配置一个sql server使得其它用户可以通过excel odbc获取数据

要让其他用户通过 Excel 使用 ODBC 连接到 SQL Server 获取数据&#xff0c;你需要完成以下配置步骤&#xff1a; ✅ 一、在 SQL Server 端配置&#xff08;服务器设置&#xff09; 1. 启用 TCP/IP 协议 打开 “SQL Server 配置管理器”。导航到&#xff1a;SQL Server 网络配…...

【Linux】Linux安装并配置RabbitMQ

目录 1. 安装 Erlang 2. 安装 RabbitMQ 2.1.添加 RabbitMQ 仓库 2.2.安装 RabbitMQ 3.配置 3.1.启动和管理服务 4. 访问管理界面 5.安装问题 6.修改密码 7.修改端口 7.1.找到文件 7.2.修改文件 1. 安装 Erlang 由于 RabbitMQ 是用 Erlang 编写的&#xff0c;需要先安…...