user_genome classification fastani_reference fastani_reference_radius fastani_taxonomy fastani_ani
K4093L.5.fa d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
B4018L.2.fa d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
W4194L.6.fa d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
K4096L.2.fa d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__Sideroxydans;s__
W4194L.3.fa d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__Sideroxydans;s__
L4105L.2.fa d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__PALSA-1006;s__
多序列对齐结果建树infer
# 6个基因组的120个单拷贝基因建树,1秒
time gtdbtk infer \
--msa_file classify_wf/bin.bac120.user_msa.fasta \
--out_dir infer \
--cpus 8 \
--prefix bin
结果可用itol(https://itol.embl.de/)在线可视化
如果基因组比较多,而且添加上分类、来源注释,结果如下:
人类肠道基因组集基因组进化树(Almeida, 2020, Nature Biotechnology)。
具体的画法可以参照itol网站的帮助。也可以使用我们介绍过的脚本输入快速制作注释文件。
进化树构建流程
从基因组直接建树,de_novo_wf:构建新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰。
输入文件为细菌基因组的目录(—genome_dir),指定扩展名类型(—extension),以及输出目录(—out_dir)。必须参数有需要选择细菌(—bacteria)/古菌,指定外类群(—outgroup_taxon)。可选常用参数有结果前缀(—prefix)和使用线程数(—cpus)。
# 约4小时。
gtdbtk de_novo_wf --genome_dir bin \
--out_dir de_novo_wf \
--extension gz \
--bacteria \
--outgroup_taxon p__Patescibacteria \
--prefix bin \
--cpus 8
主要结果有:
bin.bac120.decorated.tree: 修饰的有根树
bin.bac120.decorated.tree-table:
树相关信息表
bin.bac120.user_msa.fasta:
多序列对齐文件
附录:GTDB数据库简介
基因组位于 https://data.ace.uq.edu.au/public/gtdb/data/releases/ 中相应版本的genomic_files_reps目录下,
建议大家直接下载latest目录下的最新版,可以保持下载位置一致,同时记录版本号(当前为2020年7月13号更新95版)。
GTDB-tk使用的数据库,位于auxillary_files文件夹中的gtdbtk_data.tar.gz,95版为33G
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz
物种注释文件,古菌3千多种,细菌,19万多种
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/ar122_taxonomy_r95.tsv
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/bac120_taxonomy_r95.tsv
参考基因组文件,32G
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/genomic_files_reps/gtdb_genomes_reps.tar.gz
软件:Pierre-Alain Chaumeil, Aaron J Mussig, Philip Hugenholtz & Donovan H Parks. (2019). GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics 36, 1925-1927, doi: https://doi.org/10.1093/bioinformatics/btz848
120个基因单拷贝分类法;Donovan H. Parks, Maria Chuvochina, David W. Waite, Christian Rinke, Adam Skarshewski, Pierre-Alain Chaumeil & Philip Hugenholtz. (2018). A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nature Biotechnology 36, 996, doi: https://doi.org/10.1038/nbt.4229
种特异的方法和数据库 Donovan H. Parks, Maria Chuvochina, Pierre-Alain Chaumeil, Christian Rinke, Aaron J. Mussig & Philip Hugenholtz. (2020). A complete domain-to-species taxonomy for Bacteria and Archaea. Nature Biotechnology 38, 1079-1086, doi: https://doi.org/10.1038/s41587-020-0501-8
使用实战:Alexandre Almeida, Stephen Nayfach, Miguel Boland, Francesco Strozzi, Martin Beracochea, Zhou Jason Shi, Katherine S. Pollard, Ekaterina Sakharova, Donovan H. Parks, Philip Hugenholtz, Nicola Segata, Nikos C. Kyrpides & Robert D. Finn. (2020). A unified catalog of 204,938 reference genomes from the human gut microbiome. Nature Biotechnology, doi: https://doi.org/10.1038/s41587-020-0603-3
调用的软件引文如下:
基因预测软件Prodigal:Doug Hyatt, Gwo-Liang Chen, Philip F. LoCascio, Miriam L. Land, Frank W. Larimer & Loren J. Hauser. (2010). Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119, doi: https://doi.org/10.1186/1471-2105-11-119
参考树插值法建树pplacer:Frederick A. Matsen, Robin B. Kodner & E. Virginia Armbrust. (2010). pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics 11, 538, doi: https://doi.org/10.1186/1471-2105-11-538
快速建树软件FastTree:Morgan N. Price, Paramvir S. Dehal & Adam P. Arkin. (2010). FastTree 2 – approximately maximum-likelihood trees for large alignments. PloS One 5, e9490, doi: https://doi.org/10.1371/journal.pone.0009490
基因组距离估计Mash:Brian D. Ondov, Todd J. Treangen, Páll Melsted, Adam B. Mallonee, Nicholas H. Bergman, Sergey Koren & Adam M. Phillippy. (2016). Mash: fast genome and metagenome distance estimation using MinHash. Genome Biology 17, 132, doi: https://doi.org/10.1186/s13059-016-0997-x
高通量ANI计算:Chirag Jain, Luis M. Rodriguez-R, Adam M. Phillippy, Konstantinos T. Konstantinidis & Srinivas Aluru. (2018). High throughput ANI analysis of 90K prokaryotic genomes reveals clear species boundaries. Nature Communications 9, 5114, doi: https://doi.org/10.1038/s41467-018-07641-9
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑
系列教程:微生物组入门 Biostar 微生物组 宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
一文读懂:宏基因组 寄生虫益处 进化树
必备技能:提问 搜索 Endnote
文献阅读 热心肠 SemanticScholar Geenmedical
扩增子分析:图表解读 分析流程 统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
在线工具:16S预测培养基 生信绘图
科研经验:云笔记 云协作 公众号
编程模板: Shell R Perl
生物科普: 肠道细菌 人体上的生命 生命大跃进 细胞暗战 人体奥秘
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读
该软件使我们可以在Postgres中创建一个关系数据库来托管完整的细菌基因组。 除了数据库之外,还有一些软件工具,例如解析器,可以将EMBL或GBK文件转换为CpDB关系模式。 一旦进入CpDB,就可以使用SQL从细菌基因组中提取无限的报告。 该软件是博士学位的一部分。 是由安德森·桑托斯(Anderson Santos)获得的生物信息学博士学位,是在假肺杆菌(Corynebacterium pseudotuberculosis)(Cp)泛基因组计划下开发的。 2009年至2012年之间,Cp全景基因组向科学界提供了15个细菌菌株,这些菌株已保存在GenBank数据库中。完整的论文用葡萄牙语-葡萄牙语撰写。 可从以下地址获得一本书的英文章节,以解释该软件的原因和用途:http://www.intechopen.com/articles/show/title/whole-genome-annotation-in-silico-analysis。 CpDB也是Pannotator工具的骨干:http://pannotator.facom.ufu.br享受它。
手里有一堆未知分类的基因组序列,想知道它们是哪个种?是不是新的种?手工一个个的看16s rRNA序列或者是ANI分析,太费劲了!基因组分类数据库 GTDB(Genome Taxonomy...
GTDB-Tk v1.3.0 requires ~25G of external data which needs to be downloaded
and unarchived. This can be done automatically, or manually:
1. Run the command download-db.sh to automatically download to:
基因组分类数据库:GENOME TAXONOMY DATABASE(https://gtdb.ecogenomic.org/)GTDB Release 214.1 is now available(63G,太大了简直。我用服务器直接下载提示要100多天才能下载完成)所以还是用电脑Windows下载后上传至服务器方便些!
krakenuniq
flextaxd(flextaxd)脚本允许自定义NCBI,QIIME或CanSNPer源格式的数据库,并支持将导出功能转换为NCBI格式的名称和node.dmp文件以及标准制表符分隔的文件(或选定的分隔)。
建立资料库
从源文件--taxonomy_file创建数据库
然后选择--taxonomy_type [支持的格式]
修改数据库
修改分类法(--mod_file / ---- mod_database)
修改选定节点(-父节点)的分类树,需要修改
在 main.py 里的这部分代码的default 替换成你自己的 gtdb 的路径即可,当然,你也可以用参数输入对应的路径。将解压后的文件放到一个文件夹里,default 里填写这个文件夹的绝对路径。
GTDB物种集群工具包
该工具包提供了用于建立,更新和验证使用的物种簇的功能。 它具有透明性,我们对代码的任何部分都可以重用感到高兴,但总的来说,该工具包供GTDB团队内部使用。
在GTDB R04-RS89中引入了物种集群。
如果您发现此软件包有用,请引用:
DH,Parks等。 (2020)。 “ ” Nature Biotechnology , 。
classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;release207一定要加上不然会一直有上面的报错!--skip_ani_screen 加上之后就可以跑了。我们这边已经下载好了,后面记得映射。下好之后先run起来试试(失败了)报错了,看看这两个参数是干什么的。加了nohup 看看会不会断吧!但是出现了新的报错(哈哈哈哈)再试试直接跑,不-itd了。
这个就是分类了,就是物种注释ani_screenidentifyalign, andclassifyiTOLidentifyaligninferroot, anddecorate###输入输出文件格式:>genome_aAKLAK01011>genome_aKAK大家随时可参考这里查看输入输出文件格式,每类文件都有一个示例gtdbtk.logmsa.fastapfam.tsvtree.log。