添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接

网址:https://gtdb.ecogenomic.org/

该数据库已经于2018/2020连续发表两篇Nature Biotechnology,软件于2019发表于Bioinformatcs,即可为细菌分类提供参考数据库,同时提供了物种分类、进化树构建的全套工具,绝对是服务到家的好工具。

该数据库发布2年,引用700余次,瞬间成为细菌分类领域最权威的数据库和软件之一。

热心肠日报简介(NBT2018)

原文链接:https://www.mr-gut.cn/papers/read/1087194889

Nature子刊:依据细菌共有单拷贝蛋白构建新的生命之树

创作:花开 审核:高春辉

2018年10月01日

这一分类系统以 细菌中普遍存在的120个单拷贝蛋白质(bac120)为基础

在对多分组类别消歧后,根据相对演化散度标准化和分级,得到基因组分类数据库(GTDB);

涵盖了 94759个细菌基因组,在属、种分辨率水平上描述了99个门,其中不可培养细菌占14.4%

58%在NCBI分类系统中已收录基因组的分类地位有变动 ,例如新系统中 变形菌门重新划为6个不重叠的新类群

一些难以确定分类地位的物种(如不可培养微生物)也被系统的整合了进来。

推荐语:16S rRNA基因是现代细菌分类系统的基石,但以单基因核酸差异构建的细菌生命之树并非尽善尽美。Nature Biotechnology报道的将单基因分类系统扩展到120个细菌共有单拷贝蛋白质,在大量氨基酸水平差异的基础上构建新的分类系统(命名为GTDB),大幅修正了现有的细菌生命之树。

GTDB与NCBI分类系统比较

较多微生物的分类地位发生变化,如梭菌目重新划分为多个新目;而很多纲重新归类为拟杆菌纲(NBT 2018图5)。

GTDB分类法中指定为梭菌或拟杆菌的基因组的NCBI和GTDB分类的比较。

(a)比较GTDB分类法中分配给梭菌门的2368个细菌基因组的NCBI(左)和GTDB(右)目级别分类。原本的一个目重新划分为多个目。括号中表示通过NCBI归类为梭菌纲以外的纲的基因组。(b)比较GTDB分类法中分配给拟杆菌纲的2,058个细菌基因组的NCBI和GTDB纲级别分类。括号中表示通过NCBI分类为除拟杆菌纲以外的门的基因组。

软件和数据库安装

Github: https://github.com/Ecogenomics/GTDBTk

GTDB-Tk是一个软件工具包,用于根据基因组数据库分类法GTDB为 细菌和古细菌 基因组分配客观的分类法。它旨在与最近的进展一起使用,从而可以直接对环境样本中获得数百或数千个由基因组组装的基因组(MAG)进行物种分类注释。它也可以用于分离和单细胞的基因组物种注释。

本次测试版本为 GTDB-Tk v1.3.0,于2020年7月17发布,参考数据为95版。

硬件要求:

  • 内存100Gb

  • 硬盘27Gb

  • 64核1小时可分析1000个细菌基因组

Conda安装:

conda create -n gtdbtk
conda activate gtdbtk
# gtdbtk-1.3.0, 2020-9-27
conda install -c bioconda gtdbtk

download-db.sh自动下载数据库,将下载至conda中的envs/gtdbtk/share/gtdbtk-1.3.0/db/:

download-db.sh

(可选)手动下载和配置GTDB参考基因组最新版(测试时为95版,34Gb)

mkdir -p ~/db/gtdb & cd ~/db/gtdb
# 下载解压
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz
tar zxvf gtdbtk_data.tar.gz
# 设置数据库位置,注意修改软件安装位置
locate gtdbtk.sh # 查找配置文件位置
# 修改PATH=后面的路径为数据库解压目录,如/home/meta/db/gtdb/release95/
vim /conda/envs/gtdbtk/etc/conda/activate.d/gtdbtk.sh

此外:GTDB数据库国内下载备份链接见 http://nmdc.cn/datadownload

教程:https://ecogenomics.github.io/GTDBTk/

运行 gtdbtk -h 显示帮助,主要有以下功能模块

工作流程:

  • classify_wf:基于GTDB参考树, 基因组物种注释 ,包括鉴定、比对、分类三步

  • de_novo_wf:推荐新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰

主要方法模块:

  • identify:基因组中鉴定标记基因

  • align:多序列对齐

  • classify:确定物种分类

  • infer:从多序列对齐序列建树

  • root:使用外类群定根

  • decorate:使用GTDB分类注释树

  • infer_ranks: 使用RED估计分类级和内部结果

  • ani_rep: 计算GTDB代表基因组的ANI

  • trim_msa: 多序列对齐结果筛选

  • export_msa : 导出未剪裁的细菌/古菌多序列对齐文件

  • test:使用3个古菌基因组测试分类流程

  • check_install:检查数据库文件是否存在且位置正确

测试流程test

检查数据库,结果显示OK和Done表示正常

gtdbtk check_install
 

正常显示如下:

GTDB-Tk v1.3.0
gtdbtk check_install
Using GTDB-Tk reference data version r95: meta/db/gtdb/release95/
Running install verification
Checking /home/meta/db/gtdb/release95/
         |-- pplacer          OK
         |-- masks            OK
         |-- markers          OK
         |-- radii            OK
         |-- msa              OK
         |-- metadata         OK
         |-- taxonomy         OK
         |-- fastani          OK
         |-- mrca_red         OK
Done.

测试流程,无报错确定程序的软件和数据库正常

gtdbtk test --out_dir gtdbtk_test

运行成功显示如下内容:

GTDB-Tk v1.3.0
gtdbtk test --out_dir gtdbtk_test
Using GTDB-Tk reference data version r95: /home/meta/db/gtdb/release95/
Command: gtdbtk classify_wf --genome_dir gtdbtk_test/genomes --out_dir gtdbtk_test/output --cpus 1
Test has successfully finished.

结果目录(gtdbtk_test/output)中主要结果文件:

ar122为古菌相关文件,bac120为细菌相关文件。此示例为3个古菌,细菌文件为空。

  • gtdbtk.ar122.classify.tree 树文件

  • gtdbtk.ar122.summary.tsv 分类结果文件

  • gtdbtk.ar122.markers_summary.tsv 使用标记基因情况

  • gtdbtk.ar122.msa.fasta 多序列对齐文件(输入+参考)

  • gtdbtk.ar122.user_msa.fasta 多序列对齐文件(输入)

分类结果示例

user_genome     classification  fastani_reference       fastani_reference_radius        fastani_taxonomy        fastani_ani     fa
genome_2        d__Archaea;p__Thermoplasmatota;c__Thermoplasmata;o__Methanomassiliicoccales;f__Methanomethylophilaceae;g__VadinCA1
genome_3        d__Archaea;p__Thermoplasmatota;c__Thermoplasmata;o__Methanomassiliicoccales;f__Methanomethylophilaceae;g__VadinCA1
genome_1        d__Archaea;p__Methanobacteriota;c__Methanobacteria;o__Methanobacteriales;f__Methanobacteriaceae;g__Methanobrevibac

多序列对齐示例

>genome_1
REPLFLTIMVSFLATSGVSIDGSVDDLEKESIGAG-YCKEVLDLTEHCPMKGEEFIDDKAV-NIGIHAKKDYNILIVHEEGAYY
>genome_2
RSPVLLEFMVEMIVTSGVAIEGSSDELKDVSAAAA-YCKEVLDLCAECLMDNQEYVENKAV-AIGIYSKTDPDLLIMQREGAYY
>genome_3
------------------------------------------DLSSECPMDNQEYIEDKAV-AIGIYSKVSPDVLILHDEGAYY

物种注释流程

classify_wf全称为 Classify workflow,即分类工作流程,主要包括了identify鉴定单拷贝标记基因、align多序列对齐和classify物种分类鉴定三步。

https://github.com/YongxinLiu/Note/tree/master/Meta/dRep/bin 中有6个基因组草图的fasta压缩文件。下载测试此流程。

(可选)解压数据,此流程支持gz压缩格式直接作为输放

# gunzip bin/*.fa.gz

classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;输出文件名前缀(—prefix),默认为gtdbtk;设置多线程加速(—cpus)。详细参数见gtdbtk classify_wf -h

gtdbtk classify_wf --genome_dir bin \
    --out_dir classify_wf \
    --extension gz \
    --prefix bin \
    --cpus 8

主要结果文件描述:此处全为细菌基因组,因此均为bin.bac120开头的结果

物种注释 bin.bac120.summary.tsv

user_genome     classification  fastani_reference       fastani_reference_radius        fastani_taxonomy        fastani_ani
K4093L.5.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
B4018L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
W4194L.6.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Burkholderiaceae;g__Rhodoferax;s__
K4096L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__Sideroxydans;s__
W4194L.3.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__Sideroxydans;s__
L4105L.2.fa     d__Bacteria;p__Proteobacteria;c__Gammaproteobacteria;o__Burkholderiales;f__Gallionellaceae;g__PALSA-1006;s__
 

多序列对齐结果建树infer

# 6个基因组的120个单拷贝基因建树,1秒
time gtdbtk infer \
    --msa_file classify_wf/bin.bac120.user_msa.fasta \
    --out_dir infer \
    --cpus 8 \
    --prefix bin

结果可用itol(https://itol.embl.de/)在线可视化

如果基因组比较多,而且添加上分类、来源注释,结果如下:

人类肠道基因组集基因组进化树(Almeida, 2020, Nature Biotechnology)。

具体的画法可以参照itol网站的帮助。也可以使用我们介绍过的脚本输入快速制作注释文件。

进化树构建流程

从基因组直接建树,de_novo_wf:构建新树并用GTDB注释,包括鉴定、比对、推断树、确定根和装饰。

输入文件为细菌基因组的目录(—genome_dir),指定扩展名类型(—extension),以及输出目录(—out_dir)。必须参数有需要选择细菌(—bacteria)/古菌,指定外类群(—outgroup_taxon)。可选常用参数有结果前缀(—prefix)和使用线程数(—cpus)。

# 约4小时。
gtdbtk de_novo_wf --genome_dir bin \
    --out_dir de_novo_wf \
    --extension gz \
    --bacteria \
    --outgroup_taxon p__Patescibacteria \
    --prefix bin \
    --cpus 8

主要结果有:

  • bin.bac120.decorated.tree: 修饰的有根树

  • bin.bac120.decorated.tree-table:

    树相关信息表

  • bin.bac120.user_msa.fasta:

    多序列对齐文件

附录:GTDB数据库简介

基因组位于 https://data.ace.uq.edu.au/public/gtdb/data/releases/ 中相应版本的genomic_files_reps目录下,

建议大家直接下载latest目录下的最新版,可以保持下载位置一致,同时记录版本号(当前为2020年7月13号更新95版)。

GTDB-tk使用的数据库,位于auxillary_files文件夹中的gtdbtk_data.tar.gz,95版为33G

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/auxillary_files/gtdbtk_data.tar.gz

物种注释文件,古菌3千多种,细菌,19万多种

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/ar122_taxonomy_r95.tsv
wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/bac120_taxonomy_r95.tsv

参考基因组文件,32G

wget -c https://data.ace.uq.edu.au/public/gtdb/data/releases/latest/genomic_files_reps/gtdb_genomes_reps.tar.gz

软件:Pierre-Alain Chaumeil, Aaron J Mussig, Philip Hugenholtz & Donovan H Parks. (2019). GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy Database. Bioinformatics 36, 1925-1927, doi: https://doi.org/10.1093/bioinformatics/btz848

120个基因单拷贝分类法;Donovan H. Parks, Maria Chuvochina, David W. Waite, Christian Rinke, Adam Skarshewski, Pierre-Alain Chaumeil & Philip Hugenholtz. (2018). A standardized bacterial taxonomy based on genome phylogeny substantially revises the tree of life. Nature Biotechnology 36, 996, doi: https://doi.org/10.1038/nbt.4229

种特异的方法和数据库 Donovan H. Parks, Maria Chuvochina, Pierre-Alain Chaumeil, Christian Rinke, Aaron J. Mussig & Philip Hugenholtz. (2020). A complete domain-to-species taxonomy for Bacteria and Archaea. Nature Biotechnology 38, 1079-1086, doi: https://doi.org/10.1038/s41587-020-0501-8

使用实战:Alexandre Almeida, Stephen Nayfach, Miguel Boland, Francesco Strozzi, Martin Beracochea, Zhou Jason Shi, Katherine S. Pollard, Ekaterina Sakharova, Donovan H. Parks, Philip Hugenholtz, Nicola Segata, Nikos C. Kyrpides & Robert D. Finn. (2020). A unified catalog of 204,938 reference genomes from the human gut microbiome. Nature Biotechnology, doi: https://doi.org/10.1038/s41587-020-0603-3

调用的软件引文如下:

基因预测软件Prodigal:Doug Hyatt, Gwo-Liang Chen, Philip F. LoCascio, Miriam L. Land, Frank W. Larimer & Loren J. Hauser. (2010). Prodigal: prokaryotic gene recognition and translation initiation site identification. BMC Bioinformatics 11, 119, doi: https://doi.org/10.1186/1471-2105-11-119

参考树插值法建树pplacer:Frederick A. Matsen, Robin B. Kodner & E. Virginia Armbrust. (2010). pplacer: linear time maximum-likelihood and Bayesian phylogenetic placement of sequences onto a fixed reference tree. BMC Bioinformatics 11, 538, doi: https://doi.org/10.1186/1471-2105-11-538

快速建树软件FastTree:Morgan N. Price, Paramvir S. Dehal & Adam P. Arkin. (2010). FastTree 2 – approximately maximum-likelihood trees for large alignments. PloS One 5, e9490, doi: https://doi.org/10.1371/journal.pone.0009490

基因组距离估计Mash:Brian D. Ondov, Todd J. Treangen, Páll Melsted, Adam B. Mallonee, Nicholas H. Bergman, Sergey Koren & Adam M. Phillippy. (2016). Mash: fast genome and metagenome distance estimation using MinHash. Genome Biology 17, 132, doi: https://doi.org/10.1186/s13059-016-0997-x

高通量ANI计算:Chirag Jain, Luis M. Rodriguez-R, Adam M. Phillippy, Konstantinos T. Konstantinidis & Srinivas Aluru. (2018). High throughput ANI analysis of 90K prokaryotic genomes reveals clear species boundaries. Nature Communications 9, 5114, doi: https://doi.org/10.1038/s41467-018-07641-9

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘  

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

该软件使我们可以在Postgres中创建一个关系数据库来托管完整的细菌基因组。 除了数据库之外,还有一些软件工具,例如解析器,可以将EMBL或GBK文件转换为CpDB关系模式。 一旦进入CpDB,就可以使用SQL从细菌基因组中提取无限的报告。 该软件是博士学位的一部分。 是由安德森·桑托斯(Anderson Santos)获得的生物信息学博士学位,是在假肺杆菌(Corynebacterium pseudotuberculosis)(Cp)泛基因组计划下开发的。 2009年至2012年之间,Cp全景基因组向科学界提供了15个细菌菌株,这些菌株已保存在GenBank数据库中。完整的论文用葡萄牙语-葡萄牙语撰写。 可从以下地址获得一本书的英文章节,以解释该软件的原因和用途:http://www.intechopen.com/articles/show/title/whole-genome-annotation-in-silico-analysis。 CpDB也是Pannotator工具的骨干:http://pannotator.facom.ufu.br享受它。 手里有一堆未知分类基因组序列,想知道它们是哪个种?是不是新的种?手工一个个的看16s rRNA序列或者是ANI分析,太费劲了!基因组分类数据库 GTDB(Genome Taxonomy... GTDB-Tk v1.3.0 requires ~25G of external data which needs to be downloaded and unarchived. This can be done automatically, or manually: 1. Run the command download-db.sh to automatically download to: 基因组分类数据库:GENOME TAXONOMY DATABASE(https://gtdb.ecogenomic.org/)GTDB Release 214.1 is now available(63G,太大了简直。我用服务器直接下载提示要100多天才能下载完成)所以还是用电脑Windows下载后上传至服务器方便些! krakenuniq flextaxd(flextaxd)脚本允许自定义NCBI,QIIME或CanSNPer源格式的数据库,并支持将导出功能转换为NCBI格式的名称和node.dmp文件以及标准制表符分隔的文件(或选定的分隔)。 建立资料库 从源文件--taxonomy_file创建数据库 然后选择--taxonomy_type [支持的格式] 修改数据库 修改分类法(--mod_file / ---- mod_database) 修改选定节点(-父节点)的分类树,需要修改 在 main.py 里的这部分代码的default 替换成你自己的 gtdb 的路径即可,当然,你也可以用参数输入对应的路径。将解压后的文件放到一个文件夹里,default 里填写这个文件夹的绝对路径。 GTDB物种集群工具包 该工具包提供了用于建立,更新和验证使用的物种簇的功能。 它具有透明性,我们对代码的任何部分都可以重用感到高兴,但总的来说,该工具包供GTDB团队内部使用。 在GTDB R04-RS89中引入了物种集群。 如果您发现此软件包有用,请引用: DH,Parks等。 (2020)。 “ ” Nature Biotechnology , 。 classify_wf的输入(—genome_dir)为包含多个基因组的文件夹,并指定输出文件(—out_dir)。可选参数有扩展名(—extension)默认为fna,可选fa,gz等;release207一定要加上不然会一直有上面的报错!--skip_ani_screen 加上之后就可以跑了。我们这边已经下载好了,后面记得映射。下好之后先run起来试试(失败了)报错了,看看这两个参数是干什么的。加了nohup 看看会不会断吧!但是出现了新的报错(哈哈哈哈)再试试直接跑,不-itd了。 这个就是分类了,就是物种注释ani_screenidentifyalign, andclassifyiTOLidentifyaligninferroot, anddecorate###输入输出文件格式:>genome_aAKLAK01011>genome_aKAK大家随时可参考这里查看输入输出文件格式,每类文件都有一个示例gtdbtk.logmsa.fastapfam.tsvtree.log。