添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
独立的日记本  ·  pandas ...·  4 月前    · 
鬼畜的大象  ·  wpf ...·  6 月前    · 
单细胞转录因子分析利器——SCENIC软件(原理详解)

单细胞转录因子分析利器——SCENIC软件(原理详解)

实用科研工具推荐 、详实生信软件教程分享、前沿创新组学文章解读、独家生信视频教程发布,欢迎关注微信公众号: 基迪奥生物 ( gene-denovo

本文作者:September


转录因子 (transcription factors, TFs) 是直接作用于基因组,与特定DNA序列结合 (TFBS/motif) ,调控DNA转录过程的一类蛋白质。转录因子可以调节基因组DNA开放性、募集RNA聚合酶进行转录过程、募集辅助因子调节特定的转录阶段,调控诸多生命进程,诸如免疫反应、发育模式等。因此,分析转录因子表达及其调控活性对于解析复杂生命活动具有重要意义。

图1 TF功能结构示意图[1]

传统的转录因子分析大多是对已知转录因子的表达和未知蛋白的转录因子预测分析,涉及活性分析的极少,而转录因子活性是其发挥作用的关键指标。

因此,今天想给大家介绍的就是一款可以分析转录因子活性的软件 SCENIC [2],这款软件是基于单细胞转录组数据开发的,可以解析单个细胞中转录因子活性。对于单细胞转录组而言,转录因子活性差异不仅为细胞异质性研究带来了新的思路,同时还可以从转录因子入手快速解析关键的分析调控机制。那么话不多说,我们一起来看看这个软件到底是如何完成转录因子活性分析的吧~

1. 软件简介

SCENIC是2017年11月发表在 Nature Methods 期刊的一种单细胞转录因子分析方法,也是目前进行单细胞转录因子分析的主流软件,该软件在进行数据分析的同时也能得到可视化结果图。另外,SCENIC是一款开源软件,可以免费下载使用,目前软件有R和python两个版本,每个版本都配备了详细的使用说明(软件官网 scenic.aertslab.org/ )。但有一点需要特别注意,该软件是有物种限制的,目前只能分析人、小鼠和果蝇的数据,具体限制原因,我们在后面的分析原理中揭晓~

2. 分析原理

在输入单细胞基因表达量矩阵后,SCENIC经过以下三个步骤完成转录因子分析:第一步是构建共表达网络、第二步是构建TF-targets网络、第三步是计算Regulons活性,每一个步骤都由一个专门的软件包完成。我们来看一下各步骤详解。

2.1 GENIE3——共表达网络构建

第一步由GENIE3或GRNBoost软件完成,这里以GENIE3为例介绍。GENIE3 (GEne NetworkInference with Ensemble of trees) ,基于树的基因网络推理,是一种从基因表达数据推断基因调控网络的方法[3]。软件以单细胞基因表达量矩阵为输入文件,以每个目标基因 (gene) 为输出,以转录因子 (TF) 为输入,构建P个随机森林树(P=矩阵中基因数量),并计算每个TF与gene之间的重要性评分 (IM) ,最终可以获得TF-genes共表达模块。最后删除IM低于阈值的基因关系,过滤基因数低于50的模块。如果觉得不太好理解,下图2也为大家做了简化~

图2 GENIE3网络构建过程

2.2 RcisTarget——motif富集及靶基因预测

从第一步我们获得了TF-genes共表达网络,但这个网络只是基于TF和gene表达量相关性推测的,TF和gene之间是否现实存在调控关系还需要进一步确证。确证的方法主要从TF功能结构入手,从图1我们可以看出,TF是通过直接与DNA结合而发挥作用的,因此我们可以通过反向查看gene上是否存在TF结合的motif序列来验证TF与gene的靶向关系。

这一步可以借助RcisTarget软件完成,该软件运行必备两个数据库:1)gene-motif排名数据库:为每个motif提供所有gene的排名(~分数);2)motif-TF注释数据库:对每一个motif注释其所对应的TF[4]。由于不同物种基因组不一样,导致每个motif对应靶基因不同,因此针对不同物种需要构建不同的数据库,软件目前配置了人、小鼠、果蝇数据库,其他物种需要自己构建数据库噢~这也是我们在开头提醒大家注意物种限制的原因。

那么具体验证过程,首先基于gene-motif数据库,每个motif对模块中所有基因进行累积,模块中的基因排名越靠前,累积曲线越高,曲线下面积 (AUC) 越大,表明motif在该模块中的富集程度越高,然后对每个模块选取显著富集的motif,并预测其靶基因,最终综合TF-genes模块和靶基因预测结果,构成一个包含了TF和靶基因的基因调控网络模块 (regulons)。下图3也为大家做了简要概括。

图3 RcisTarget Regulons构建过程


2.3 AUCell——Regulons活性定量

第三步就是Regulons活性定量。这一步由AUCell软件完成,AUCell是一种新的方法,允许在scRNA-seq数据中识别具有活性基因调控网络的细胞。

实际分析过程中,输入到AUCell的是一个基因集,输出的是每个细胞中的基因集“活性” (AUC, Area Under Curve) [2]。在SCENIC中,这些基因集即Regulons中所有基因,针对每个细胞,将细胞中所有基因按照表达量从高到低进行排序,根据Regulons中的基因在序列中的位置,计算累计曲线面积 (AUC) ,即为Regulons在细胞中的活性。

但由于不同regulons包含的基因不同,它们之间的AUC值不具有可比较性,因此基于AUC值在所有细胞中的双峰分布特征,增加了Regulons“on/off”的概念,认为双峰之间的低谷为判断Regulons活性开放的阈值,如果AUC值小于阈值,则判定为该Regulons在该细胞中未开放,即未发挥调控作用。最终获得每个Regulons在每个细胞中的开放性热图。

图4 AUCell 细胞Regulons活性计算过程


3. 结果解读

结果可视化也是SCENIC软件功能之一,默认输出的结果图主要是以下两种,一个是基于AUC值绘制的Regulons活性热图(图5左),图中每一行表示一个Regulons,每一列为一个细胞,颜色表示AUC值大小,这类热图主要用于比较同一Regulons在不同细胞中的活性,寻找Regulons特异性活化的细胞亚群;另一种是基于AUC二值矩阵绘制的Regulons开放性热图(图5右),这类热图可用于寻找细胞中开放的Regulons,有利于细胞亚群功能判断。

图5 Regulons活性热图(左),Regulons开放性热图(右)

今天主要是为大家介绍SCENIC转录因子分析原理,下期我们会详细为大家解读单细胞转录因子分析结果以及具体应用思路,下期见~

想要了解更多单细胞转录组相关知识,欢迎来参加基迪奥年末最后一期单细胞转录组培训班噢~理论实操应有尽有!


参考文献
[1] Lambert SA, Jolma A, Campitelli LF, Das PK, Yin Y, Albu M, Chen X, Taipale J, Hughes TR, Weirauch MT. The Human Transcription Factors. Cell. 2018 Feb 8;172(4):650-665.
[2] Aibar S, González-Blas CB, Moerman T, Huynh-Thu VA, Imrichova H, Hulselmans G, Rambow F, Marine JC, Geurts P, Aerts J, van den Oord J, Atak ZK, Wouters J, Aerts S. SCENIC: single-cell regulatory network inference and clustering. Nat Methods. 2017 Nov;14(11):1083-1086.
[3] Huynh-Thu VA, Irrthum A, Wehenkel L, Geurts P. Inferring regulatory networks from expression data using tree-based methods. PLoS One. 2010 Sep 28;5(9):e12776.
[4] Herrmann C, Van de Sande B, Potier D, Aerts S. i-cisTarget: an integrative genomics method for the prediction of regulatory features and cis-regulatory modules. Nucleic Acids Res. 2012 Aug;40(15):e114.
编辑于 2021-11-16 18:05