添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
OmicVerse: 解决整个转录组学分析的Python框架

OmicVerse: 解决整个转录组学分析的Python框架

2023年6月7日,来自北京科技大学,清华大学与中山大学的研究者在 biorxiv 上发布了一篇题为“ OmicVerse: A single pipeline for exploring the entire transcriptome universe ” 的研究工作。该框架的提出,解决了单细胞转录组学与bulk转录组学分析中不同算法的格式不一致,运算过慢以及可视化问题。除此之外,该框架还提出了一种名为“ BulkTrajBlend ”的单细胞插补算法,用于解决单细胞测序中由于技术限制(如通量,细胞类型)导致的细胞分化的中断问题 [1] 。我是论文的第一作者。

代码仓库: github.com/Starlitnight

框架教程: omicverse.readthedocs.io

论文地址: OmicVerse: A single pipeline for exploring the entire transcriptome universe

引言

OmicVerse 是在我大三保研做Bulk RNA-seq时提出的,当时为了自己分析的方便,就把差异表达分析(DEG),加权基因共表达分析(WGCNA),通路富集分析(GSEA)等整合进了一个叫Pyomic的包中方便自己调用,当时的野心很大,想把整个组学分析都用Python来完成 (笑)

现在博士一年级,也做了快两年的单细胞分析,中途用了很多包,但 不同的包之间,对于格式的需求往往是不一样 的,而且有的包本身并 没有好好利用GPU的计算优势 ,并且 大部分的包所作的图与CNS上的图差别还是比较大 的。所以我就把当时的Pyomic给捡了起来,把我做分析用到的所有包都塞进了omicverse里面,统一了它们的输入输出,并对部分可以优化的算法进行了优化,以及给出了一些新的可视化函数来帮助研究人员呈现结果。可能你会想,这不就是一个整合的包吗?但其实不是。

  • 我通过大量的基准测试,以及相关的paper, 整理出了一套最适的Python单细胞RNA-seq,Bulk RNA-seq分析流程与可视化
  • 我提出了一种新的生物学算法“ BulkTrajBlend ”, 解决了单细胞测序中由于通量限制导致的细胞不连续现象
图1|omicverse的概述

Bulk RNA-seq

整个框架由三部分构成,分别是Bulk RNA-seq,singel cell RNA-seq以及Bulk2Single部分。omicverse提出了一套完整的Bulk RNA-seq分析流程,包括 基因ID比对 差异表达分析(ttest,wliconx,DESeq2) 通路富集分析 基因共表达模块分析 。在Supplementary Note里面,我们通过阿尔茨海默症的RNA-seq数据演示了整个分析

Bulk RNA-seq分析教程: omicverse.readthedocs.io


图2|Bulk RNA-seq的分析效果


单细胞 RNA-seq

对于单细胞分析, omicverse 也提供了一套完整的分析框架,包括 单细胞质控与预处理 , 细胞类型自动注释 细胞分化轨迹推断 亚群差异表达分析 细胞通路打分AUCell 药物反应预测 细胞通讯分析 。我们应用结直肠癌的单细胞数据来完成了分析的实验。

单细胞RNA-seq分析教程: omicverse.readthedocs.io

图3|单细胞RNA-seq的分析效果
图4|单细胞RNA-seq的分析效果

scRNA-seq与scATAC-seq联合分析

在去年,来自北京大学的高歌课题组提出了一种名为 GLUE 的算法,将两个不同的组学层嵌入到一个低维空间中,文章发表在 Nature Biotechnology [2] 。在2018年,多组学算法 MOFA 的提出解决了斑马鱼内胚层命运的分化问题,文章发表在 Nature [3] [4] 。但MOFA受限于一个样本多个组学层,GLUE恰好可以解决不同组学层的整合问题,故我们将GLUE与MOFA的联合分析整合进了omicverse中。我们在Supplementary中应用阿尔茨海默症证明分析的可靠性。

多组学分析教程: omicverse.readthedocs.io


图5|多组学整合效果

从Bulk RNA-seq生成Single RNA-seq

2022年,浙江大学范晓辉课题组提出了BulkSpace算法,该算法利用解卷积与深度随机森林模型解决了从Bulk RNA-seq生成空间转录组数据的问题 [5] 。我们将该算法拆解成两个部分:bulk2single与single2spatial,并且我们改进了single2spatial部分,因为原作者是想用深度随机森林完成分类问题,我们改成了神经网络完成分类问题,充分利用了GPU加速。我们对比了优化前后的算法,分类与生成效果一致,同时速度大幅提升。我们在阿尔茨海默症和PDAC数据上给出了算法的分析框架。

Bulk2single分析教程: omicverse.readthedocs.io

图6|Bulk2single分析效果

结语

我个人很喜欢这项工作,它减少了我很多的代码量。在论文的最后部分我是这么写的。我希望构建一个基于Python的转录组学分析框架与生态,但仅凭我一人之力可能还有很多问题没有发现,欢迎对omicverse感兴趣的研究人员在github上面提相关的issue或者pr,帮助omicverse变得更好。

github地址: github.com/Starlitnight

我们的目标是在Python环境中创建一个适用于bulk/singel RNA-seq分析和优美可视化的生态系统。用户可以利用Python社区的机器学习模型和专业知识,使用单一编程语言进行全面的转录组分析。随着OmicVerse不断发展,我们预计会进行持续更新,引入新的算法、功能和模型。OmicVerse预计将受益于bulk/singel RNA-seq社区,促进新模型的原型开发,建立跨组学分析的标准,以及加强科学发现的流程。

参考

  1. ^ Zeng Z, Ma Y, Hu L, Xiong Y, Du H. OmicVerse: A single pipeline for exploring the entire transcriptome universe. Cold Spring Harbor Laboratory; 2023.
  2. ^ Cao Z-J, Gao G. Multi-omics single-cell data integration and regulatory inference with graph-linked embedding. Nat Biotechnol. 2022;40:1458–66.
  3. ^ Argelaguet R, Arnol D, Bredikhin D, Deloro Y, Velten B, Marioni JC, et al. MOFA+: a statistical framework for comprehensive integration of multi-modal single-cell data. Genome Biol. 2020;21
  4. ^ Argelaguet R, Clark SJ, Mohammed H, Stapel LC, Krueger C, Kapourani C-A, et al. Multi-omics profiling of mouse gastrulation at single-cell resolution. Nature. 2019;576:487–91.
  5. ^ Liao J, Qian J, Fang Y, Chen Z, Zhuang X, Zhang N, et al. De novo analysis of bulk RNA-seq data at spatially resolved single-cell resolution. Nature Communications. 2022;13:6498.
发布于 2023-06-09 20:24 ・IP 属地北京