欢迎关注”生信修炼手册”!
在组学数据分析中,基因富集分析是最常用的方法之一,所有的基因数据分析最终都要落实到功能上去,富集分析作为一种最基础的功能研究方法,通过go, kegg pathway等不同的基因功能注释数据库,再结合对应的富集分析算法,可以探究输入的基因富集在哪些功能上。
富集分析的必要性和重要性不言而喻,有很多的成熟的软件可以来进行这样的分析,比如clusterProfiler, GSEA等等,然而这些工具的使用还是具备一定的门槛,对于没有编程经验的生物学家而言通过这些软件得到富集分析的结果并不是一件容易的事情。
为了方便广大科研工作者进行富集分析,有很多的在线工具被开发出来,其操作简便,更易上手,最著名的当属DAVID这个网站了,有接近4000次的引用。然而该网站数据更新并不及时,在现在看来,其数据库版本过于老旧,而且不支持一些新出的功能注释数据库。
webgestalt是一个专注于富集分析的在线网站,支持多种富集分析算法,而且涵盖的功能注释数据库较为全面,在今年5月份刚刚升级了版本,对数据库进行了更新。对应的文章发表在Nucleic Acids Research上,链接如下
https://academic.oup.com/nar/article/47/W1/W199/5494758
http://www.webgestalt.org
支持12个物种,324种基因ID格式,功能注释不仅包括了常见的go,kegg, 还涵盖了蛋白质相互作用,miRNA靶基因,疾病注释,药物靶点等各种注释信息。支持3种富集分析算法
-
Overrepresentation Enrichment AnalysisORA
-
Gene Set Enrichment Analysis(GSEA)
-
Network Topology-based Analysis(NTA)
官网提供了3种算法的示例,通过示例数据可以快速掌握其用法,无论哪种富集算法,基本上都分以下两个部分
1. Basic parameters
基本参数指定物种,富集分析的算法,对应的功能注释数据库,输入的基因列表,背景基因列表等信息,示意如下
2. Advanced parameters
高级参数用于对输出结果的过滤,不同富集算法对应的参数列表也稍有不同,ORA算法的参数示意如下
设置好对应参数,直接点击
submit
按钮,提交即可。不同富集算法和数据库,结果展示也不尽相同,但是基本的表格数据, 柱状图,GSEA的富集图片等结果都是有的,几种常见的结果示意如下
1. 富集分析的表格
2. 富集分析的柱状图
3. GSEA富集分析结果图
4. GO DAG 有向无环图
webgestalt通过鼠标点击就可以轻松实现各种富集分析,而且数据库更新的也非常及时,如果需要进行富集分析,该网站绝对值得推荐和使用。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!
欢迎关注”生信修炼手册”!在组学数据分析中,基因富集分析是最常用的方法之一,所有的基因数据分析最终都要落实到功能上去,富集分析作为一种最基础的功能研究方法,通过go, kegg path...
基因
富集
分析
是在一组
基因
中找到具有一定
基因
功能特征和生物过程的
基因
集的
分析
方法,在研究差异表达
基因
、筛选
基因
的后续
分析
中经常使用。
富集
分析
能够发现在生物学过程中起关键作用的生物通路, 并且帮助理解生物学过程的分子机制。它是快速调查目标
基因
集功能倾向性的方法之一。
进行
基因
功能
富集
的网站很多,下面我们先介绍其中一个,叫DAVID。
这个网站目前用中国的百度似乎搜索不到了,我们可以用谷歌搜索一下:
欢迎关注微信公众号《生信修炼手册》!
对于Gene ontology 而言,目前共有2万多个Go trems。 做完
富集
分析
后,我们可能会得到几百甚至几千个
富集
到的GO terms, 这样的一个数据量对于人工一个个检索而言,仍然是一个艰巨的任务。为了有效的利用GO
富集
分析
的结果,我们势必需要对结果再次进行过滤。
所有GO的层次结构关系如下图所示
这样的结构我们称之为有向无环图DAG, 虽然在图这...
之前总结了一篇关于
GSEA
富集
分析
的推文——《
GSEA
富集
分析
- 界面操作》,大略介绍了
GSEA
的定义、
GSEA
原理、
GSEA
分析
、Leading-edge
分析
等,不太了解的朋友可以点击阅读先理解下概念。
最近用自己数据实战
分析
时用到了该方法,故将一些之前遗漏的点补充整理出来分享给大家。
从前文中我们了解到
GSEA
分析
的目的是要判断S集
基因
(基于先验知识的
基因
注释信息)中的
基因
是随机分布还是聚集...
1. 简介
GSEA
是 2003 年提出来的一种对表达谱芯片进行
分析
的方法,并被编制成软件。它的主要目的就是确定预先定义的基
因集(具有相同或相似的功能,或位于同一染色体相邻位点的一群
基因
)在表达谱芯片结果中是否有显著性。
GSEA
分析
过程分为 5 步:
1.
基因
知识库的获得;
2. 根据
基因
表达谱数据对所有
基因
进行排序;
3. 计算
富集
得分(enrichment score,ES);
4. 估计显著性水平;
5. 进行多重假设检验。
GSEA
能够鉴定疾病发生过程中潜在的及起决定作用的遗传改变或信号
Web
Sestalt(见文末)
Web
Sestalt 全称为
WEB
-based Gene SeT AnaLysis Toolkit。翻译过来也就是,基于网页的
基因
集的
分析
工具
。由于基于网页嘛,所以就会很简单的入手。从这个
数据库
的更新来看,这个
数据库
有13,17,19版本,所以还是在一直更新的,结果的质量还是有一定保证的。这样对于不会编程的人而言,也是可以很容易上手的。
根据我们之前介绍的三种
富集
分析
的
算法
,这个
数据库
也同样基于三种
算法
分成了三个功能。
快速目录链接
GSEA
分析
简介
分析
步骤1、准备数据(1)表达数据文件(2)表型标签文件2、数据导入3、参数设置及运行
GSEA
分析
简介
基因
集
富集
分析
(
GSEA
)是一种计算方法,用于确定一组定义好的
基因
是否在两种生物状态(如表型)之间显示出统计上显著的一致性差异。
分析
步骤
首先在官网下载软件:软件下载
1、准备数据
使用
GSEA
时,可以提供四个数据文件:表达数据集文件、表型标签文件、
基因
集文件和芯...
DAVID官网
KEGG
富集
分析
和GO
富集
分析
方法一致,具体步骤见我上篇文章DAVID
在线
工具
进行GO
富集
分析
,这里主要展示可视化结果
获得KEGG
富集
分析
结果
1.输入文件为所有差异表达
基因
列表
2.选择GO
富集
分析
结果时,我们点击“Path...