宏基因组主要研究微生物群落的组成及功能情况,简单来说,就是群落有什么微生物以及它们能做什么。物种注释是实现这些研究的关键分析步骤。
利用宏基因组数据进行物种注释的方式有多种,总的来说可以分为
两大类:
基于特殊基因片段注释;
基于广泛基因组序列注释。
不同的注释方法会影响物种注释率、分类水平高低、注释准确率等关键指标,同时对分析流程来说,不同分析方法还会关系到其分析时间、资源消耗、系统兼容性等多种问题。因此,对于复杂的宏基因组研究来说,挑选合理的技术进行物种分析至为关键。
图1. 物种注释方法分类
众所周知,宏基因组测序中包含大量16srDNA数据,我们可以通过专门软件提取这些数据,进一步对16s数据进行OTU聚类,最后根据silva等数据注释物种信息。这种分析方法实际上是基于特殊基因片段注释的一种。
虽然理论上可这么操作,但实际上由于宏基因组测序深度不足等问题,这种方法的物种检测率并不十分稳定。
现在不少分析通过组装获得基因片段,然后将基因比对NR数据库方法进行注释,这种基于蛋白比对的方法虽然注释率相对较高,但在定量上会存在大量问题,因此也会干扰物种分析,同时这种方法也会受组装结果的影响,因此注释准确性也有待提高。
那是否有不受组装影响也能提高注释准确率的方法?
答案是肯定的,现阶段一些基于reads的注释方法是一个不错的选择。利用reads在数据库中检索,我们能快速准确地注释物种,不但能够提高准确性,还能提高分类的精确度。
如果想要进一步了解宏基因组的这些物种注释方法的特点,以及如何为物种分析选择准确的方法,可以关注我们的第47期在线课堂《宏基因组物种注释方法介绍》。
1. 宏基因组物种注释重要性讨论
2. 各种物种注释方法的比较与选择
3. 宏基因组物种分析注意事项
2018年的第1期 OmicShare 在线课堂(
第
47
期
)将于
1月18日
(
下周四
)16:00
准时开始,大家可以通过点“
阅读原文
”或 基迪奥生物 微信公众号底端菜单栏 “
在线课堂
” 报名,也可以加入生信交流QQ群(
群号:
659344871
)交流讨论~
返回搜狐,查看更多
责任编辑:
平台声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。