在二月份 DahShu 免费线上讲座中,我们将聚焦生物信息基因测序领域, 邀请了来自硅谷的明星创业公司 – 基因测序数据软件 Sentieon 高级数据科学家胡晋南博士 (Dr. Frank Hu) 同我们分享 Sentieon 如何利用机器学习算法、软件和系统优化,使公司在创业初期就跻身成为业界第一快速、准确的商业机密。
讲座嘉宾
:
-
Dr Frank Hu,胡晋南博士,Sentieon Senior Bioinformatics Scientist
胡博士目前担任 Sentieon 的高级生物信息学科学家,负责产品周期管理并推动 Sentieon 在亚洲市场(尤其是中国)的业务成功。胡博士于2008年获得南京大学的学士学位,2013年获得俄亥俄州立大学的基因组学博士学位,并在 Joint Genome Institute, Lawrence Berkeley National Laboratory 从事计算生物学的博后工作。 胡博士在 NGS 数据分析方面拥有丰富的经验,以第一作者身份在同行评审期刊上发表了多篇论文。 本期 DahShu 讲座,胡博士将同我们分享 Sentieon 是如何利用机器学习迅速成为 NGS 测序数据软件的世界冠军。
讲座时间
2021年2月19日 星期五
09:00 – 10:00AM (PDT), 12:00 – 1:00PM (EST)
报名链接
点击链接报名:https://dahshu.wildapricot.org/event-4166861
点击链接申请Sentieon软件:https://www.insvast.com/sentieon
作为一名生信领域的研究人员,小编在进行二代测序数据分析时(如SNP/ Indel 突变检测),最常用的就是用 Broad Institue 开发的 BWA+GATK 流程对原始测序数据进行处理。而经过十多年大量样本的反复验证,BWA+GATK 也得到了学术界和业界的广泛认可,是公认的测序数据原始处理的金标准。
但是,BWA + GATK 流程也有几个显著的问题:
-
高计算成本:流程时间长,资源利用率低 。
-
测序深度区域的随机降采样降低了突变检测的灵敏度和准确度。
为了从根源上解决测序数据分析工具的短板,Sentieon 创始人叶军团队提出了三个层次来提升 BWA+GATK:
-
数学模型;
-
计算机的算法,即如何把一整套数学公式在计算机上用高效的方法去实现;
-
用程序也就是计算机语言分解落实到每个细节。
首先,Sentieon 基于 BWA+GATK,并不断完善其数学模型,将原本不能提取的基因组信息完整。同时,优化的算法让 Sentieon 拥有极速周转时间和超低成本: 对于一个30X WGS全基因组测序流程,在分布式计算处理中流程小于30分钟,在单个服务器中流程小于2小时 ---- 大大减少了运算时间和成本,同时结果与 BWA/GATK保持近乎100%一致。
此外,Sentieon还开发了在通用CPU上运行的快速、准确的辅助分析流程,且十分容易部署在本地或者云端,涵盖了 BCL conversion, alignment, germline and somatic variant calling。Sentieon 还开发了具有机器学习功能的 DNAscope 和TNscope 流程,以实现一流的变体调用准确性,并且可以轻松地适应许多测序平台,包括Illumina,MGI 和 PacBio。
自从 Sentieon 2015年正式推出软件产品以来,多次赢得国际生信大赛的第一名或并列第一名:
· 2016 PrecisionFDA Truth Challenge
· 2016 PrecisionFDA Consistency Challenge
· 2016 ICGC-TCGA-DREAM Somatic Mutation Calling Challenge
· 2017 PrecisionFDA Hidden Treasures - Warm Up
· 2018 PrecisionFDA NCI-CPTAC Multi-omics Enabled Sample Mislabeling Correction Challenge, both subchallenge1 and subchallenge2
· 2019 Bio-IT Innovative Practices Awards
· 2019-2020 Sentieon 在 precisionFDA多组学数据挑战赛夺冠
Sentieon 优异的表现也来源于其不断将机器学习和AI 应用到多组学分析中,以实现softPharma 更广阔的视野。与传统的“大数据”机器学习问题不同,多组学的主要挑战在于其小样本、高维度的特质,即每个样本都有深层数据。自2018年以来,Sentieon 参加并赢得了 PrecisionFDA 的三项多组学 AI 建模挑战,展示了其解决这些问题的能力
sentieon
很久之前就听说sentieon在跑calling variants的速度非常快,能甩GATK 不知道多少条街,但是一直缺少一次机会去进行测试。这里感谢sentieon软件公司的张春风提供的测试名额,让我不需要在使用超算测试的时候不用那么漫长的等待就能够测试软件。
这篇教程分为两个部分,第一步部分是sentieon的使用环境,第二部分记录我如何登陆超算服...
IntegratedLearner-用于多组
学
预测和分类的集成
机器学习
该存储库在横截面和纵向多组
学
数据集中包含用于多组
学
分类和预测的IntegratedLearner源代码,同时允许使用多个协变量和随机效应。支持二进制结果和连续结果(单变量)。
此外,目前有三种交叉验证方案可用于培训:
留出一个交叉验证的主题,以进行重复的测量设计
在没有独立验证集的情况下的嵌套交叉验证
在存在独立验证集的情况下进行香草交叉验证
要运行R代码,需要包含以下库:
library( devtools
library( caret )
library( tidyverse )
devtools :: source_url( " https://github.com/himelmallick/IntegratedLearner/blob/master/scripts/IntegratedLearner_CV.R
顶刊发表助力
学
员发表Nature、Science、Cell等正刊及子刊杂志!(在
生
信
分析
的新技术加持下,用更少的经费,发更高质量的文章)科研背景01
机器学习
单细胞
分析
:细胞
生
物
学
的相关研究一直受限于数据的完整性和表型的完整性,对应激状态和稳态下的细胞区别观察不够充分。过去五年中,计算机视觉和语音识别领域通过对大量的无标签数据进行
学
习、建模,很好的解决了数据不足的问题。同样在最近的研究中,
机器学习
...
点击蓝字 关注我们Majorbio Cloud:一站式多组
学
数据
分析
平台https://doi.org/10.1002/imt2.12全文解读前 言随着高通量检测技术的发展,高通量组
学
数据
生
信
平台应运而
生
,MG-RAST,Qiita,BIGDdb,TRAPR,imageGP,MetOrigin等面向不同组
学
的
生
信
分析
平台大量涌现,但目前大部分平台只针对单一组
学
数据进行
生
...
随着遗传
学
、育种
学
的不断发展和人类基因组计划和分子
生
物
学
的日益发展,
生
物
学
数据在短短的几十年里得到了爆发式地增长。比如
生
物
信
息
学
里面的:回归
分析
、随机森林、支持向量机等算法,都是比较成熟的应用了。那今天本文,就给大家剖析一下当
生
物
信
息遇见
机器学习
,会有什么火花。
那开始讲
生
物
信
息与
机器学习
之前,我们要先阐述几个概念:
1.什么是
生
物
信
息
学
的数据
2.什么是GWAS
什么是
生
物
信
息
学
的数据
研究的数据类型,可以根据术手段分为基因型数据(GenoType Data)、表达量数据等;那其中基因型数据..
python语言
生
物
信
息多组
学
大数据深度挖掘与论文整理技巧实战培训班
各企事业单位:
Python是近几年最受欢迎人工智能编程语言。未来,Python也一定会是最受欢迎的编程语言之一。随着高通量测序以及
生
物
信
息
学
的发展,python语言在
生
物大数据
分析
以及数据挖掘中发挥着越来越重要的作用。想要成为一名优秀的
生
物数据
分析
者与科研团队不可或缺的人才,除了对
生
物
学
数据有独特的理解外,还需具备对
生
物大数据深度挖掘与
分析
能力。因此,为辅助提高
生
命科
学
研究工作者的
生
物数据深度挖掘与可视化技能以及论文SCI论文整理能力,我们举办了本次python语言与
生
物
信
息
学
培训班,通过本次培训让各位科研工作者了解python语言的每个元件,如何对这些基本元件进行组装,如何将思想转化为代码,如何将代码应用于
生
物大数据
分析
。本次会议我们从
生
信
库中精选一些python代码,进行实际操作演练,包括python语言精髓部分讲解、编写python代码、利用python语言
分析
生
物
学
数据、利用python语言绘制部分SCI图片。通过本次培训,使
学
员能够掌握python代码的编写思路进而可以独立进行
生
物
学
数据的挖掘,提高
学
员数据
分析
技能,增强论文整理技巧,助力科研。
分享高颜值免费
在线
绘图介绍和使用的一次视频直播视频演示 | 如何解读和
在线
绘制进化树并添加属性注释?视频演示 | WGCNA加权共表达
分析
在线
操作视频演示 | ImageGP重新绘制WGCNA性状关联热图视频演示 |
在线
差异基因/物种
分析
视频演示 | 画个火山图,标记下基因的名字视频演示 | BIC无代码绘制差异基因火山图视频演示 |点点鼠标
在线
绘制GO/KEGG富集
分析
泡泡图视频演示 | Me...
写在前面在与
生
物相关的研究中,
生
信
分析
基本上已经成为了一个绕不开的过程,面对高通量测序的大量数据,我们可能需要在Linux系统中使用专门的
生
信
分析
工具完成,这些工具通常
学
习成本较高,对于...
以目前的20180806为例,下载并解压缩
wget https://s3.amazonaws.com/sentieon-release/software/sentieon-genomics-201808.06.tar.gz
tar xf sentieon-genomics-201808.06.tar.gz
之后需要将软件的安装位置加入到环境变量PATH中。
此外需要申请一...
理解⼀种疾病的某种现象仅使用⼀种数据类型是远远不够的,随着高通量测序和多组
学
的快速发展,
生
物医
学
研究开始采取多组
学
技术结合的方法,传统的
信
息数据处理算法不能满足大数据的处理要求,
机器学习
作为从数据中进行
学
习的算法,可以对不同组
学
来源(如基因组
学
、转录组
学
、蛋白质组
学
、代谢组
学
)的数据进行综合
分析
,开发针对个体多样性的多因素预测模型,可以显著减少需要考虑的潜在治疗组合的空间,并识别其他可能被忽视的组合,并可以添加实验验证的步骤,以提供额外的证据,从而证明预测治疗可能存在的有效性。