《基于数加MaxCompute的极速基因组数据分析(17页).pdf》由会员分享,可在线阅读,更多相关《基于数加MaxCompute的极速基因组数据分析(17页).pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、黄树嘉华大基因 基因组学数据专家基于数加MaxCompute的极速全基因组数据分析全基因组测序的背景与原理传统单机分析流程的挑战基于MaxCompute的方案目 录content什么是基因基因,生命的基本因素,是人类和其他生物的基础遗传物质什么是基因测序一个人一生的基因数据10TB=0.1TB +0.7TB +2TB +3TB +X TB基因组转录组表观组 宏基因组其他Sequencing1 1 AnalysisAnalysisAlignmentVariant calling2 2 AnalysisAnalysisVariant interpretationExternal/Internal
2、knowledge integration3 3 AnalysisAnalysisKnowledge基因数据分析的过程传统单机分析流程的挑战挑战1:流程繁杂,标准难统一分析流程特点:1.多个分析步骤2.每个步骤都会包含很多分析脚本,系统命令和外部工具3.工具要被反复手动部署到计算集群挑战2:命令行操作、交互性差挑战3:时间长时间(小时)传统HPC集群72(3.0 days)单个节点计算140(5.8 days)分析一个人的基因组120G数据,往往需要3天以上的时间。数据的解读跟不上数据的产出。一次测序的数据产出测序仪测序仪一次测序的数一次测序的数据总产量据总产量一次测序的一次测序的Reads(
3、Billion)测序读长(测序读长(bp)测序时间周期测序时间周期HiSeq 3000750GB2.1-2.5PE 1503.5 daysHiSeq 40001.5TB4.3-5.0PE 1503.5 days基于MaxCompute的方案MapperMapperMapperGVCF Tables ReducerReducerReducerReducerReducerReducerMaxCompute分布式计算020406080100单节点普通HPC集群 Hadoop集群MaxCompute比单机提升 50+倍比HPC集群提升 25+倍比Hadoop集群提升6+倍单个基因组分析实现50+倍的加速120G数据3个小时精确度:99.57%Recall:98.53%F-Measure:99.05%更快:50个全基因组分析数据来源于华大基因内部已有成果发表的项目2大步骤,70000+任务,41.5小时2steps70000+Jobs41.5hours50min/genome2TFASTQ21G VCF海量的计算,从原始数据到精确变异