上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

基于数加MaxCompute的极速基因组数据分析(17页).pdf

编号:91301 PDF 17页 2.37MB 下载积分:VIP专享
下载报告请您先登录!

基于数加MaxCompute的极速基因组数据分析(17页).pdf

1、黄树嘉华大基因 基因组学数据专家基于数加MaxCompute的极速全基因组数据分析全基因组测序的背景与原理传统单机分析流程的挑战基于MaxCompute的方案目 录content什么是基因基因,生命的基本因素,是人类和其他生物的基础遗传物质什么是基因测序一个人一生的基因数据10TB=0.1TB +0.7TB +2TB +3TB +X TB基因组转录组表观组 宏基因组其他Sequencing1 1 AnalysisAnalysisAlignmentVariant calling2 2 AnalysisAnalysisVariant interpretationExternal/Internal

2、knowledge integration3 3 AnalysisAnalysisKnowledge基因数据分析的过程传统单机分析流程的挑战挑战1:流程繁杂,标准难统一分析流程特点:1.多个分析步骤2.每个步骤都会包含很多分析脚本,系统命令和外部工具3.工具要被反复手动部署到计算集群挑战2:命令行操作、交互性差挑战3:时间长时间(小时)传统HPC集群72(3.0 days)单个节点计算140(5.8 days)分析一个人的基因组120G数据,往往需要3天以上的时间。数据的解读跟不上数据的产出。一次测序的数据产出测序仪测序仪一次测序的数一次测序的数据总产量据总产量一次测序的一次测序的Reads(

3、Billion)测序读长(测序读长(bp)测序时间周期测序时间周期HiSeq 3000750GB2.1-2.5PE 1503.5 daysHiSeq 40001.5TB4.3-5.0PE 1503.5 days基于MaxCompute的方案MapperMapperMapperGVCF Tables ReducerReducerReducerReducerReducerReducerMaxCompute分布式计算020406080100单节点普通HPC集群 Hadoop集群MaxCompute比单机提升 50+倍比HPC集群提升 25+倍比Hadoop集群提升6+倍单个基因组分析实现50+倍的加速120G数据3个小时精确度:99.57%Recall:98.53%F-Measure:99.05%更快:50个全基因组分析数据来源于华大基因内部已有成果发表的项目2大步骤,70000+任务,41.5小时2steps70000+Jobs41.5hours50min/genome2TFASTQ21G VCF海量的计算,从原始数据到精确变异

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(基于数加MaxCompute的极速基因组数据分析(17页).pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部