1、黄树嘉华大基因 基因组学数据专家基于数加MaxCompute的极速全基因组数据分析全基因组测序的背景与原理传统单机分析流程的挑战基于MaxCompute的方案目 录content什么是基因基因,生命的基本因素,是人类和其他生物的基础遗传物质什么是基因测序一个人一生的基因数据10TB=0.1TB +0.7TB +2TB +3TB +X TB基因组转录组表观组 宏基因组其他Sequencing1 1 AnalysisAnalysisAlignmentVariant calling2 2 AnalysisAnalysisVariant interpretationExternal/Internal
2、knowledge integration3 3 AnalysisAnalysisKnowledge基因数据分析的过程传统单机分析流程的挑战挑战1:流程繁杂,标准难统一分析流程特点:1.多个分析步骤2.每个步骤都会包含很多分析脚本,系统命令和外部工具3.工具要被反复手动部署到计算集群挑战2:命令行操作、交互性差挑战3:时间长时间(小时)传统HPC集群72(3.0 days)单个节点计算140(5.8 days)分析一个人的基因组120G数据,往往需要3天以上的时间。数据的解读跟不上数据的产出。一次测序的数据产出测序仪测序仪一次测序的数一次测序的数据总产量据总产量一次测序的一次测序的Reads(
3、Billion)测序读长(测序读长(bp)测序时间周期测序时间周期HiSeq 3000750GB2.1-2.5PE 1503.5 daysHiSeq 40001.5TB4.3-5.0PE 1503.5 days基于MaxCompute的方案MapperMapperMapperGVCF Tables ReducerReducerReducerReducerReducerReducerMaxCompute分布式计算020406080100单节点普通HPC集群 Hadoop集群MaxCompute比单机提升 50+倍比HPC集群提升 25+倍比Hadoop集群提升6+倍单个基因组分析实现50+倍的加速120G数据3个小时精确度:99.57%Recall:98.53%F-Measure:99.05%更快:50个全基因组分析数据来源于华大基因内部已有成果发表的项目2大步骤,70000+任务,41.5小时2steps70000+Jobs41.5hours50min/genome2TFASTQ21G VCF海量的计算,从原始数据到精确变异
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
服务:数据驱动的基因组分析与解读(29页).pdf
2020年基因数据的政策与伦理:向所有人开放基因组医学的价值 (英文版)(29页).pdf
基于数加平台的大数据Serverless 实践(19页).pdf
构建基于docker的基因数据分析应用生态系统(33页).pdf
基于数加平台的城市停车公有云解决方案(17页).pdf
基于数加的大数据仓库解决方案(23页).pdf
8贾林杰-基于Flink的安全数据分析与异常检测(25页).pdf
黄济泳-基于 Kuiper 和 KubeEdge 的边缘流数据分析(GOTC深圳会场)(15页).pdf
45.王剑涛:基于工业互联网的大数据分析平台 - 生产成本分析(21页).pdf
诸葛云游科技:2019基于用户全生命周期的数据分析与数字化营销手册(58页).pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆