上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2017年Apache Kylin加速大数据OLAP-最新进展与典型应用架构分享.pdf

编号:92405 PDF 30页 4.36MB 下载积分:VIP专享
下载报告请您先登录!

2017年Apache Kylin加速大数据OLAP-最新进展与典型应用架构分享.pdf

1、最新进展与典型应用架构分享Apache Kylin加速大数据OLAP传统企业级数据仓库架构可视化展现层OLAP数据集市企业级数据仓库数据源n 针对关键业务分析进行了优化n 千锤百炼的数据模型n 行业最佳实践n 丰富的生态系统n 大量训练有素的分析师All rights reserved Kyligence Inc.http:/kyligence.ioOLAP:大数据的缺失部分n 太多的SQL on Hadoopn 不适合做交互式分析n 漫长的学习曲线n 兼容性问题n 技术 vs 数据可视化展现层数据湖数据源HiveImpalaSpark SQLDrillMapReduceSparkAll ri

2、ghts reserved Kyligence Inc.http:/kyligence.ioApache Kylin:将OLAP/DW带回大数据n Hadoop上的OLAP/DWn 支持传统建模方式(Kimball)n 为交互式分析进行优化n ANSI SQLn 原生Hadoop应用n 支持云计算n 支持高并发、关键型应用可视化展现层数据湖数据源HiveImpalaSpark SQLDrillMapReduceSparkOLAP数据集市All rights reserved Kyligence Inc.http:/kyligence.ioAll rights reserved Kyligenc

3、e Inc.http:/kyligence.ioSep 2013项目开始Oct 2014加入Apache孵化器项目Nov 2014InfoWorld:Bossie Award最佳开源大数据工具奖首个来自中国的Apache顶级项目Kyligence公司创建Sep 2015Nov 2015Mar 2016正式开源InfoWorld:Bossie Award最佳开源大数据工具奖Sep 2016商业版KAP发布Aug 2016April 2017Apache Kylin v2.x发布Apache Kylin 历史Apache Kylin全球案例500+用户All rights reserved Kyl

4、igence Inc.http:/kyligence.io00Q1Q2Q3Q4Q5Q6Q7Q8Q9Q10 Q11 Q12 Q13 Q14 Q15 Q16 Q17 Q18 Q19 Q20 Q21 Q22Kylin 2.2 vs SparkSQL 2.1(越低越好)SparkSQL2.1KAP2.4TPC-H BenchmarkAll rights reserved Kyligence Inc.http:/kyligence.ioKylin 2.2selectl_returnflag,o_orderstatus,sum(l_quantity)assum_qty,sum(l_e

5、xtendedprice)assum_base_pricefromv_lineiteminnerjoin v_orders onl_orderkey=o_orderkeywherel_shipdate=1998-09-16groupbyl_returnflag,o_orderstatusorderbyl_returnflag,o_orderstatus;样例:分析一段时间内,不同“returnflag”和“orderstatus”对应的销售情况SortAggrFilterTablesO(N)JoinAll rights reserved Kyligence Inc.http:/kyligenc

6、e.ioApache Kylin 为什么快?SortCuboidFilterO(flag x status x days)=O(1)预计算结果All rights reserved Kyligence Inc.http:/kyligence.ioApache Kylin 为什么快?SortAggrFilterTablesO(N)Joinl OLAP Cube 理论基础l Model 和 Cube 定义预计算范围l Build Engine 执行预计算任务l Query Engine 在预计算结果上完成查询预计算time,itemtime,item,locationtime,item,locat

7、ion,suppliertimeitemlocationsupplierTime,supplieritem,locationlocation,suppliertime,item,suppliertime,location,supplieritem,location,supplier0-D(apex)cuboid1-D cuboids2-D cuboids3-D cuboids4-D(base)cuboidtime,locationitem,supplierAll rights reserved Kyligence Inc.http:/kyligence.ioOLAP原理:空间换时间O(N)O(

8、1)数据量响应时间All rights reserved Kyligence Inc.http:/kyligence.io理论基础:O(1)Vs O(N)并行计算列式存储(倒排)索引预计算All rights reserved Kyligence Inc.http:/kyligence.ioKylinBI Tools,Web App4.Query by ANSI SQLApache Kylin 系统架构Bulk loadCoProcessorQuery Runtime1.Fetch source from Hive/Kafka2.Build Cube with MR/Spark3.Store

9、Cube in HBasel 计算结果集保存在HBase中,原有的基于行的关系模型被转换成基于键值对的列式存储l 维度组合作为Rowkey,查询访问不再需要昂贵的表扫描,提供高速的扫描性能l 维度值通过编码算法(字典、定长、时间戳等)高度压缩l 指标通过Column存储,可以灵活、无限制的增加指标数量l 预先计算的结果为高速高并发分析带来了可能All rights reserved Kyligence Inc.http:/kyligence.io基于HBase的列式存储All rights reserved Kyligence Inc.http:/kyligence.io预计算+后计算Regi

10、on serverRegioncoprocessorCountryMetricsDateSellerIDCuboidID3.Scan with Fuzzy Key Filter2.Filter/Aggregation push down4.Half baked results1.ANSI SQL5.Final resultsQuery ParserLogical PlanOptimizationPhysical PlanQuery ServerORDERSCUSTOMERSUPPLIERPARTLINEITEMPARTSUPPNATIONREGIONJoinJoinJoinJoinJoinOR

11、DERSCUSTOMERPARTLINEITEMPARTSUPPJoinJoinJoin解决了Kylin 1.x很多功能限制:从星形模型到雪花模型 单表重复Join All rights reserved Kyligence Inc.http:/kyligence.ioKylin 2.0 支持雪花模型All rights reserved Kyligence Inc.http:/kyligence.ioKylinBI Tools,Web AppANSI SQLKylin 2.1 Cubing with SparkAll rights reserved Kyligence Inc.http:/k

12、yligence.ioCuboidLevel 5Level 4Level 3Level 2Level 1HDFSDisk I/OMR-based Layered CubingAll rights reserved Kyligence Inc.http:/kyligence.ioCuboidDisk I/OMemory AccessLevel 5Level 4Level 3Level 2Level 1HDFSSpark-based Layered CubingAll rights reserved Kyligence Inc.http:/kyligence.io构建时间减半,但是可以观察到优势随

13、着数据量的增加而减少4 节点的集群Spark 1.6.3 on YARN24 vcores,30 GB memory3 data sets of increasing size:.15 GB/2.5 GB/8 GBSpark Cubing vs.MR Layered CubingHiveSparkSQLImpalaQuery Router关键业务分析数据探索/发现模型演进查询下压:分钟级延迟多维数据集访问:亚秒级延迟Kylin 2.2 查询下压:支持数据探索和发现统一的查询入口统一的ACL自适应不同SQL方言可扩展架构,支持更多下压引擎为模型优化收集数据lRobust Global Dicti

14、onarylJob Engine HAlRDBMS as Data SourcelProject/Table ACLlApache Ranger IntegrationlPercentile measure更多来自2.X的更新u Job Server基于ZK高可靠部署u Query Server无状态,基于LB进行水平扩展u 计算集群与查询集群相分离,隔离不同workloadu Hadoop原生应用,非侵入式部署可扩展的部署架构Kylin Cluster数据量:2853亿Cube存储:59TB个CubeTP50:87msTP99:1266ms最大的O2O公司Kylin应用架构(外卖数仓)主集群

15、Bulid01NodeBulid02HA提交作业QueryQueryQueryQuery机房A机房B负载均衡NodeNodeNodeNodeNode查询:8台VM(8核16G)构建:2台物理机30节点独立Hbase集群214次/天查询量50WKylin带来能力和效率的提升对对比比项项接接入入Kylin之之前前接接入入Kylin之之后后对对比比结结果果数据开发流程需要开发事实层、聚合层、主题层和维度表ETL只需要开发事实层、维度表、配置Kylin1.ETL开发效率提升3倍2.维护成本只需要改Kylin配置,不需要修改ETL存储方式Hive中与计算结果推送到MySQL存储在HBase1.支持结果数

16、据量级增大2.都使用JDBC查询数据3.结果数据传输提高1倍多维数据处理Hive中cube或者groupingsetsKylin UI配置维度变化只需要改Kylin配置,不需要修改ETL精确去重Hive中countdistinct基于bitmap的精确去重1.节省计算资源2.支持跨天去重转化率&过户留存Hive中通过join过滤通过UDAF处理bitmap1.开发效率提升2.不需要预计算,节省资源BI产品KylinRestSeverKylinQueryEngineHBaseHiveHDFS(数据)报表系统ROLAPEngineMySOLAd Hoc查询ResetAPIPrestoCoordin

17、atorPrestoWorkerscubeKylin某系统Presto数据APIHBaseRedis最大的房地产中介公司Kylin应用架构任务调度任务调度任务调度任务调度某公司外卖业务流量分析的选型之路 非实时分析为主,V1.5后支持流式构建 MapReduce、Spark计算 支持SQL和JDBC 支持精准的count distinct 支持历史数据回溯 维度膨胀 实时分析为主 基于内存计算 支持第三方SQL引擎 支持不精准的count distinct 历史数据不易回溯 无维度膨胀V S流 量 分 析 平 台I m p a l a最终落地的应用架构流 量 数 据 立 方 体Kylin事实表

18、fact_flowHive维度表dim_pathHBase立方体数据Kylin Segmentfact_order明细数据fact_orderfact_orderfact_order1、ETL生成事实表2、Star Schema Data3、Key Value Data4、SQLl为商家提供报表统计服务-包括点击率、展示率、销售情况l以前使用Impala作为数据后端-需要大概60s才能展示Web UIl使用Kylin之后-大部分case平均延迟小于1sl多数据中心-美国数据中心构建索引,日本数据中心查询数据本地化,索引全球部署Yahoo日本的多数据中心部署l完全基于Spark的Cubing,更快,更敏捷l更多Data Sourcel将Pushdown进行到底lCloud Friendly(Azure HDI/AmazonEMR ready)lContainer FriendlyKylin未来发展的一些展望企业级产品专业服务构建领先的全球开源社区管理与自动化云计算行业解决方案All rights reserved Kyligence Inc.http:/kyligence.io关于Kyligence

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2017年Apache Kylin加速大数据OLAP-最新进展与典型应用架构分享.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部