上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

6-5 Spark SQL 在平安产险的应用.pdf

编号:102492 PDF 25页 751.38KB 下载积分:VIP专享
下载报告请您先登录!

6-5 Spark SQL 在平安产险的应用.pdf

1、Spark SQL在平安产险的应用李伟轩 大数据开发工程师|01业务背景业务背景02部署方式的部署方式的选择选择03迁移流程迁移流程04典型问题和经验典型问题和经验目录目录 CONTENT|业务背景业务背景01|业务现状|离线集群在任务高峰期出现离线集群在任务高峰期出现cpu资源不足,而内存利用率资源不足,而内存利用率不高的情况不高的情况业务需求与特点|业务需求业务需求 节省集群资源,提高资源利用率,提升任务运行时效业务特点业务特点Hive SQL任务高并发数据量 100万-1亿:50%1亿-50亿:30%50亿+:20%数仓任务定时执行离线T+1每日任务量10w+引擎对比|并非完全替换,Hi

2、ve仍然是SQL复杂/稳定性要求高的SQL任务的首选引擎类型类型优势优势劣势劣势应用场景应用场景Hive1、稳定性高1、时效性较低2、资源利用率低SQL复杂、稳定性要求高、数据量巨大的离线任务Spark1、消除冗余的HDFS读写和MR阶段,时效性较高;2、对内存资源利用率高3、节省队列的CPU资源1、稳定性较低SQL规模相对较小,稳定性要求低、复杂SQL场景下数据量较小的离线任务Presto1、低延迟查询,秒级、分钟级返回结果2、支持多数据源1、对集群内存资源要求高2、无法做过大数据集的查询实时性要求较高的交互式查询实现方案|将满足下面条件的任务由Hive SQL切换成Spark SQL去实现

3、,其余任务继续使用Hive SQL去实现。数据规模较小(500GB)SQL复杂度较小(如单条SQL子查询5层,join表个数int、double-boolean、decimal-double等),将会抛出异常。常见场景:insert时源表和目标表字段类型不一致(spark自动触发转换)解决方案:set spark.sql.storeAssignmentPolicy=LEGACY;参数值:ANSI。默认值,会按ANSI标准做转换,不符合标准的将抛出异常LEGACY。允许类型强制,只要它是有效的CastSTRICT。不允许任何可能的精度损失或数据截断迁移效果|1、队列资源降低30%-60%。其中B

4、DAS业务所用队列资源由6000 cpu core降至2000cpu core2、Spark-SQL模式下的业务时效提升65%-90%数据量级数据量级数据文件大小数据文件大小Hive平均耗时Spark平均耗时时效提升率1亿2.85GB1441s274s(53s)81%5亿18GB2969s281s(53s)91%10亿25GB3222s517s(60s)84%20亿219.29GB2024s 671s(57s)67%迁移效果|3、ThriftServer模式下的业务时效提升70%-90%数据量数据量数据文件大小数据文件大小并发Hive平均耗时Spark平均耗时时效提升率100万以下128MB以下10144s33s77%500万0.29GB5590s74s88%1000万0.77GB5700s128s83%5000万1.78GB51217s158s87%1亿2.85GB51441s203s86%5亿18GB52969s242s92%10亿25GB53222s420s87%非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(6-5 Spark SQL 在平安产险的应用.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部