2019年海致智能数据平台BDP技术演进之路.pdf

编号：97356

PDF 48页 8.39MB 下载积分：VIP专享

下载报告请您先登录！

2019年海致智能数据平台BDP技术演进之路.pdf

1、海致智能数据平台BDP技术演进之路海致BDP发展历程 BDP的核心组成部分 BDP的技术挑战与建设难点 BDP私有化部署及智能监控 Q&AAgenda公司简介海致全称海致网络技术公司，成立于2013年7月。作为一家技术驱动的创业型公司，海致的创始班底拥有丰富的技术经验。核心团队成员来自百度、阿里、滴滴、美团、微软、IBM等知名企业的资深互联网专家。海致目前已完成C轮3000万美元融资，估值2.5亿美元。投资方主要有IDG、高瓴资本、君联资本、贝塔斯曼中国、晨兴创投以及中国领先的金融数据服务企业万得咨询跟投。What is BDP？快速打造贴合业务的一站式数据平台灵活易用完整闭环数据驱动管理

2、提升经营绩效海致BDP发展历程200172018基于大数据技术的BI平台，主要技术栈：HDFS+Hive+Shark（Spark 0.9）可视化：Angular+HighchartsBDP前身：经营罗盘面向个人分析师或小微客户服务。挑战：HDFS大量小文件问题；高并发OLAP查询性能考验BDP个人版面向公安及金融行业的头部客户提供数据分析服务。挑战：阿里云、星环、华为云等平台支持，第三方厂商数据交换等。BDP行业化一站式数据管理和分析平台，SaaS服务模式。BDP为了更好的服务大客户，推出私有化部署版本。挑战：监控运维成本BDP私有化成果已帮助数千家企业搭建了自己的数据平

3、台搭建周期：1天1周海致BDP发展历程 BDP的核心组成部分 BDP的技术挑战与建设难点 BDP的私有化部署及智能监控 Q&AAgenda产品架构BDP产品技术架构1.高性能任意维度高性能任意维度CUBE查询查询2.自研自研Patch算法算法-追加写实现追加写实现UID3.基于版本的并行基于版本的并行DAG数据建数据建模任务调度系统模任务调度系统4.基于基于Redis实现多级查询缓实现多级查询缓存模块，提升缓存命中率存模块，提升缓存命中率1.可增量更新的物化视图可增量更新的物化视图2.扩展扩展SQL语法支持机器语法支持机器学习学习3.数据平台底层无缝切换数据平台底层无缝切换至阿里云至阿里云4

4、.基于基于Structured Streaming实现通用流式计实现通用流式计算算1.实现用户自定义图表实现用户自定义图表JS代码的异常检测代码的异常检测2.自研探针系统，用户自研探针系统，用户可以将不常用任务降级，可以将不常用任务降级，提高资源利用率提高资源利用率3.基于标准基于标准SQL抽象算子抽象算子体系体系1.自助进行数仓主题库建设自助进行数仓主题库建设2.实现通用标签计算引擎实现通用标签计算引擎3.基于基于PhantomJS实现高质量实现高质量图表、仪表盘后端渲染导出图表、仪表盘后端渲染导出多数据整合，形成统一的数据口径APP/网站业务系统营销投放咨询工具咨询报告数据集中管理内部业务

5、数据CRM、ERP等外部业务数据第三方平台外部公开数据公共数据示例数据同步工具/接口API平台直供统一数据出口多数据整合，建立统一的数据口径SQL ServerOracleMySQLMongoDB百度搜索搜狗搜索神马搜索360搜索天气数据App应用排名PMICPI友盟其他APIExcel/CSV等上百种数据源同步客户端可视化探索式分析灵活易用高性能可视化探索式分析高级计算计算字段汇总统计多层钻取数据筛选展现形式漂亮直观，分析到位，指标预警，让数据说话GIS地图分析自助式数据处理-合表拖拽式关联合表自定义数据聚合高灵活追加合并完善的SQL支持自助式数据处理-数据建模机器学习SaaS平台的一些数据

6、平均每日查询任务量328,370平均查询耗时1,870 ms工作表数1,190,671图表数4,190,316 海致BDP发展历程 BDP的核心组成部分 BDP的技术挑战与建设难点 BDP私有化部署及智能监控 Q&AAgenda数据同步OLAP任意多维分析引擎实现数据建模系统实现机器学习实现可视化引擎实现性能及稳定性优化BDP的技术挑战与建设难点insert、upsert、delete主键并发写及ACID事务基于parquet自动合并小文件数据版本数据同步之数据表的DML支持自研Patch存储结构_action_actiontable_datatable_data_timestam_times

7、tamp pfield1(key)field1(key)field2field2inserta11updatea22insertb13deleteb4insertc35field1(kfield1(key)ey)field2field2a2c3MergePatchResult DataDMLOLAP任意多维分析引擎实现统一查询接口底层跨执行引擎 SQL语法增强 SQL RewriterOLAP QueryResultEndValidatorEngineExecuteQueryRouterSQLRewriterFailedCache未命中OLAP任意多维分析引擎实现统一查询接口DAG计算依赖

8、，灵活可扩展，结果集统一表述为DataFrame支持SQL及代码混搭计算 Apache Spark 阿里云MaxCompute+ADS 关系型数据库OLAP任意多维分析实现跨执行引擎统一查询接口层BDPOptimizerAliyunSDKCalciteSQL RewiterSparkHDFS集群MaxComputeADSJDBCMPP/MySQL等执行引擎查询优化Query RouterOLAP任意多维分析引擎实现基于ANTLR的SQL语法增强 SQL建模业务算子自定义建模OLAP任意多维分析引擎实现基于Calcite的SQL RewriterCalcite解析语法树SQL Rebuild

9、MySQL Dialect HandlerOracle Dialect HandlerDialect Handler算子抽象CTE封装支持流式建模数据建模系统实现l 分布式数据管理l 分布式模型训练l 模型可视化l 模型导出复用l 机器学习SQL机器学习实现MLVisualizationDataProcessingFeatureEngineeringModelTrainingModelEvaluationUsingModelscikit-learnl Spark SQLl UDFl HDFSl Spark MLlibl Model visualization and matricl Model

10、 selection and eveluationl ML SQLl Model exports机器学习实现算法支持l 聚类 K-Meansl 分类 DNN 决策树随机森林逻辑回归 l 预测线性回归 SVR l 关联规则 FP-growth机器学习实现数据预处理实现，SparkSQL+UDFl 交互式文本解析l TF-IDF+Chi-squarel 交互式空值处理l 样本+特征统计量机器学习实现自动特征工程l Auto feature selectionl Auto Normalizationl Auto Standardization机器学习实现模型训练l 自动调参网格搜索超参数交

11、叉验证模型选择l 手动调参可视化设置参数交叉验证模型选择l 模型可视化机器学习实现模型评价指标可视化l 混淆矩阵l ROC&AUCl 准确率l 精准度l 召回率l R2机器学习实现模型应用，机器学习SQLl 工作表l 图表性能及稳定性优化基于分区表实现Materialized Viewdatedatevaluevalue-1022019-103待写入数据--09.原始分区表origin_table写入原始分区表数据更新--092019-10.更新后的原始分区表origin

12、_table变动分区--092019-10.更新后的视图分区表mv_result仅更新变动分区更新部分更新原始表中，基于date字段创建分区，分区字段：pk性能及稳定性优化Spark并发查询性能改进Spark任务，动态参数调整性能及稳定性优化Spark并发查询性能改进Spark 2.x优化器性能问题实际场景中，Spark 2.x SQL解析优化平均耗时是1.6的2倍Spark 2.2.0:Optimizers:65,Analyzers:42,sum:107Spark 1.6.2:Optimizers:26,Analyzers:20,sum:46原

13、因：2.x引入更多的优化器，总执行耗时增加，部分优化器有性能问题2.2中Analyzer的LookupFunctions，大量HiveMetastore访问操作执行较慢InferFiltersFromConstraints优化器递归调用层次过深的问题spark.sql.constraintPropagation.enabled性能及稳定性优化Spark SQL优化器扩展分区推断及自动下推：改进分区表查询性能SELECTvalueFROMpartition_tableWHEREdate 2018-10-08LIMIT10性能及稳定性优化Spark SQL优化器扩展Join关联空值过滤：避免数据膨

14、胀、倾斜SELECTcol1FROM tb_aLEFT JOINtb_bONtb_a.col1=tb_b.col2性能及稳定性优化Spark SQL优化器扩展CASE WHEN消除：优化下推，改进性能SELECTsexFROMcontactWHERE(CASEWHEN sex=M THEN 1ELSE 2END)=1性能及稳定性优化Spark SQL优化器扩展一些其他优化Spark性能及稳定性问题任务异常检测及过载保护l Spark Job Metricsl Data expansionl Data skewl Job timeoutDetectionAuto kill jobs 海致BDP发展历程 BDP的核心组成部分 BDP的技术挑战与建设难点 BDP私有化部署及智能监控 Q&AAgendaAnsible+Docker（介绍下最小化镜像？）阿里云、华为云、星环云、CDH等Prometheus+Grafana探针系统（python）+故障自愈运维管理平台（Node.js）排查客户问题BDP私有化部署BDP私有化部署运维管理平台谢谢!Q&A

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2019年海致智能数据平台BDP技术演进之路.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。