《爱奇艺数据治理中的数据湖应用实践-杜益凡.pdf》由会员分享,可在线阅读,更多相关《爱奇艺数据治理中的数据湖应用实践-杜益凡.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、爱奇艺数据治理中的数据湖应用实践爱奇艺 杜益凡爱奇艺的企业愿景我们更懂内容爱奇艺数据中台数据中台数据科学科技赋能用户业务合作支撑数据标准集成管理安全治理服务抽取信息提取知识支持决策支持创新智能制作智能体验智能终端支持智能分发数据治理理念理念立体化标准化体系化智能化产品化通过打造离线、近实时和实时数据链路,构建立体化的数据体系,满足业务对时效性和准确性的不同需求面对不同层级的用户,提供相应的数据产品,支持用户进行自助分析,最大限度发挥数据价值通过对数据体系各个环节进行标准化,保证数据质量,有助提高数据流转和使用的效率数据与人工智能深度结合,在为用户提供智能化的同时,数据中台自身也需要智能化实施是
2、从落实角度,对数据治理的标准(包括目标和方式等)进行具体的落地,确保治理工作的正常运转;让数据发挥更大价值数据工作遇到的问题跨业务难度大跨业务难度大口径不一致口径不一致数据资产模糊数据资产模糊资源成本高资源成本高接入成本高接入成本高使用门槛高使用门槛高质量低质量低可靠性低可靠性低数据沼泽数据池数据湖零散零散态态原始方式进行数据开发脚本化管理和运维数据零散,缺乏统筹规划体系缺少标准化2017 201820192020标准化标准化投递规范升级数据加工手册数据仓库建设数据服务平台平台化平台化离线开发平台实时开发平台数据集成和接入智能化智能化组织构建流程规范实施流程工具支撑效果评估2021体系化体系化
3、机器学习平台深度学习平台数据质量模型2022立体化立体化引入Iceberg流批一体链路建设数据治理工作发展过程数据湖是一种大数据技术实现数据存储数据处理数据湖也是一个大数据治理理念Data LakeData WarehouseObject StoreBIDataManagementMachine LearningNoSQL更好更快更廉价的数据仓库数据用户数据湖数据洋数据驱动的数据驱动的决策制定决策制定高度参与自助服务立即使用的数据将来使用的数据所有数据数据湖的价值数据湖数据湖灵活便宜的存储齐全的数据易查的元数据便捷的数据集成高效简单的数据使用可靠的数据管理参考:Alex Gorelik.The
4、 Enterprise Big Data Lake.集成数据 Hive、MySQL、MongoDB 等 15 种数据源之间的数据交换 多集群、多云间的数据同步应用场景应用场景 数据集成数据集成:集成业务数据,打通数据孤岛 数据迁移数据迁移:同步Hive、ClickHouse、MySQL 等数据库数据到不同DC 数据备份数据备份:全托管式的定时数据同步和备份BabelXBabelX数据体系埋点数据业务数据库第三方外部数据一致性维度数据源统一指标体系业务集市主题数仓基线集市奇巴布集市随刻集市文学集市集市用户内容流量交易互动增长应用业务报表内容运营用户运营统一数仓原始数据层(ODS)统一明细数据层(
5、DWD)统一聚合数据层(MID)累积设备库新增设备库元数据中心数据资产中心数据图谱原始数据中间数据数据目录自助分析机器学习原始区工作区产品区敏感数据敏感区大数据存储的选择Pingback埋点数据业务数据合作方数据存储Delta Lake vs Hudi vs Iceberg维度Delta LakeHudiIceberg*规模/成本深度绑定Spark、高级特性仅在商业版支持,不考虑PB级、低成本PB级、低成本行级更新支持支持增量拉取支持支持时效性近实时(5分钟)近实时(5分钟)查询引擎PrestoDB、SparkSQLPrestoSQL、SparkSQL计算引擎Spark友好、Flink较差Sp
6、ark友好、Flink支持好支持好Flink写性能遇到瓶颈写性能好写性能好发展潜力已有功能更完善抽象较好,潜力更强Iceberg是一种数据表格式Iceberg:一种新设计的开源表格式表格式用于大规模数据集分析-不是存储引擎:支持HDFS、对象存储-不是文件格式:使用Parquet存储数据-不是查询引擎:支持Spark/Flink/Presto/HiveIceberg表支持行级更新和ACIDHive vs Iceberg特性特性HiveIceberg规模/成本PB级、廉价PB级、廉价修改粒度分区级覆盖文件级文件级更新,支持跨分区修改提交机制重命名数据文件,对象存储需复制无需重命名下游重新计算修改
7、涉及所有分区增量拉取,仅快照间增量增量部分时效性离线,天级/小时级近实时近实时,5分钟级制定执行计划列举目录调用数O(N),N=查询命中分区数量,对象存储前缀列举常数级常数级,元文件+Snapshot文件分区过滤分区值分区值、隐式分区隐式分区文件过滤无列值基于统计、字典等过滤过滤版本控制无可回滚到特定快照版本行级更新无V2格式支持ACID高版本可以分区级ACID支持行级HiveIceberg爱奇艺大数据混合云iQiyi Bigdata File System统一大数据存储统一大数据存储-QBFS 大数据文件系统大数据文件系统实时实时同步同步iQiyi Bigdata Computing Sch
8、eduler统一计算调度统一计算调度-QBCS实时实时弹性弹性私有云私有云HDFS公有云公有云对象存储对象存储私有云私有云YARN+K8S公有云公有云K8S统一大数据存储统一大数据存储-QBFS 大数据文件系统大数据文件系统AZAZ 1 1标准(HDFS)低频(EC)归档(公有云)AZAZ 2 2实时实时同步同步统一计算调度统一计算调度-QBCSAZAZ 1 1离线计算集群 1实时计算集群 1AZAZ 2 2实时计算集群 2离线计算集群 2互备互备分流分流标准(HDFS)低频(EC)归档(公有云)流批一体数据链路实时采集离线采集PingbackPingback埋点Kafka原始数据流HDFS原
9、始全量数据MR任务ETL解析HiveODS层Flink实时解析KafkaODS流IcebergODS层Flink实时解析Flink实时ETLKafkaDWD流Flink近实时ETLSpark or MR离线ETLHiveDWD层IcebergDWD层实时计算平台自助查询工具离线计算平台实时集成离线集成业务数据小时级-近实时链路维护成本降低节省60%实时链路资源流批一体链路广泛应用服务日志收集与查询业务数据收集与查询流批一体链路广泛应用广告数据标签数据性能优化小文件智能合并定时合并定时合并 合并任务参数复杂,配置困难 合并时机、合并范围:譬如3小时后合并小时分区,一天后合并天分区 如合并范围过小
10、:则小文件过多,查询性能下降 如合并范围过大:则有重复合并,写放大智能合并智能合并 基于分区下文件大小均方差自动选择待合并分区?=0?2 微调:业务设置权重、执行失败权重降级 业务无需任何配置参考:Netfilx-Optimizing data warehouse storage性能优化-BloomFilter落地效果查询速度提升SparkSQL:订单ID查询由948秒降低到10秒,整体性能接近于Impala查询KuduTrino:开启 BF 之后,文件过滤 98.5%,总执行时间为 40%,峰值内存为 25%,CPU 时间为 5%存储空间增加原先884G,开启BF后913G,3%额外空间ro
11、w0T0666row1T0444row2T0333FileAtimestamporder_idrow0T1111row1T1555row2T1999FileBrow0TN321row1TN654row2TN987FileN1000010001BF(order_id)011001000SELECT*FROM order_table WHERE order_id=555;场景说明查询指定ID(如订单ID,用户ID)将ID映射到bitmap一位,出现置1若文件该ID对应bit为0,则必定不包含该值代码实现Parquet 1.12支持Bloom Filter修改Iceberg源码
12、开启BF,修改Spark/Trino应用过滤(已贡献给社区ISSUE-4831)流式计算平台 RCP(Real-time Computing Platform):流程完整:数据摄取 计算 分发 多种开发模式:JAR/SQL/DAG 对接统一元数据中心 架构ServerLauncher-1Launcher-2Launcher-3集群-1集群-2集群-3作业开发运行集群(Hadoop)Launcher函数/文件作业运维数据管理资源管理监控报警依赖服务统一元数据Hubble数据库Web UI平台接入访问层JAR引擎SQL引擎DAG引擎Spark内部版Flink内部版Catalog+数据源Connec
13、tors数据开发平台数据架构数据层传输层计算层开发层应用层PingbackLog FileMySQLCouchBaseRedisHiKVMongoDBAccioLogVenusBabelX存储层QBFSHiveHBaseIcebergKafka离线调度Gear离线引擎Pilot流式调度RCP离线计算MapReduceSparkTrino在线分析DruidKuduClickHouse流式计算FlinkSpark Streaming离线ETL数据集成流式ETL数仓平台数据湖平台离线开发机器学习深度学习流式开发数据工厂数据接口实时分析数据挖掘投递管理资源中心数据质量平台数据保护伞元数据中心数据链路治理平台报警与监控中心云平台报表服务数据服务自助分析数据目录生产层接收层采集层MQMQcopycopy加工层实时数仓离线数仓MQ离线存储Iceberg离线计算实时计算使用层用户画像收入成本内容理解报表分析智能分发业务层目标考量横向协同公司决策业绩增长业务运营C端B端近实时数仓流批一体数据链路后续计划架构架构技术技术让数据发挥更大价值