《B站数据质量保障体系建设与实践.pdf》由会员分享,可在线阅读,更多相关《B站数据质量保障体系建设与实践.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、演讲人:胡峰BiliBili资深研发工程师 2023 CONTENTS背景目标体系架构案例分享未来展望背景目标背景目标背景目标第一阶段第一阶段OLTP(联机事务处理)需求第二阶段第二阶段OLAP(联机分析处理)需求第三阶段第三阶段解决BI和报表需求第四阶段第四阶段系统对接OLTP(事务处理)和OLAP(报表分析)的需求主要解决数据业务化的能力 数据库阶段数据库阶段数据仓库阶段数据仓库阶段数据平台阶段数据平台阶段数据中台阶段数据中台阶段数据日渐受到重视业务涉及库表复杂化单库无法满足分析需求数据量快速增长引擎、组件多样化开始引入开源生态业务多样化能力服务化数据智能化建设阶段建设阶段演进变化演进变化
2、设计测试用例数据正确性验证数据库监控和调优完整性、准确性一致性、及时性保障架构、链路可用性数据加工链路多样化(实时)兼容历史各阶段兼容历史各阶段拥抱前沿技术演进浪潮拥抱前沿技术演进浪潮(流批一体等)(流批一体等)质量保障质量保障B站数据建设演进事务是持续发展的,数据保障的演变也是如此事务是持续发展的,数据保障的演变也是如此背景目标背景目标数据应用数据中台数据平台埋点分析看板运营分析看板B端分析看板模型构建指标规范实时计算机器学习集群管理数据源账户系统埋点数据CRM第三方离线计算增长分析看板内容分析看板数据同步数据开发数仓规划数据开发套件BOSS看板更多应用数据治理数据血缘数据质量数据安全数据地
3、图数据资产管理数据集成运维中心.日志分析标签服务用户画像社区分析营销分析增长分析用户主题域交易主题域内容主题域营销主题域社区主题域XX主题域全域数据中心统一IDOneData数据模型数据标签体系中台架构背景目标背景目标问题反馈分析看板页面数据迟迟没有展示透出,影响用数体验任务报错日志看不出原因,不知如何处理集群问题导致数据大批量报错、延迟,修复费时费力数仓架构繁杂,质量保障不知从哪里下手所分析指标某日归零是否合理,影响业务决策数据质量保障意识薄弱流任务保障流程和成本高夜间值班告警电话又被打爆了,起夜率爆表背景目标背景目标相关方诉求数据能在预期时间前产出提供的数据准确可信数据出现故障支持快速恢复
4、数据潜在的异常可快速定位晚于业务发现数据异常,导致影响已传导到数据应用.数据使用方数据使用方庞杂的数据体系中,哪些用户针对哪些数据有强诉求明确获知用户的数据质量和时效性要求保障工具可以全面赋能提效.数据建设方数据建设方数据管道中各组件、平台对流经数据,明确区分重要性不同场景的保障要求是什么极端情况下的恢复响应要求日常响应机制能否满足业务.数据管道方数据管道方通过数据质量的持续改善,减少事故纠错成本,降低数据使用风险,提升业务服务满意度通过数据质量的持续改善,减少事故纠错成本,降低数据使用风险,提升业务服务满意度背景目标背景目标根源梳理0质量问题产生原因质量问题产生原因技术
5、原因技术原因数据标准制定数据模型设计数据采集过程数据清洗加工业务原因业务原因业务理解不到位业务流程的变更数据输入不规范0303管理原因管理原因流程管理不完善成员意识不到位奖惩机制不明确推进原因推进原因保障工作落实不到位历史问题可能会复现没有长期可持续策略背景目标背景目标痛点总结0101 保障范围及目标不清晰0202 保障效果无法有效衡量各方团队对需保障数据范围不清晰,部分核心链路无日常保障数据保障分级不准确,导致无法有区分度的进行人力投入保障随着数据建设推进,架构日趋复杂,保障目标没有拆解到各组件,预期效果自然不尽人意保障工作好像做了很多,在整体目标层面贡献如何,无法衡量当前保障推进到什么阶段
6、,没有北极星指标衡量及持续优化保障问题多是单例跟进,没有形成可衡量的持续优化方法论0303 保障机制及规范不完善过往案例多是单点保障,数据上下游链路缺乏保障协同机制跨部门平台保障机制不完善、流程缺失,跟进负责人模糊没有形成公司层面的数据保障规范、复盘定级机制,不利于历史事件问题收敛背景目标背景目标保障目标准确识别核心数据场景,支持数字化衡量保障效果、提升点待办事项信息数据满足四大基础原则(完整性、准确性、一致性、及时性)、各场景的通用、定制化使用要求数据保障贯穿全生命周期(事前、事中、事后)+全生产链路(生产、传输、加工、组装、服务)数据中台具备足够完善的工具能力,支持在预防、响应、处理、恢复
7、、复查等环节的高效支持3 32 21 14 4体系架构体系拆解体系拆解质量数仓建设为基础质量数仓建设为基础构建三大核心能力构建三大核心能力1 12 2体系架构体系架构完备的质量保障体系完备的质量保障体系数字化驱动持续优化数字化驱动持续优化高效的故障处理能力高效的故障处理能力质量数仓建设质量数仓建设 引入相关保障服务数据,进行统一数仓建设 依托数据中台能力,构建质量数仓架构 为保障问题描述、决策做数据依据支撑 通过日常数据检测分析发现潜在保障风险,事前将潜在问题消除 为跨团队协同保障的结果及预期,做衡量和改进拆解支持质量数仓质量数仓建设为基础建设为基础体系架构体系架构数据应用数据标准指标服务数据
8、分析离线数据建设实时数据建设质量分运营看板告警归因看板运维大盘SLA保障评估埋点标准基线标准分级标准反馈标准保障效果告警汇总.基线保障分析告警归因分析项目明细维表任务明细基线明细告警明细变更明细数据源告警服务基线服务DQC服务血缘数据异常清单实体保障看板值班实时推送保障标准值班标准校验标准加工标准验收标准.DWDDWBDWS基线明细模型明细告警明细链路血缘标签明细实体关系.基线宽表告警宽表人员宽表.人员轻汇总告警轻汇总规则项轻汇总基线轻汇总模型轻汇总项目轻汇总实体关系轻汇总.任务完成信息基线完成信息基线异常信息集成归档信息任务汇总基线汇总告警汇总变更汇总推进基于数据驱动的质量保障体系建设推进基
9、于数据驱动的质量保障体系建设平台能力诊断平台数据血缘DQC治理平台调度服务数据传输告警模块 基线管理反馈模块.事件管理值班系统调度系统数据服务体系架构体系架构质量数仓架构1 1、完备的质量保障体系、完备的质量保障体系 目标在于保证数据满足用户用数要求 要求各方对相应数据阶段的质量保障情况进行负责 按业务要求设计数据质量标准,细化监控标准规则库 制定数据质量管控目标,数据质量衡量度量化 制定数据质量相关可改进计划,并持续推进落地三大核心三大核心能力能力体系架构体系架构基本要素2 2、数字化驱动持续优化、数字化驱动持续优化3 3、高效的故障处理能力、高效的故障处理能力构建监测体系构建监测体系部门协
10、同保障部门协同保障推进日常运营推进日常运营 数据资产保障定级-加工链路卡点校验-数据风险点监控(基线、任务、模型等)-数据质量效果衡量 构建质量分衡量机制、支持拆解多维视角(完整性、一致性、准确性、及时性)衡量保障效果 制定保障规则,识别各数据资产(模型、项目、基线等)待完善操作项 协同数据中台上下游相关组件方,拉齐各组件的SLA保障标准 形成跨团队、跨组件的协同值班、响应、处理、复盘保障机制 推进业务团队一起参与保障,了解最终用户的使用场景。要求 周期同步质量保障核心指标的水位和目标,引入日常保障运营机制 将各方日常反馈的质量问题进行问题分类,抽象校验规则、沉淀保障知识库,避免问题反复出现
11、定期复查待办处理进展及保障效果,分发待办至责任人完善体系架构体系架构完备的质量保障体系体系架构体系架构知识库沉淀场景化在完整性、一致性、有效性、及时性等传统数仓卡点数据校验基础上,结合实际场景诉求,扩展沉淀核心场景校验规则。在基于传统模型表卡点的范围外,扩展至埋点数据、指标服务类等场景,做到 埋点-集成-加工-组装-出仓-API服务 数据流向全链路覆盖卡点校验卡点校验规则库事故归因知识库随着大数据业务的发展,现阶段公司组件日趋复杂,在这样的业务背景下,越来越多的用户在使用大数据平台时,发现难以定位问题,基于此在日常保障问题发生的同学,我们会针对性进行问题归档。在问题再次发生时,结合告警、恢复工
12、具能力,提升用户解决问题效率,降低用户异常成本构建监测体系构建监测体系部门协同保障部门协同保障推进日常运营推进日常运营 数据资产保障定级-加工链路卡点校验-数据风险点监控(基线、任务、模型等)-数据质量效果衡量 构建质量分衡量机制、支持拆解多维视角(完整性、一致性、准确性、及时性)衡量保障效果 制定保障规则,识别各数据资产(模型、项目、基线等)待完善操作项 协同数据中台上下游相关组件方,拉齐各组件的SLA保障标准 形成跨团队、跨组件的协同值班、响应、处理、复盘保障机制 推进业务团队一起参与保障,了解最终用户的使用场景。要求 周期同步质量保障核心指标的水位和目标,引入日常保障运营机制 将各方日常
13、反馈的质量问题进行问题分类,抽象校验规则、沉淀保障知识库,避免问题反复出现 定期复查待办处理进展及保障效果,分发待办至责任人完善体系架构体系架构完备的质量保障体系体系架构体系架构协同值班原因定位原因定位紧急跟进紧急跟进影响通知影响通知数据恢复数据恢复构建监测体系构建监测体系部门协同保障部门协同保障推进日常运营推进日常运营 数据资产保障定级-加工链路卡点校验-数据风险点监控(基线、任务、模型等)-数据质量效果衡量 构建质量分衡量机制、支持拆解多维视角(完整性、一致性、准确性、及时性)衡量保障效果 制定保障规则,识别各数据资产(模型、项目、基线等)待完善操作项 协同数据中台上下游相关组件方,拉齐各
14、组件的SLA保障标准 形成跨团队、跨组件的协同值班、响应、处理、复盘保障机制 推进业务团队一起参与保障,了解最终用户的使用场景。要求 周期同步质量保障核心指标的水位和目标,引入日常保障运营机制 将各方日常反馈的质量问题进行问题分类,抽象校验规则、沉淀保障知识库,避免问题反复出现 定期复查待办处理进展及保障效果,分发待办至责任人完善体系架构体系架构完备的质量保障体系体系架构体系架构日常运营-质量衡量保障方向是什么保障方向是什么如何衡量效果如何衡量效果待提升项是什么待提升项是什么痛点痛点【数据完整性】:考量数据项信息是否全面、完整、无缺失【数据一致性】:考量同一信息主体在不同的数据中是否相同【数据
15、准确性】:考量数据是否符合预设的质量要求,如数据量校验等【告警响应度】:基线、模型、项目等数据资产的告警反馈情况 【监控覆盖率】:基线、模型、项目等数据资产的监控配置情况【作业稳定性】:考量作业的运行稳定性,是否经常报错,导致数据事故【作业时效性】:考量数据信息可正常产出和使用的时间是否满足预期【链路保障率】:考量数据出仓类任务、指标服务API等服务场景保障情况1 1、完备的质量保障体系、完备的质量保障体系三大核心三大核心能力能力体系架构体系架构基本要素3 3、高效的故障处理能力、高效的故障处理能力2 2、数字化驱动持续优化、数字化驱动持续优化 推进数据全链路数字化落地归库 构建基于元数据的质
16、量保障数仓体系,支撑决策判断 构建质量保障北极星指标,持续分析、完善指标 基于指标发现保障瓶颈,设计优化策略方案 推进方案落地,持续循环推进北极星指标推进策略:推进策略:制定质量保障北极星指标 满足拆解至各保障组件、节点进行效果衡量 建设基于分析归因的潜在保障问题识别能力 透过日常保障问题表象,直击问题根因 PDCA循环管控,促进保障持续提升 通过保障提升专项,解决特定问题 总结保障问题,形成方法论,沉淀数据中台能力构建衡量指标描述分析现状找到问题瓶颈设计解决方案跟进优化效果数字化效果衡量驱动,持续提升保障结果体系架构体系架构日常运营-专项治理1 1、完备的质量保障体系、完备的质量保障体系三大
17、核心三大核心能力能力体系架构体系架构基本要素2 2、数字化驱动持续优化、数字化驱动持续优化3 3、高效的故障处理能力、高效的故障处理能力 在日常保障实践案例中不断总结问题,抽象痛点 基于痛点持续沉淀方法论,打磨工具产品功能 类似保障问题再次出现时,具备成体系应对能力和手段基线风险诊断基线风险诊断 提升核心数据链路保障质量告警能力优化告警能力优化 减少无效告警,跨团队做合理分发故障恢复系统故障恢复系统 一键恢复受故障影响数据规则配置系统规则配置系统一键操作不同分级数据进行规则覆盖数据数据开发开发底层底层服务服务故障链路一键恢复故障链路一键恢复 数据故障影响链路,生成受影响DAG并支持一键恢复数据
18、分级全链路保障数据分级全链路保障支持区分核心数据链路,按需投入保障人力统一运维值班机制统一运维值班机制 出现数据问题,具备高效响应跟进机制通过日常保障实践沉淀方法论,持续打磨产品能力通过日常保障实践沉淀方法论,持续打磨产品能力提升数据保障质量、优化故障响应效率、降低夜间值班成本提升数据保障质量、优化故障响应效率、降低夜间值班成本体系架构体系架构功能支持案例分享案例分享案例分享保障流程拆解监控覆盖监控覆盖任务上线任务上线日常跑批日常跑批触发告警触发告警响应跟进响应跟进数据恢复数据恢复问题归档问题归档开发阶段开发阶段值班阶段值班阶段复盘阶段复盘阶段问题问题线上待保障任务多 5000+监控覆盖率底
19、不足50%监控覆盖 无规则审计发布流程 审批环节缺失值班响应SOP流程不完善,跟进处理效率低夜间故障信息同步链路不清晰起夜率高 50%+夜间告警数量多,准确率低故障出现时,数据恢复耗时长,人力投入大存在大量非数仓归因告警 95%+发现存在部分 问题归因在外部团队已出现 问题存在复现风险定责机制缺位造成人员意识欠缺案例分享案例分享痛点问题痛点问题数据链路这么长,涉及组件这么多,不知从何处下手当前保障指标表现这么差,能推进到什么程度心里没底有没有什么推进套路可以借鉴,开箱即用,立竿见影案例分享案例分享实施阶段拆解初始阶段初始阶段保障意识薄弱没有数据保障行动无相关流程无相关管控被动应对数据问题起步阶
20、段起步阶段逐渐具备保障意识没有形成方法论流程局限在项目或部门内分级定义分级定义明确分级保障定义形成标准化管理流程数据保障的规范化量化管理量化管理贯穿全链路的保障方法能够进行量化分析和监控持续优化持续优化专注于持续优化提升逐渐形成最佳实践案例推进思路推进思路数据链路拆解数据链路拆解保障分级建设保障分级建设1 12 2全生命周期覆盖全生命周期覆盖3 3案例分享案例分享案例分享案例分享数据链路拆解数据应用指标服务数据分析离线数据建设实时数据建设PC端数据产品指标封装API数据集构建DWDDWDODS数据源埋点数据移动端数据产品ODSADSDWSDWBAPPDWS业务库表抽象数仓建设流向抽象待保障数据
21、实体埋点数据离线/实时项目/任务模型表/kafka topic模型字段数据指标数据基线数据集/API案例分享案例分享保障分级建设业务快速发展阶段,要求数据能力快速迭代,服务于业务结果故在保障分级标准的规范和工具能力建设方面相对滞后导致在保障推进工作初期,待优化目标范围不清晰出现紧急case时 无法针对性保障核心数据问题背景问题背景 梳理核心保障链路 100+核心保障场景覆盖率 63%-100%拉齐各方分级保障标准,为应急性响应提供高优保障思路 完成数据保障分级打标,为数据故障快速恢复提供数据支持定义分级标准盘点数据现状完成数据分级梳理分级问题推进优化治理实施路径实施路径优化收益优化收益案例分享
22、案例分享全生命周期覆盖埋点数据离线/实时项目/任务模型表/kafka topic模型字段数据指标数据基线数据集/API事前事前事后事后事中事中埋点准入标准埋点准入标准埋点数据埋点数据埋点灰度监控埋点灰度监控代码扫描纠错代码扫描纠错开发阶段开发阶段代码发布审核代码发布审核项目配置标准项目配置标准监控配置标准监控配置标准监控标准监控标准基线准入标准基线准入标准上线质量标准上线质量标准发布阶段发布阶段测试报告格式测试报告格式测试交付标准测试交付标准数据验收标准数据验收标准卡点监控触发卡点监控触发卡点校验卡点校验告警信息分发告警信息分发夜间值班规范夜间值班规范值班机制值班机制接警操作流程接警操作流程事
23、故跟进流程事故跟进流程影响通知流程影响通知流程数据恢复流程数据恢复流程事故修复事故修复事件留档流程事件留档流程信息同步流程信息同步流程质量保障大盘质量保障大盘保障衡量保障衡量SLASLA达成看板达成看板事件复盘机制事件复盘机制事后复盘事后复盘跟进优化机制跟进优化机制卡点规则沉淀卡点规则沉淀知识库知识库事件归因沉淀事件归因沉淀告警反馈流程告警反馈流程事件反馈事件反馈事件归因机制事件归因机制定级追责机制定级追责机制案例分享案例分享保障专项受公司集群机房迁移+服务混合部署影响数仓整体链路保障形势严峻,夜间值班压力巨大,告警经常出现全链路击穿轰炸的现象,基于此如何在多重原因复合导致的告警风暴中找出问题
24、根因,推进解决告警多起夜高问题,成为相当长一段时间里亟待解决的问题问题背景问题背景项目挑战项目挑战 单次告警击穿全链路,触发告警数 1000+影响波及所有任务OWNER 连续5周,工作日起夜率80%+故障导致数据异常、丢失等问题累计修复成本高达单次事故 80+/人天案例分享案例分享衡量指标推进步骤推进步骤梳理特定时间范围内的告警明细抽象拆解至数据链路各环节、数据保障实体总结问题,进行根因归类,评估各环节占比集中力量优先处理大头问题推进多方对齐优化方案、优化规则覆盖 事件数事件数 22.0723.03 事件捕获率事件捕获率 22.0723.03 起夜天数起夜天数 22.0723.03影响数据质量
25、的事件CASE事件通过事中校验环节及时捕获的比率夜间值班起夜情况 核心基线破线数核心基线破线数 22.0723.03 过程指标过程指标 ETL任务数:5000+,核心基线数:100+监控覆盖率:连续2个季度100%,规则数量:16000+P级事故数:连续6个月 无归属数仓侧P级事故 起夜人次:最近3个季度 75、59、31,逐季降低:21%、47%,累计降低 59%夜间费时:最近3个季度 127.6h、91.77 h、17.4h,逐季降低:28%、81%,累计降低 86%核心场景保障率:63%-100%案例分享案例分享衡量指标核心保障基线破线趋近100%降低50%+降低55%+稳步收敛案例分享
26、案例分享保障推进工作中总结的痛点数据保障涵盖内容极为广泛,且具备一定的学习成本。从哪里优先入手,以什么样的路径来推进成为一个难题保障入手难保障入手难产出一些列的规范和管理办法后,往往只能停留于纸面,没有恰当的保障平台工具来支撑落地推进推进落地难落地难如何客观地评估治理、将治理成效量化、可视化的呈现到用户面前,进而更具驱动力的推进可视化不足可视化不足工作容易陷入“运动式治理”,通过集中的突击、在一段时间内看到一定的效果,不能长久地、从根本性地解决治理的问题可持续性差可持续性差案例分享案例分享将方法论沉淀成中台能力工具化规则化推进构建一套可持续质量运营的治理平台工具将所有待推进保障卡点操作项规则化
27、表达基于产品能力推进日常化保障待办项通知即时化当用户补齐待办事项后快速反馈至衡量值,为用户带来即时反馈的体验日常化未来展望未来展望扩大保障范围扩大保障范围丰富保障策略丰富保障策略持续数据驱动持续数据驱动紧跟数据建设迭代步伐,将保障范围做到全覆盖全局视角下迭代可持续监控、反馈、优化、迭代的闭环体系没有完美的工具,没有完全不出问题的数据重点是在已知问题出现时,能否快速响应处理以数据为中心进行决策和行动用数据建设驱动数据质量保障工具能力迭代工具能力迭代收敛数仓及外部协同团队日常问题,沉淀数据归因知识库持续优化保障规则库,丰富卡点校验能力完善沟通机制完善沟通机制数据保障是一件长期主义事项,保障道路上离
28、不开各方兄弟团队的大力支持,也希望持续优化沟通机制,提升效率科技领域进无止境,关注业界前沿技术,补充进数据保障弹药库,站在巨人的肩膀上高效解决问题拥抱前沿技术拥抱前沿技术其他思考其他思考对数据质量保持敬畏、严谨数据质量是数据应用基础中的基础保障问题往往发生在细枝末节中未来展望刀耕火种刀耕火种铁犁牛耕铁犁牛耕信息浪潮信息浪潮智能终局智能终局万象初创百事待兴万象初创百事待兴针对问题解决问题针对问题解决问题逐渐具备工具思维逐渐具备工具思维高频问题抽象建设高频问题抽象建设基于数据发现、描述问题基于数据发现、描述问题沉淀可持续推进的方法论沉淀可持续推进的方法论没有什么是一键操作解决不了的没有什么是一键操作解决不了的如果有,那就再加一种一键操作如果有,那就再加一种一键操作胡峰胡峰 哔哩哔哩技术公众号哔哩哔哩技术公众号