上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

哔哩哔哩:B站数据治理指标体系建设(30页).pdf

编号:110772 PDF   PPTX  30页 2.29MB 下载积分:VIP专享
下载报告请您先登录!

哔哩哔哩:B站数据治理指标体系建设(30页).pdf

1、B站数据治理指标体系椰子 哔哩哔哩 资深数仓开发工程师|01数据治理的背景02数据治理指标模型03成本治理实践04题外目录CONTENT|01数据治理的背景|数据治理项目背景|数据爆发式增长,存储猛增,任务性能堪忧数据质量无保障,事故频繁,客诉多资产缺乏管理,成本无法评估数据权限体系混乱,存在数据安全隐患其余问题等等12345各类管理问题 产出超时、数据不一致、存储紧张、任务跑不动、找不到负责人、数据还有人在用吗类目繁杂 多年历史积累:孤岛数据、未压缩、有一部分无主数据、无人跟进存量巨大数据治理项目背景|!#$%!&$()*+,-./0!#$%!&$*!#$9:;?ABC

2、DE&$!数据治理数据质量管理成本管理模型开发管理数据安全管理数据集成管理要解决:由谁做些什么动作和内容为什么要做怎么做做到什么程度的问题数据架构|HDFS、YARN、KAFKA、FLINK等开发、调度、监控、权限用户、行为用户模型开发运维血缘安全资产操作质量主题成本主题用数主题埋点主题安全主题治理平台资产账单安全审计质量大盘应用指标模型数据源数据治理指标集的视角|FG*?!#$%&()*%&+,-.%&/012%&33HI*JK45678/06789:678;)?A=BC%&=DEFG=HIJK33OF*PQLMNOPQNO12NORSNO33!*RST(UVWXYUVZ,UV9:UV33数

3、据治理指标集的视角|FG*?!#$%&()*%&+,-.%&/012%&33HI*JK45678/06789:678;)?A=BC%&=DEFG=HIJK33OF*PQLMNOPQNO12NORSNO33!*RST(UVWXYUVZ,UV9:UV3302数据治理指标模型|从目标拆解实施策略实施命中及效果评估要完成的目标指标治理指标体系模型|治理目标治理策略策略评估问题-标准制定能够规避/解决问题的标准标准-实施按照标准制定策略并实施指标-问题从指标中发现、说明问题实施-指标实施效果通过指标来评估指标问题标准实施实施策略和评估指标建立起一个循环指标体系模型基本运营方法数据化运营方法|策略从目标拆

4、解,所以要先确定目标指标目标指标是一个周期内要完成的,不是一个无限期目标正例:本季度目标是存储下降500PB反例:成本治理目标是存储下降500PB目标指标是明确的度量,不是一个抽象的概念正例:本季度目标是P0事故数=0反例:本季度目标是不发生重大事故从目标拆解实施策略实施命中及效果评估要完成的目标指标治理目标治理策略策略评估策略制定分为策略方向和实施项策略方向是通过目标指标或上层策略方向直接获得的策略方向是一个基于因果、包含等直接关联的拆解实施项是基于上层策略方向,探索数据而得的实施项有时不易于从因果性、包含性等关联关系的思考中直接获得基本运营方法|问题-标准制定能够规避/解决问题的标准标准-

5、实施按照标准制定策略并实施指标-问题从指标中发现、说明问题实施-指标实施效果通过指标来评估指标问题标准实施探索该清单中的共性特点探索目标:从中发现问题、说明问题上层策略方向找出与策略方向大相径庭的数据资产清单“从xx指标来看,这个数据存在的问题是xxxxx。”循环的起点治理指标体系模型|治理目标治理策略策略评估一个体系,全盘适用1.降低用量2.降低单价1.总用量2.单价均值存储成本下降1.降低新增2.降低存量1.每日新增量2.历史存量总用量下降分层存储1.冷存储量2.冷数据量单价均值下降1.数据采样2.结构优化1.表行数2.行密度每日新增量下降数据压缩1.压缩下降量2.未压缩量历史存量下降成本

6、管理存储成本治理指标拆解:先列策略效果指标,再列实施项命中指标因果方向包含方向实施项实施项实施项治理指标体系模型|治理目标治理策略策略评估一个体系,全盘适用1.提升监控覆盖2.告警提效1.监控覆盖率2.告警有效率异常发现率提升执行标准化监控配置非标监控任务数监控覆盖率提升1.告警响应提速2.告警反馈1.响应耗时2.告警反馈率告警有效率提升缩短处理路径1.非电话告警数2.告警对象不正确数响应耗时下降数据质量管理监控治理指标拆解:先列策略效果指标,再列实施项命中指标因果方向包含方向治理指标体系模型|治理目标治理策略策略评估一个体系,全盘适用1.提升推荐表透出2.加快可用判断1.推荐表点击深度2.探

7、表用时找数耗时下降1.主题入口正确分流2.推荐表排序靠前1.主题标签未覆盖率2.推荐标签未覆盖率推荐表点击深度下降1.完善表信息2.推荐表数据探查1.业务信息未覆盖率2.探查报告未覆盖率探表用时下降数据模型管理找数体验治理指标拆解:先列策略效果指标,再列实施项命中指标建设的过程|场景分析数据源调研数据标准定义指标口径定义维度建模指标汇总1.明确治理场景与目标2.根据治理目标,制定策略大纲3.根据策略,预定义指标体系1.按所需指标,调研相关数据源2.确认既存数据源并探查质量3.提炼新数据源需求1.明确业务过程与事实度量2.明确维度与维度属性标准3.建立治理主题数据标准库1.明确原子指标与派生指标

8、2.定义指标的统计口径3.重塑指标体系,评估策略匹配度1.模型设计与创建2.任务链路开发、发布上线3.治理工具、报表等透出03成本治理实践|成本管理大纲|成本管理大纲用了多少量花了多少钱哪里能省怎么省谁来执行不执行怎么办核心度量运营策略工具能力标准与责任制度成本治理主题指标体系服务于目标的确定|22年的大数据预算控制在21年的50%以内哦。好的,我们还可以坚持。成本分布利用率离线存储51%离线计算30%实时生产15%OLAP3%其他1%0%20%40%60%80%100%离线存储离线计算策略的确定|在半年内存储优化500PB半年优化量=周均优化量*可执行周数砍历史周均优化量20PB*25周控新

9、增历史优化量新增优化量包含拆解法确定策略方向如何减少历史量?如何控制新增量?清单:历史量Top List清单:新增量Top List如何从清单中说明问题?提出假设:按实施成本低、效果高的顺序提出策略的确定|是否可下线是否可缩短是否可改造无下游使用有替代数据数据时效短可快速恢复可压缩链路可重构按实施成本低、效果高的顺序提出假设假设判断优先级判断成本低,立刻选用判断成本高,暂缓选用判断成本高,暂缓选用判断成本中,备选选用判断成本低,立刻选用判断成本低,立刻选用是否可建立标准无下游-下线暂不建立按时效定TTL按层级定TTL必压缩暂不建立指标体系预定义与数据源调研|砍历史周均优化量20PB控新增超长T

10、TL调整无用数据停产模型文件压缩过期数据下线大字段优化历史优化量新增优化量无下游存储量未压缩存储量行密度日均行数超周期存储量数据采样无下游存储量优化量优化前后存储量HDFS文件大小无下游存储量模型间关系数据血缘超周期存储量SQL日期范围全量任务信息等等预定义指标体系调研数据源指标定义的改善与关注的维度|无下游存储量模型间关系数据血缘指标作用:想找到没有下游使用的模型,命中可下线的策略方向实施。判断逻辑:通过数据平台的血缘信息,没有任务(包含调度及查询)使用。遇到问题:个别团队有非标访问(野生客户端),不能被平台的血缘收录。无下游存储量所有的访问HDFS审计日志数据源调整:由【数据血缘】调整为【

11、HDFS审计日志】业务过程调整:由【任务引用】调整为【HDFS的读/写】事实调整:由【任务数】调整为【读/写次数】原子指标:存储量派生指标:l 无下游存储量=过滤系统账号(如dqc账号)的访问后,读次数为0的模型所使用的存储量总和l 30天/60天/90天无下游存储量=连续30天/60天/90天无下游的模型所使用存储量总和关注维度归属部门-空间-个人层级ODS/DW*/ADS数据等级S/A/B/C形式表/非表实施过程中的关注维度举个改善的栗子将指标投入运营|策略指标审计报告问题清单问题处理效果反馈按天/周例行循环小循环:持续解决已确认问题每周一早上l更新问题清单dept总存储量无下游剩余待压缩

12、剩余A100PB10PB20PBB150PB15PB30PB截止当前,问题项统计deptusertable无下游待压缩A甲db.tbl_1是否B乙db.tbl_2否是请甲 乙 关注,在周五前完成处理。l数据任务运行,更新审计报告l通知owner处理问题每周五下午dept本周优化量无下游实施压缩实施A10PB1PB2PB指标持续化运营|策略指标审计报告问题清单问题处理效果反馈问题-标准制定能够规避/解决问题的标准标准-实施按照标准制定策略并实施指标-问题从指标中发现、说明问题实施-指标实施效果通过指标来评估指标问题标准实施解决了已有问题无下游、待压缩新的问题与策略游离目录、大字段治理成效|22年

13、的大数据预算控制在21年的50%以内哦。达成!远超一个月下半年存储增长 1%(近0增长)66%04题外|题外|FG*?!#$%&()*%&+,-.%&/012%&33HI*JK45678/06789:678;)?A=BC%&=DEFG=HIJK33OF*PQLMNOPQNO12NORSNO33!*RST(UVWXYUVZ,UV9:UV33运营两字,听起来较为温和但数据治理并不只有温和的一面题外|未达标、未负责造成的影响是否达标、是否负责的测量该事项的标准/责任要求要求影响测量标准/责任-指标体系事件影响标准/责任指标达到可接受的平衡通过实验 or 经验(教训)获得通常标准/责任类指标体系,是连带指标值一起定义的。非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(哔哩哔哩:B站数据治理指标体系建设(30页).pdf)为本站 (Dimples) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部