上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

8-4 货拉拉大数据治理实践之稳定性保障.pdf

编号:102368 PDF 34页 4.06MB 下载积分:VIP专享
下载报告请您先登录!

8-4 货拉拉大数据治理实践之稳定性保障.pdf

1、货拉拉大数据治理实践之货拉拉大数据治理实践之稳定性保障稳定性保障黎仁全 货拉拉 数据资产负责人/大数据专家|自我介绍|毕业于华中科技大学10年以上大数据治理经验涉及大数据治理/大数据仓库/大数据平台等方向从事过电信、政府、互联网等行业曾就职于蚂蚁集团、平安科技等头部企业现为货拉拉大数据团队数据资产负责人黎仁全数据资产负责人目录目录 CONTENTCONTENT|02大数据稳定性保障体系01背景与挑战03事前-规范与流程04事中-监控与应急05事后-复盘与整改06总结与展望|0101背景与挑战背景与挑战|数据链路的复杂性数据源Hive表指标标签特征|保障链路越来越多随着公司业务增长,保障链路越来

2、越多,保障的任务也越来越多|链路的产出越来越无法保障 2021前3个季度,IT成本在不断攀升,数据产出却越来越糟糕|质量问题层出不穷 从2021前3季度的质量问题来看,指标级的数据质量问题呈现明显增长趋势,而数据表的质量问题也居高不下|数据质量产生原因数据数据生成生成数据数据接入接入数据数据处理处理数据数据服务服务数据变更不通知下游引发故障上游数据灰度或切流没通知下游导致漏抽数据不合理的索引策略会影响下游同步数据业务系统脏数据引发下游质量故障任务测试或发布流程不规范引发生产故障数据加工逻辑错误导致下游大面积数据错误数据质量覆盖不全或配置不合理导致大量质量问题无法提前暴露迁移不彻底导致基于无人维

3、护的旧链路导致数据错误开发同学水平参差不齐,低效代码导致数据延迟产出任务依赖错误导致数据缺失异常缺乏全局的模型规范造成大量的重复建设大量全量抽数任务造成抽数任务超时增量合并全量选择错误合并键引发错误缺乏监控熔点机制导致错误数据污染下游高峰期大批量拉生产库数据可能引发生产事故实时同步数据可能因为链路堵塞延迟产出对外数据口径不统一,数据不一致流向端上数据缺少测试验收流程,导致质量故障业务指标缺少监控,不能及时发现问题|数据稳定性保障思路制定大数据设计规范制定大数据开放规范制定业务数据变更规范制定大数据测试规范制定任务发布规范监控数据产出时间监控表数据质量监控业务指标质量质量问题熔断机制紧急修复数据

4、质量问题生成个人/链路/团队质量健康分登记数据质量事件复盘数据质量故障修复数据质量问题专项治理数据问题跟进整改/治理进度考核数据质量水平事中事中监控监控事前事前预防预防事后事后完善完善10|0202大数据稳定性保障体系大数据稳定性保障体系数据治理职责分工 组织保障平台支撑制度建设项目落地数据治理组织保障:明确职责分工制度建设:制定标准流程,保障落实执行项目落地:贴合业务,追踪成效平台支撑:研发支撑系统,提质增效|数据资产体系架构|稳定性保障体系架构|稳定性评估体系-平台支持完整性分准确性分一致性分质量分度量个人质量分链路质量分团队质量分评分元数据驱动IDP(离线任务)飞流(实时任务)大禹(质量

5、监控)鹰眼(指标监控)个人/链路/团队质量报告(日/周/月)数据质量 完整完整性性一致一致性性及时及时性性准确准确性性及时性分数据是否完整记录数/指标值同环比波动字段是否为空或指标是否缺失记录是否重复数据是否保持规范一致或格式一致字段格式一致表关联一致指标关联一致数据记录是否存在异常或错误字段枚举值异常超出字段值范围字段内容错误数据是否按要求产出到点未产出运行时间过长|稳定性运营机制质量健康分红黑榜通报批评任务禁止新权限保障链路下线禁止新建操作禁止生产操作禁止加入保障治理收益榜单徽章点亮优秀治理个人/团队评选惩罚措施激励措施个人质量分抓手:稳定性评估体系链路质量分团队质量分事件复盘复盘故障复盘

6、故障整改整改/治理整改跟进专项治理|0303事前事前-规范与规范与流程流程|数据规范-控制增量研发流程规范业务数据变更规范数据接入规范任务发布流程规范-确保上游业务侧库表变更及时同步-确保数据接入需求流程规范,抽数不影响业务库等-确保核心数据需要经过测试验收值班oncall机制-值班应急处理流程大数据开发规范-规范命名规则、编码风格等大数据设计规范-规范数仓分层设计,保证模型的稳定大数据测试规范-保障任务发布的规范、合理IDP飞流元初DMS|数据规范-关键举措|0404事事中中-监控与应急监控与应急|监控场景分类数据监控指标监控监控对象任务表字段指标监控频率离线,T+H,T+1,T+M实时准实

7、时,5分钟粒度离线,T+H,T+1,T+M实时准实时,5分钟粒度监控项完整性准确性一致性及时性完整性一致性及时性应用场景监控产品大禹鹰眼防止错误数据污染下游防止延迟影响整体链路产出防止延迟产出影响决策或线上服务防止错误指标影响决策提升业务运营感知能力,给运营提供弹药兜底线上故障带来的异常波动|数据质量监控-大禹|实时指标监控-告警实时指标监控-告警|实时指标监控-值班与应急|0505事后-复盘与整改|故障/事件复盘机制-复盘流程准备复盘文档建故障沟通群举行复盘会议-遵守复盘文档规范-责任方、参与方、受影响方-7日内完成复盘复盘整改跟踪-跟踪复盘整改情况|故障/事件复盘机制-复盘记录|整改与治理

8、整改与治理 队列资源治理队列资源治理优化队列资源抢占策略优化任务下发策略非核心链路任务占用核心链路资源治理核心链路队列削峰治理 任务优化治理任务优化治理抽数任务全改增治理抽数无索引任务治理执行时长大于1小时任务治理执行不稳定任务治理调度“空泡”治理关键路径优化 任务规范治理任务规范治理select*任务治理离职主负责人任务治理分表主键错误治理无效任务下线治理依赖错误任务治理治理整改|0606总结与展望|成效-用数据说话|总结监控告警异常告警值班应急监控过程事前事前预防预防制定流程规范故障整改整改/治理整改跟进专项治理质量健康分排名常态化运营奖惩机制自主治理|思考保姆式运动式治理 VS 自驱式治理怎样提升指标监控准确性成本&稳定性|展望智能告警策略提升值班幸福感一键式自动化治理智能预测算法提升指标监控准确性非常感谢您的观看非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(8-4 货拉拉大数据治理实践之稳定性保障.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部