上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2-3 字节跳动一站式数据治理的思考及实践.pdf

编号:102464 PDF 24页 1.43MB 下载积分:VIP专享
下载报告请您先登录!

2-3 字节跳动一站式数据治理的思考及实践.pdf

1、字节跳动一站式数据治理思考及业务实践王慧祥火山引擎DataLeap资深大数据工程师|01机遇与挑战机遇与挑战02数据治理思路数据治理思路03技术架构演进技术架构演进04未来展望未来展望目录目录CONTENT|机遇与挑战01|数据治理挑战:落地难|治理效益与业务影响的矛盾规范“人”的动作难度大治理涉及的组织和管理难度大缺乏适配性强的产品工具 业务系统、生产流程改造影响业务 需求难统一,全局策略难落地 保障治理大目标,无法顾及业务个性需求 ROI评估:治理收益、时间周期、业务影响 人员能力参差不齐,对齐目标和优先级困难 治理操作依靠人,规范对人的偏差操作容忍度低 组织文化差异,数据治理落地的方法、

2、挑战、成效各异 角色多、范围广、链路长 治理目标对齐、管理、跟进难度大 组织越复杂,数据治理难度越大 现状、问题客观工具缺失 无全局视角工具,直接跳入治理细节 跨部门、跨系统治理目标对齐、协商工具缺失 缺乏治理全流程工具 平台工具不够灵活,只能解决通用治理问题字节特色|规模大数据驱动影响大业务场景丰富互娱资讯电商企业服务商业化海量数据产品闭环业务强依赖数据商业分析推荐算法数据赋能业务影响数据延迟质量问题数据生命周期多业务齐发展业务快速发展快速响应业务需求敏捷迭代每个人都可参与规划与策略制定分解主动寻找实现路径互相对齐组织快速前进没有集团层面的数据治理委员会各部门采取自决策自治的数据治理模式,决

3、策与执行效率很高业务要求OKR文化高效治理字节文化业务第一数据治理思路02|新型数据治理-分布式数据自治|数据治理(Data governance):治理收益(Profit)、业务影响(Influence)、执行效率(Efficiency)业务影响小-灵活的自治模式沉淀各业务治理经验,提升治理效率适配性强-产品建设覆盖治理全链路治理是不同业务与阶段的实践,在规范与组织上应足够灵活,业务可自身发展阶段制定治理内容,自行对齐与制定部分治理标准,互相对齐形成自驱组织“一个业务单元内的数据有效性提升为数据治理的范围和目标”产品辅助业务自驱,沉淀业务经验,何时、何地、如何进行数据治理规则化、策略化、自动

4、化进行持续的数据治理低门槛与算法推荐:业务自驱进行分析与诊断能力提供自上而下的规划性治理和自下而上的响应式治理从治理规划到执行诊断与复盘全流程进行治理把控。集成多种治理场景-稳定性、质量、安全、成本、报警各模块可独立使用,按需组合,满足不同业务场景下的数据治理需求产品提供完整的开发能力,业务根据自身特性和发展阶段进行接入集中式 VS 分布式|集中式-传统数据治理分布式数据自治建设周期长、适配能力弱、组织投入多业务影响小业务自决策,各级业务/个人都可自驱治理工具灵活,业务根据自身发展按需,治理助力业务发展周期短,见效快以业务为目标对齐优先级确认核心数据问题,聚焦投入,非“一刀切”效率高,省人力治

5、理目标对齐、实施、追踪、核算工具化节省沟通成本,提升协作效率算清账,降成本治理目标清晰,收益统计自动化组织与制度权责与管理成果抽查梳理业务与数据部门,设立公司级别数据治理委员会/部门定期梳理公司数据资产,确保资产归属与治理权责明确组织定期检查业务治理过程是否符合制度,定期检查治理结果技术架构演进03|解决方案-一站式|治理全景资产视角实施者视角视图成本报告质量分析事故根因价值分析健康分SLA治理场景基础服务指标消息中心元数据规则引擎数据服务数据质量数据安全成本优化报警与起夜【主动规划】规划式流程【总结】稳定性治理规划资产诊断结果推进健康状况待办事项收益统计根因分析改进计划总结复盘全局规则个人资

6、产消息订阅异常资产治理过程治理工具治理域|治理规则单次诊断|例行诊断【系统发现】响应式流程【执行】拉群推进|进度订阅主动登记|系统归因方法沉淀事故复盘问题登记经验共享系统收集|人工录入OKR部门管理者业务管理者治理负责人资产责任人方案工具宣传与培训流程与经验视角与管理治理结果衡量服务能力治理能力问题发现治理收益管理者视角平台建设-治理方案-规划式流程规划式治理:资产清晰、规则丰富、动线完整、收益准确运行规则明确治理域制定目标建立方案推进治理健康分达标降低存储资源降低计算资源圈选治理规则推进治理实施治理资产分析结果验收结果验收收益统计消息催办规则仅运行一次治理域:xxx库xxx库存储健康分达到9

7、0分规则:产出空表扣分产出无热度扣分数据倾斜扣分治理结束时间:2022-08-14规则运行结果:产出空表yyy项数据倾斜zzz项结果达标xxx库存储健康分92分治理群定期提醒消息|平台建设-治理方案-规划式流程-资产清晰|治理全景健康分有哪些资产?评价体系资产概览SLA大盘存储大盘计算大盘报警大盘元数据仓库(Hive)组件与平台质量监控平台|研发平台|SLA平台调度系统|YARN|Spark|Flink9大主题域HDFS|Hive数据采集层业务DB消息队列数据推送数据拉取团队|项目|资源组趋势TOP占比列表聚合|明细任务数量资源消耗计算成本根因分布起夜情况报警数量延迟趋势等级分布完成情况表数量

8、物理存储存储成本平台建设-治理方案-规划式流程-规则丰富|平台与基础组件研发平台|质量平台|调度系统|业务系统Hive|HDFS|YARN|Spark|Flink数据模型数据建设规则建模数据服务在线引擎规则路由存储治理规则计算治理规则质量治理规则报警治理规则分析挖掘数据系统能力服务能力规则应用完备的治理规则能力存储、计算、质量、报警4大维度(50+)全局规则&自定义规则生命周期永久/近7天产出为空/暴力扫描任务生命周期xxx天/近xxx天产出为空统计类规则&挖掘类规则近90天无访问表/数据倾斜任务相似库表/相似任务完善工具治理能力 提升治理执行效率 业务自定义接入平台建设-治理方案-规划式流程

9、-动线完整|任务运维平台元数据平台数据治理平台数据质量平台HDFSYARN调度系统消息中心HIVESPARKFLINK任务治理库表规范生命周期数据质量关闭任务调整参数调整任务修改队列运行监控链路优化表管理库管理资产移交属性修改设置TTL删除表温存SLA申报降副本离线数据监控实时数据监控资产诊断治理全景健康分诊断规划资产大盘治理动线平台建设-治理方案-规划式流程-收益准确|治理目标:存储、计算、健康分思路:行为埋点、事件上报、关联计算任务运维平台元数据平台数据治理平台数据质量平台TopicTopicTopicTopic事件中心元数据服务元数据仓库Topic业务DB事件SDKAPI数据流dumpi

10、nject平台建设-治理方案-规划式流程-技术架构|数据查询统一、规则组合灵活、治理操作解耦、治理收益准确事件收集服务平台后端(Backend)Source AdaptorDQL ParserQuery EngineMysqladaptorESadaptorCHadaptorMeta dataHiveMysqlESCH数据查询服务格式转换消息识别消息处理系统回调Message QueueHDFS|HMS|YARN|调度系统治理ExecutorThread PoolFailover CollectorTask ClassifierStatus Notification规则引擎服务规则解析SQL转

11、换查询提交结果汇总查询数据返回操作调用状态返回治理消息收益写入治理上报治理目标治理规则治理域资产查询收益统计治理催办治理操作规则组合治理结果查询数据返回治理实施平台建设-治理方案-响应式流程响应式治理:事后治理、问题总结、经验沉淀系统方式问题归因报警/消息问题分析推进治理SLA破线数据质量报警计算任务报警根因打标组织方式问题登记问题描述总结复盘沉淀方案方案分享改进计划HDFS问题汇总问题排查xxx任务深夜执行失败HDFS丢块导致拉会同步HDFS丢块导致任务失败HDFS丢块典型问题排查实践Wiki收归HDFS增加监控|平台建设-治理方案-响应式流程-技术架构|事件收集服务平台后端(Backend

12、)Source AdaptorDQL ParserQuery EngineMysqladaptorESadaptorCHadaptorMeta dataHiveMysqlESCH数据查询服务格式转换消息识别消息处理系统回调Message QueueHDFS|HMS|YARN|调度系统治理ExecutorThread PoolFailover CollectorTask ClassifierStatus Notification消息服务消息接入订阅管理消息聚合消息推送查询数据返回操作调用状态返回治理消息收益写入治理上报消息订阅报警图表收益统计治理操作规则组合查询数据返回治理实施消息渠道飞书|邮件

13、|电话|短信总结复盘LogicDBHivedumpData ApplicationData Mining消息质量平台资产平台研发平台报警/消息问题登记总结复盘登记复盘报警、消息统一收归,问题与复盘链路完整平台建设-开放接入|构建治理生态、建设开放平台,不同业务快速、灵活接入问题分类表达式标准元数据算法包三方元数据平台标准能力规则引擎能力表达式无法表示的资产判断以标准元数据作为输入算法在线计算能力自定义元数据自定义治理规则表达式标准数据接入流程+规则引擎能力表达式无法表示的资产判断自定义元数据标准数据接入流程+算法在线计算能力接入流程三方元数据标准化转换标准元数据定义资产行定义属性列数据定义规则

14、定义输出定义PointwisePairwise表达式定义二元组算法包定义输入&输出定义资源消耗业务数据库元数据存储引擎标准元数据仓库三方元数据规则引擎服务规则解析SQL转换查询提交结果汇总线上算法引擎数据映射与加载算法包加载任务提交结果汇总大数据组件平台建设-智能化能力|挖掘数据价值,提效数据治理任务SLA签署推荐动态阈值监控相似任务识别报警阈值=预测表行数*倍数数据分布预测方法单调不减整体上升偶尔下降固定不变变动频率小移动平均法指数平滑法自回归法同期检测法基于运行时间做权重分配确保下游任务可运行完成关键路径分析计算业务合作典范目标源代码待检测源代码SQL AST序列化SQL AST序列化基础

15、索引待检测特征向量余弦相似业务标注任务合并/下线平台建设-架构总结|产品层服务层数据与组件治理全景资产大盘健康分工作台响应式治理规划式治理目标制定规则圈选治理实施收益统计经验总结消息订阅问题扫描治理实施问题登记复盘总结登记与复盘管理者视角执行者视角服务逻辑层数据服务事件中心接入服务任务执行在线引擎规则引擎MySQLESCH消息服务飞书邮件电话全局规则自定义规则算法执行治理操作收益统计数据接入数据分发元数据仓库大数据组件治理主题域数据cube智能化提效未来展望04|未来展望|1.自定义指标:自定义健康分、自定义组织(团队)2.自定义方案:自定义治理规则、灵活维度组合条件3.业务打通:以业务的视角看治理问题,治理增加业务属性开放能力体验打磨增强型数据治理Data StatisticsData MiningArtificial Intelligence事后处理统计类规则事中处理推荐治理事前避免预测与预处理资产清晰规则丰富动线完整收益准确问题登记根因归因归纳总结经验沉淀非常感谢您的观看|

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2-3 字节跳动一站式数据治理的思考及实践.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部