《数据成本治理在有赞的实践-更木.pdf》由会员分享,可在线阅读,更多相关《数据成本治理在有赞的实践-更木.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、有赞大数据技术沙龙 2020.12 数据成本治理在有赞的实践 数据中台-数据资产治理 王永宁(更木) contents 背景介绍 问题梳理 治理实践 总结规划 背景介绍 数 据 中 台 机 器 资 源 离线计算实时计算平台工具 Spark Hive Hbase Kafka Druid Flink 研发 平台 算法 平台 资产 平台 在线 平台 埋点 平台 BI 平台 背景介绍 机器数应用数存储量(PB) 1800100+20+ 背景介绍 2019有赞 总收入 增长100% 难以持续增长 2019有赞 数据成本 增长100% 问题梳理 问题梳理 ? 机器资源的整体利用率偏低 只有数据管理者/运维
2、关心,其他同学意识相对薄弱 扩缩容成本高 存储资源增长过快,存在浪费 离线计算优化空间很大 成本没有量化 节能降本渠道 缺少标准 开发者缺少渠道了解 成本量化 治理实践 成本账单 降本实践 成本运营 成本量化 CPU内存磁盘卡其他 开 发 者 视 角 管 理 员 视 角 统 一 视 角 额 sqlpy脚本指标 10 数 成本量化 合理水位 数据成本 = 资源单价 * 消耗资源 成本总量 运维 资源总量 稀缺性 资源单价 分时计费 采集损耗 采集SDK 存储 计算 时间 消耗资源 分 摊 逻 辑 成本量化 核算流程(以离线计算为例) memory消耗:use_memorycpu消耗:use_cp
3、u 任务成本 task_cost = use_cpu * cpu_price + use_memory * memory_price 资源分时计费 0点-8点 最贵 黄金时段 9点-16点 次之 白银时段 17点以后 最闲 青铜时段 总成本:total_cost 总cpu核数:total_cpu 总memory量:total_memory memory资源权重:memory_index cpu资源权重:cpu_index memory的成本单价 memory_price=total_cost*memory_index/(total_memory*memory_load) cpu的成本单价 cpu_price=total_cost*cpu_index/(total_cpu*cpu_load) memory资源水位:memory_load cpu资源水位:cpu_load 成本量化基础模型 1