1、有赞大数据技术沙龙 2020.12 数据成本治理在有赞的实践 数据中台-数据资产治理 王永宁(更木) contents 背景介绍 问题梳理 治理实践 总结规划 背景介绍 数 据 中 台 机 器 资 源 离线计算实时计算平台工具 Spark Hive Hbase Kafka Druid Flink 研发 平台 算法 平台 资产 平台 在线 平台 埋点 平台 BI 平台 背景介绍 机器数应用数存储量(PB) 1800100+20+ 背景介绍 2019有赞 总收入 增长100% 难以持续增长 2019有赞 数据成本 增长100% 问题梳理 问题梳理 ? 机器资源的整体利用率偏低 只有数据管理者/运维
2、关心,其他同学意识相对薄弱 扩缩容成本高 存储资源增长过快,存在浪费 离线计算优化空间很大 成本没有量化 节能降本渠道 缺少标准 开发者缺少渠道了解 成本量化 治理实践 成本账单 降本实践 成本运营 成本量化 CPU内存磁盘卡其他 开 发 者 视 角 管 理 员 视 角 统 一 视 角 额 sqlpy脚本指标 10 数 成本量化 合理水位 数据成本 = 资源单价 * 消耗资源 成本总量 运维 资源总量 稀缺性 资源单价 分时计费 采集损耗 采集SDK 存储 计算 时间 消耗资源 分 摊 逻 辑 成本量化 核算流程(以离线计算为例) memory消耗:use_memorycpu消耗:use_cp
3、u 任务成本 task_cost = use_cpu * cpu_price + use_memory * memory_price 资源分时计费 0点-8点 最贵 黄金时段 9点-16点 次之 白银时段 17点以后 最闲 青铜时段 总成本:total_cost 总cpu核数:total_cpu 总memory量:total_memory memory资源权重:memory_index cpu资源权重:cpu_index memory的成本单价 memory_price=total_cost*memory_index/(total_memory*memory_load) cpu的成本单价 cpu_price=total_cost*cpu_index/(total_cpu*cpu_load) memory资源水位:memory_load cpu资源水位:cpu_load 成本量化基础模型 1
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
大数据技术沙龙会议报告:数据成本治理在有赞的实践-更木.pdf
3-沈磊-Flink 在有赞的实践和应用-TSY.pdf
03-蚂蚁金服数据成本治理实践-阮宏博.pdf
孙炜-QCon-快手长连接的成本治理实践.pdf
有赞-云腾-基于增长黑客的数据驱动业务增长实践.pdf
202307-快手基于自动化治理实践驱动数据成本零增长-终版.pdf
2-2 小米大数据存储服务的数据治理实践.pdf
数据生产智能:元数据驱动的全链路数据治理最佳实践-全链路数据治理峰会(23页).pdf
基于资产健康度量化模型的小米数据治理实践.pdf
爱奇艺数据治理中的数据湖应用实践-杜益凡.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆