《2-2 小米大数据存储服务的数据治理实践.pdf》由会员分享,可在线阅读,更多相关《2-2 小米大数据存储服务的数据治理实践.pdf(24页珍藏版)》请在三个皮匠报告上搜索。
1、小米存储服务治理实践李经纶/小米存储平台|01朴素数据治理朴素数据治理02用大数据治理大数据用大数据治理大数据03HDFS治理实践治理实践04HBase治理实践治理实践目录目录CONTENT|朴素数据治理01|数据治理=成本治理组织架构调整交接不规范商务谈判业务调整|数据治理=成本治理服务盘点成本Top10服务有哪些?成本Top集群有哪些?并行优化服务负责人认领优化任务,自行推进。|优点:目标清晰、简单高效高效业务快速发展期浪费多,治理效果好。人力消耗少。|遇到问题1.不可观测:资源利用率、成本没有实时展示,且没有开放给所有参与的同学。没有成本意识,没有反馈,逐渐演变为运动式治理。2.各自算账
2、:每个服务独立算账,数据口径各不相同,无法对齐。3.分工不合理:服务负责人是底层研发同学,和业务中间还隔着中间层,底层研发与业务沟通难度大。|用大数据治理大数据02|数据资产化,可衡量!#$%!#$%&()*&()*+,-*+,-*./01./067|!#!#建元仓建元仓统一口径。统一口径。有据可查。有据可查。定特征定特征特征规则。特征规则。元仓扫描。元仓扫描。产品化产品化资产健康分。资产健康分。治理建议。治理建议。|$%&$%&主机数减少23.8%主机成本降低38.9%|HDFS治理实践03|()*+()*+,-./01,-./01方案选型海外EBS昂贵全球统一架构|2
3、34536723453678%8%文件转对象ObjectFile保存对象uri。治理服务标记文件类型,记录在image中。Transform将BlockFile转为ObjectFile。|234536723453678%8%读Block Token带宽控制Transform重试短路读|()*+()*+$%9:$%9:治理思路治理结构化数据。冷热分层。治理结果48.45%数据可转温或转冷。|HBase治理实践04|(;=4(;?,-./01,-./01技术HDD磁盘HDFS Tiering转存到对象HDFS EC高密度机器|(;=4(;?ABAB场景一一致性要求高的备集群离线集群TieringHFile采用对象存储WAL采用3副本存储3副本写入,异步转对象存储|(;=4(;?ABAB场景二可用性要求高的备集群ECHFile采用EC存储|(;=4(;?CDE,-./CDE,-./场景三在线表时序数据时序表冷热分层按时间戳划分冷热以HFile为粒度冷备海外Tiering,国内HDD|(;=4(;?FGFG H?H?IJIJ场景四(迁移到离线)在线表7天只写不读场景五(归档删除)在线表7天无读无写离线表一年无读无写|(;=4(;=4$%9:$%9:治理思路没有血缘无用表&冷热分离治理结果缩容16.6%|感谢观看,欢迎加入|