《2-兰钢临-快手大数据SRE技术运营体系建设之路.pdf》由会员分享,可在线阅读,更多相关《2-兰钢临-快手大数据SRE技术运营体系建设之路.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、快手大数据SRE技术运营体系建设之路2023 深圳站兰钢临从15年在360公司到18年加入快手至今,一直从事大数据SRE相关工作。目前主要负责快手大数据和云存储相关服务的保障工作,保障超大规模集群的稳定与高效运行,以及相关引擎服务迭代效率。快手 大数据SRE服务保障团队负责人嘉宾照片2023 深圳站目录CONTENTS大数据SRE技术运营体系演进01 当前面临的痛点和挑战02 大数据SRE技术运营体系建设03 未来规划04 2023 深圳站01大数据大数据SRE技术运营体系演进技术运营体系演进2023 深圳站大数据大数据SRE技术运营体系演进技术运营体系演进2017 2018 2019 202
2、0 2021 2022机器增长趋势机器数2017 2018 2019 2020 2021 2022CPU增长趋势CPU数2017 2018 2019 2020 2021 2022存储增长趋势存储量2023 深圳站大数据大数据SRE技术运营体系演进技术运营体系演进2002020212022资源规模增长趋势机器增长趋势CPU增长趋势存储量增长趋势2023 深圳站大数据大数据SRE技术运营体系演进技术运营体系演进混部 存算混合机型 部署关系复杂 资源利用率低 服务互相影响存算分离 高密度存储、计算机型 存算分离部署统一调度 计算统一调度 底层统一存储2023 深圳站大数据大数据
3、SRE技术运营体系演进技术运营体系演进2023200212022适应增长(规模年均增长1倍+)高质量发展(夯实基础,面向未来)运维脚本化运维平台化,实现服务平台化管理,通用流程平台化操作1、平台化升级,定制复杂操作流程、故障自动化维修2、运维数据化,建设运维元数据、指标数据、事件数据、知识库1、运维平台化,重构实现超大规模集群管理、支持操作流程编排2、成本账单化1、稳定性运营体系建设2、资源体系建设3、标准化建设4、成本优化专项1、稳定性体系二期2、资源体系二期3、标准化二期4、成本优化专项2023 深圳站02当前面临的痛点和挑战当前面临的痛点和挑战2023 深圳站当前面
4、临的痛点和挑战当前面临的痛点和挑战2023 深圳站当前面临的痛点和挑战当前面临的痛点和挑战超大规模部署复杂变更频繁9个引擎服务300+集群数万机器规模日均变更单数量100+10+机房机型不统一系统环境不统一部署不规范稳定性效率成本故障频率高故障召回率低抗风险能力弱维护难度高变更效率低资源管理效率低机器利用率低2023 深圳站03大数据大数据SRE技术运营体系建设技术运营体系建设2023 深圳站大数据大数据SRE技术运营体系建设技术运营体系建设稳定性稳定性体系建设核心指标:90-2-5-10成本大数据资源体系建设核心指标:资源准时交付率、资源利用率效率大数据运维平台建设,提高研发效率核心指标:研
5、发运维分离比2023 深圳站大数据大数据SRE技术运营体系建设技术运营体系建设2023 深圳站稳定性体系建设稳定性体系建设/规划大图规划大图2023 深圳站稳定性体系建设稳定性体系建设/主要问题主要问题开发域变更域加固域检验域发现域处置域标准化问题突出标准化问题突出标准化问题故障占比27%演练覆盖度不足演练覆盖度不足服务性能容量、基础设施故障导致的服务故障占比为17%故障发现时间长故障发现时间长故障召回率43%,平均发现时长131分钟2023 深圳站稳定性体系建设稳定性体系建设/解决思路解决思路系统性的进行标准化治理工作,使得标准化治理成果可持续标准化问题突出标准化问题突出定义稳定性能力模型保
6、障演练覆盖的全面性,并对线上稳定性能力进行盘点与演练演练覆盖度不足演练覆盖度不足系统性的建设报警能力以提升故障召回率,从而降低平均故障发现时长故障发现时间长故障发现时间长2023 深圳站稳定性体系建设稳定性体系建设/标准化治理方案标准化治理方案梳理线上标准化问题,对标准化问题进行分层治理通用标准化层变更规范SOP标准基础环境准化层装机标准化内核参数标准化系统环境标准化服务准化层服务部署标准化服务配置标准化服务操作标准化新增治理存量治理2023 深圳站稳定性体系建设稳定性体系建设/标准化治理案例标准化治理案例存算混合机型3W+规模7%混部dn配置版本30+nm配置版本40+机器CPU利用率低DN
7、(defaul)NM(offline)DN(disk reserved)KafkaDN(disk reserved、tag隔离、tc限速)Druid/ClickhouseDN(reserved、tag隔离)FlinkDN(default)Master服务(hs2/metastore/router/raidnode/)DN(defaul)client标准非标非标非标非标非标2023 深圳站稳定性体系建设稳定性体系建设/标准化治理案例标准化治理案例存算混合机型存算分离机型DN/NM标准NMClickhouseFlinkkafkaMaster服务DNDruid标准2023 深圳站稳定性体系建设稳定性
8、体系建设/故障演练范围盘点方案故障演练范围盘点方案定义稳定性能力模型,并盘点故障演练范围单机单tor单idc单az单点容灾隔离限流过载保护熔断分级保护降级热点避让短路服务韧性误删除校验鉴权一致性数据正确性2023 深圳站稳定性体系建设稳定性体系建设/报警全面性建设方案报警全面性建设方案2023 深圳站稳定性体系建设稳定性体系建设/报警全面性建设方案报警全面性建设方案2023 深圳站稳定性体系建设稳定性体系建设/收益收益21年度一般故障21个严重故障8个90-2-5-10指标:33%-217-137-8322年度一般故障7个严重故障故障1个90-2-5-10指标:57%-16-34-7推进4类标
9、准化共计17个标准化项的治理,平均标准化率从59%提升到92%针对故障演练结果系统性排查出线上49个P0风险,解决率83%系统性盘点演练范围,演练发现11个风险点并得到解决历史故障报警召回率100%2023 深圳站资源体系建设资源体系建设/规划大图规划大图2023 深圳站资源体系建设资源体系建设/主要问题主要问题效率预算、交付、使用三方独立预算信息与交付信息不对等风险资源黑天鹅事件成本机器利用率低资源预算交付人工操作3个平台预算需求到交付方案时长2周22年北京疫情导致机器大面积延迟交付部署机型不合理,集群利用率低2023 深圳站资源体系建设资源体系建设/解决思路解决思路 整合预算与资源交付系统
10、,并拉齐预算与交付信息预算交付低效预算交付低效建设大数据资源池并建立业务侧、引擎侧、资管侧资源预案机制资源风险应对资源风险应对分析低利用率问题,结合引擎能力置换合适机型机器利用率低机器利用率低2023 深圳站资源体系建设资源体系建设/预算管理系统方案预算管理系统方案打通业务预算和平台交付系统SKU预算拉齐交付信息业务 提交预算预算平台 资源预算管理 物理机预算管理大数据预算管理Sku管理资源转机器部署交付Quota管理资源中控平台 资源使用 用量管理2023 深圳站资源体系建设资源体系建设/预算管理系统方案预算管理系统方案预算交付信息租户SKURegionAZ资源组配额预算申请预算交付2023
11、 深圳站资源体系建设资源体系建设/大数据资源池方案大数据资源池方案2023 深圳站资源体系建设资源体系建设/大数据资源池方案大数据资源池方案2023 深圳站资源体系建设资源体系建设/大数据资源池方案大数据资源池方案成本、稳定性、效率资源池上限资源池下限2023 深圳站资源体系建设资源体系建设/利用率优化案例利用率优化案例300台H换105台E机器Kafka机型置换优化案例上千规模机器置换年化收益上千W2023 深圳站资源体系建设资源体系建设/收益收益效率:预算和交付闭环拉齐需求和交付信息交付存储类资源EB级,计算类资源数十万核,带宽类资源数百GB、资源准时交付率超95%风险:大规模产品资源池建
12、设建立资源风险预案与机制支撑大规模kafka机型优化22年疫情资源风险应对,业务资源预测内准时交付率超过80%机型优化:上千规模kafka机型置换海外云资源迁移年化收益数千万2023 深圳站大数据运维平台大数据运维平台/整体介绍整体介绍通用化基础设施,提升SRE集成效率流程编排分场景建设运营平台资源运营线上变更建设收益操作平台化率:82%+研发运维分离比:91%+任务调度agent数据采集agent基础设施层集群管理机器管理服务管理层配置管理监控管理元数据运维数据数据层流程编排故障自愈操作层事件分析数据分析层稳定性分析利用率分析安全管控资源运营操作平台化服务化层服务化API2023 深圳站04
13、未来规划未来规划2023 深圳站未来规划未来规划稳定性90-2-5-10黑盒/白盒报警标准化治理AZ逃生故障/预案演练效率可视化稳定性大盘可视化利用率大盘加强资源运营平台化能力加强大规模集群变更执行效率资源/成本机房搬迁、存算分离、引擎上云精细化资源运营机型优化感谢聆听CSDN全球最大的中文开发者社区平台CSDN全球最大的中文开发者社区平台CSDN创立于1999年全球编程类网站排名第7(来源:Similarweb 2023.04)注册用户超过4300万,覆盖90%的中文开发者新媒体矩阵粉丝数量超过3100万超过1000家企业客户和合作伙伴目前公司员工近800名,分布在北京、长沙、上海、深圳、杭州、成都等城市,并在美国硅谷常设办事处旗下品牌旗下品牌专业中文IT技术社区:CSDN.NET多媒体专业出版:新程序员开发者专属移动APP:CSDN APP代码托管协作平台:GitCode代码工具协同平台:InsCodeIT人力资源服务:科锐福克斯丨八爪网络高校IT技术学习成长平台:高校俱乐部