《孙磊-GCOS全球云原生及开源峰会PPT终稿.pdf》由会员分享,可在线阅读,更多相关《孙磊-GCOS全球云原生及开源峰会PPT终稿.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、孙磊 字节跳动云原生架构师字节跳动云原生资源效能实践GCOS 2023 全球云原生及开源峰会主要负责云原生资源效能方向,在云原生,混部,容器底座方面有深入的研究和实践,目前专注于云原生资源效能提升。孙磊字节跳动云原生架构师字节跳动云原生架构师个人简介GCOS 2023 全球云原生及开源峰会1324目录字节跳动的降本增效实践如何构建一个资源效能矩阵Katalyst的开源进展未来演进方向与展望0103040102字节跳动的降本增效实践添加简介GCOS 2023 全球云原生及开源峰会字节跳动云原生发展之路拥有100,000+在线微服务敏捷化构建能力持续增强平均每日变更数高达30,000次云原生为前线
2、业务提供稳定性保障离线任务数140 M+通过云原生混部大规模节省企业资源成本节点数900,000+最大集群节点数上万实现大规模集群落地现有500+生产集群基础设施深度云原生化TCE 为内部应用提供快捷高效的应用部署方案TCE 启动建设2016完成核心业务微服务迁移,并在 TCE 之上构建服务框架、Mesh、监控告警等基础设施微服务架构2017把“推广搜”的物理机服务与在线服务进行全面融合,实现统一容器化调度“推广搜”云原生2019融合资源管理形态,简化供应链选型;优化运维效率,开启数据库、缓存等存储系统的云原生化改造离在线调度融合、存储云原生2020资源多云到应用多云,实现全场景应用编排和资源
3、管理的标准化和统一化KubeFedKubeAdmiral云原生联邦演进2021GCOS 2023 全球云原生及开源峰会字节跳动资源效能实践方法论洞察成本归属成本指标与报告成本预测优化资源利用率优化资源定价优化成本监控管控业务产品梳理业务资源需求进行业务发展规划申请年度预算资源交付可预期账单&成本归属准确决策层战略决策建立组织内部对云成本的共识财务采购下发账单&成本归属准确对成本支出有预期资源增长可预测采购成本交付周期技术资源利用率管理及提升收入查看及定价配置云产品使用管控提升代码效率运营建立经营管理体系成本分析&结构化分析业务指标关联分析成本异常分析推动成本优化建立TCO-TVO 降低资源成本
4、,提升成本意识,财务观念升级运营在工作流程中考虑成本度量成本投入对业务的产出GCOS 2023 全球云原生及开源峰会云原生资源效能体系指导思想降低单位算力成本提升单位算力效率降低新硬件采购成本存算分离多云比价,多种资源类型搭配通过技术手段用更少的资源部署更多的业务硬件卸载,应用拓扑调度GCOS 2023 全球云原生及开源峰会字节成本治理实践-降低单位资源算力成本新硬件供应链和硬件定制CPU、磁盘、网络定制数据中心能耗调度资源优化预留套餐按需购买自动扩容竞价实例,潮汐算力Serverless pod按需扩容,按量付费冷热存储 高密机型存算分离IDC 建设新技术节能维护成本降低GCOS 2023
5、全球云原生及开源峰会字节成本治理实践-提升单位资源效率提升峰值利用率应用画像资源超分规格推荐提升部署密度提升平均利用率Serverless潮汐混部在离线混部硬件卸载应用拓扑调度基础库优化提升有效利用率资源稳定性真实利用率调度重调度容器质量体系建设GCOS 2023 全球云原生及开源峰会效果:数据中心利用率 集群季度级利用率波动稳定在 60%-80%集群天级利用率稳定在 60%-80%机器天级利用率分布0203040102构建资源效能矩阵添加简介GCOS 2023 全球云原生及开源峰会资源效能能力构建云原生资源效能功能矩阵观测与画像负载/节点资源实时动态观测负载/节点资源画像单机隔离 QoS资源
6、超分在离线混部规格推荐与治理智能 HPA潮汐混部资源分类的计费系数计费项价格低优抢占型独占cpuset,且通过numa binding 达到算力增强的效果独占优化型资源分类对应现在的普通容器概念,使用超分和常态混部在线池共享型对应现在的常态混部使用BestEffort的任务,极端情况下,容器算力会被压缩或驱逐低优抢占型某些业务方定制的异构资源配比/异构硬件能力的机器定制型共享型优化型定制型大跨度价格区间GCOS 2023 全球云原生及开源峰会数据中心峰值利用率提升规格治理资源超分PodPodPodPodPodPodPodPodPodPodPodPodPod20%70%峰值资源利用率峰值资源利用
7、率workloadrequest实际使用空闲资源workload物理资源已分配资源真 实 用 量超分后可分配资源上限已分配资源物理资源真 实 用 量物理资源不变GCOS 2023 全球云原生及开源峰会平均利用率-潮汐混部离线or回收PodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPodPod自动扩缩容Hybrid Controller潮汐混部业务最少驱逐/TaintPod分时复用稳定伸缩在线智能伸缩:流量预测,
8、实时无损伸缩离线实时统一调度:实时感知,分时协同调度集群自身稳定性提升:保证在线被缩容的实例在流量上涨之后能够被迅速地扩容,KubeGateway&KubeBrain整机出让:将出让的整机按需分配给在线或离线业务,解决混部资源干扰。GCOS 2023 全球云原生及开源峰会平均利用率-常态混部Online Service 在线服务Offline Service 离线服务Online Service&Offline Service 在离线混部常态混部常 态 混 部资源复用:在线利用率较低,并有周期规律性,利用离线填充,增加整体利用率在线稳定性:秒级的压制驱逐,定制内核功能支持按照QOS进行资源隔离
9、热点治理:面向压力混部,热点均衡。GCOS 2023 全球云原生及开源峰会稳定性保障体系构建服务敏感资源识别云 CPU 敏感,L3 cache敏感,内存分配敏感等质量检测节点利用率,容器质量,节点质量自动处理压制驱逐,干扰调度,重调度分散压力事前治理(调度)真实利用率调度(+预测能力)调度时避免未来出现热点稳 定 性 保 障质量保障流程容器质量C P U利 用 率C P U调 度 延 迟C P I内 存 利 用 率内 存 分 配 延 迟c a c h e-m i s sP S If a i l c n t0304katalyst的开源进展0102添加简介03GCOS 2023 全球云原生及开源
10、峰会Katalyst 总览Katalyst,源自化学反应中的催化剂katalyst 致力于解决云原生场景下的资源不合理利用问题,为资源管理和成本优化提供解决方案:Master Katalyst Controllers&Webhooks Katalyst Scheduler Katalyst Custom MetricNode QoS Resource Manager(QRM)Katalyst AgentQRM PluginsSysAdvisorResource ReporterEviction Manager Malachitehttps:/ 2023 全球云原生及开源峰会KatalystUs
11、ageBufferWaste在线服务的资源利用率呈潮汐型,夜间利用率很低用户为了保证业务的稳定性,往往会过度请求资源,导致资源的浪费GCOS 2023 全球云原生及开源峰会KatalystOnline services usageBuffer在线服务和批处理作业的资源利用模式本质上是互补的:在线服务优先考虑CPU和RPC延迟 批处理作业优先考虑吞吐量Batch jobs usageNot used by batch jobsReclaimed resourcesGCOS 2023 全球云原生及开源峰会隔离策略CPUSetIntel RDTSCHED_IDLEPer-memcg async re
12、claimNUMA bindingUserspace advisorAsync IO for loggingUsing different disksIOCostUsing different NICsnet_clseBPF+EDTFind the most suitable approach based onreal business scenariosGCOS 2023 全球云原生及开源峰会Katalyst 资源效能 规格推荐 智能推荐 原地更新 潮汐混部 HPA/CronHPA/Intelligent HPA 潮汐管理 节点资源超发 从节点维度超发资源,增加可分配资源 干扰检测和热点调度
13、 长短周期的预测算法对于云用户来说,使用主机托管特性的门槛比较高GCOS 2023 全球云原生及开源峰会里程碑VersionStatusDateKey Features0.1ReleasedFeb 27,2023 Colocation(MVP version)0.2ReleasedJun 13,2023 Dedicated_cores with numa_binding(node-side)NIC-NUMA affinity Packet tagging Eviction based on RSS overuse0.3ReleasedAug 8,2023 Dynamic configurati
14、on Service profiling based on PID control algorithm Userspace memory management(drop cache,memory migration,memory limit,etc.)0.4OngoingEnd of Dec.,2023(expected)Topology-aware scheduling Specification recommendation Tidal colocation Node resource over-commitment IOCost QRM decoupling supports nativ
15、e k8s Dedicated_cores with numa_binding(scheduler-side)OOM priority04未来演进方向与展望0102添加简介0304GCOS 2023 全球云原生及开源峰会010203智能化使用AI模型预测流量变化,推荐合适的规格,并给出动态副本数建议,解决超卖与资源热点问题便捷化应用部署不需要设定request,通过资源分析来判断最优的request和类型,保障可用性和资源平衡按量计费按照实际使用量计费,而不是按照申请量计费。未来展望GCOS 2023 全球云原生及开源峰会欢迎关注Katalyst GitHub Repo字节跳动云原生公众号GCOS 2023 全球云原生及开源峰会G C O S2 0 2 3Thanks