上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

字节-刘立伟-字节跳动Sidecar应用运维管理实践.pdf

编号:155773 PDF 43页 1.87MB 下载积分:VIP专享
下载报告请您先登录!

字节-刘立伟-字节跳动Sidecar应用运维管理实践.pdf

1、字节跳动字节跳动SidecarSidecar应用运维管理应用运维管理实践实践刘立伟刘立伟 字节跳动字节跳动/架构架构/研发研发工程师工程师个人简介个人简介毕业于哈尔滨工业大学,2016年毕业后加入字节跳动。曾负责字节动态配置中心、分布式ID生成器的研发工作。目前负责 ByteMesh 运维面,负责 ByteMesh、Sidecar 运维管理相关工作。刘立伟刘立伟字节跳动-基础架构-服务框架大纲大纲1.字节Sidecar应用场景介绍2.Sidecar架构的优势和挑战3.Sidecar大规模升级-思考4.Sidecar大规模升级-方案解析5.落地效果&下一步计划6.总结Part1:字节字节Side

2、carSidecar应用场景介绍应用场景介绍字节字节SidecarSidecar应用场景应用场景ServiceMeshServiceMesh能力下沉:治理、安全、服务发现维护成本低:多语言、升级字节字节SidecarSidecar应用场景应用场景ServiceMesh ServiceMesh 主路径插件主路径插件-分布式网关分布式网关延时低:ipc 请求 service隔离性好:单服务纬度,互不影响容量管理:服务自行扩容延时高:rpc 请求 service隔离性差:多服务共用,故障互相影响容量管理:大促扩容成本高AGWAGWNginxNginxServiceServiceServiceServ

3、icePodAPodBPodCNginxNginxPodBPodCAGWAGWServiceServiceAGWAGWServiceService字节字节SidecarSidecar应用场景应用场景ServiceMesh ServiceMesh 辅路径插件辅路径插件-风控风控SidecarSidecar能力下沉:风控逻辑维护成本低:多语言、升级业务接入:无感PodAMeshProxyMeshProxyServiceService风控SDK远程访问风控服务PodAMeshProxyMeshProxyServiceService风控Sidecar远程访问风控服务字节字节SidecarSidecar

4、应用场景应用场景中台中台SDKSDK:MQ SidecarMQ Sidecar功能优化:支持更多治理能力,配置动态更新维护成本低:多语言、升级PodAServiceServiceMQ SDKKafka/RocketMQ生产消费PodAServiceServiceMQ SDKKafka/RocketMQ生产消费MQ SidecarPart2:SidecarSidecar架构的优势和挑战架构的优势和挑战SidecarSidecar架构的架构的优势优势多语言维护多语言维护成本低成本低业务接入业务接入成本低成本低版本升级版本升级灵活、可控灵活、可控SidecarSidecar架构的挑战架构的挑战-升级

5、运维升级运维大大 规模3w+3w+服务400w+400w+实例 快快 不稳定慢慢 迭代慢,交付慢适中适中 兼顾:稳定性、效率升级速度升级速度升级运维挑战升级运维挑战-稳定性稳定性事故案例事故案例现象:Mesh更新版本,小流量升级后,很多服务CPU飙高原因:Mesh内部缓存淘汰机制逻辑问题,导致CPU飙高影响:某业务线关闭缓存淘汰开关的服务发现:用户反馈恢复:热升级回滚+批量迁实例改进:修复、增加监控、控制发版节奏P0P0升级运维挑战升级运维挑战-稳定性稳定性引发业务故障引发业务故障Bug,一把梭,SDK兼容问题问题发生问题发生没报警,异常版本扩散,回滚难止损难灰度发布灰度发布灰度不充分,验证漏

6、场景升级运维挑战升级运维挑战 -效率效率发布周期长发布周期长feature 搭车严重,紧急feature、缺陷过多频繁发版耗费人力耗费人力操作不自动化,召回版本、发修复版本麻烦1 1个大版本5 5个月发完,2525个小版本Part3:Sidecar大规模升级-思考SidecarSidecar大规模升级大规模升级 -思路思路变更安全变更安全变更效率变更效率变更变更安全安全问题一定存在!已知已知未知未知杜绝杜绝 已知问题拒绝:缺陷版本、不该升级的服务谨慎验证谨慎验证 未知问题早暴露,防扩散,减少影响面积极应对积极应对 已发生问题主动发现,阻断扩散,快速修复变更变更效率效率变更准入变更准入自动化自动

7、化安全加速安全加速安全安全&效率效率升级前升级中问题发生时版本准入版本准入变更准入变更准入可升级服务准入可升级服务准入谨慎谨慎-灰度灰度验证验证谨慎谨慎-逐步扩量逐步扩量主动检测异常主动检测异常自动化推进、自动化推进、安全加速安全加速及时及时发现、阻断发现、阻断扩散扩散快速、快速、安全回滚安全回滚快速快速修复修复平台化平台化平台化平台化变更效率变更效率变更安全变更安全固化固化流程、策略流程、策略Part3:Sidecar大规模升级-方案解析运维管理系统运维管理系统介绍介绍SidecarAgentSidecarAgent管理Sidecar运行、升级SidecarManagerSidecarMan

8、ager存储 服务服务 的 版本版本 信息运维运维平台平台运维Sidecar,升级计划升级计划 支持大规模升级升级方案升级方案升级流程升级流程灰度验证灰度验证全量全量问题处理问题处理收敛收敛灰度灰度策略策略谨慎验证谨慎验证覆盖面,有效性覆盖面,有效性防防扩散扩散早暴露、控节奏早暴露、控节奏灰度策略灰度策略-谨慎验证谨慎验证服务-分类小流量语言P0服务-部署服务-优先级单机房框架P1全流量特殊配置P2线下区域线上-国内线上-海外环境预览正式协议特征服务热升级热升级全部全部验证验证灰度策略灰度策略-防扩散防扩散控制控制顺序顺序P2P2P1P1P0P0线下线下线上线上-国内国内线上线上-海外海外预览

9、环境预览环境正式正式环境环境特征特征服务服务其他其他服务服务灰度策略灰度策略-防扩散防扩散控制控制节奏节奏指数分批、控制上限灰度策略灰度策略-防扩散防扩散异常异常阻断阻断全量策略全量策略安全安全铺量铺量安全升级安全升级控制顺序控制顺序控制节奏控制节奏并行并行加速加速升级流程升级流程-流水线流水线全貌全貌 线下:小流量热升级线下:小流量热升级 国内国内:小流量热升级:小流量热升级 海外海外:小流量热升级:小流量热升级 线下线下:全量安全升级全量安全升级 国内国内:全量安全升级全量安全升级 海外海外:全量安全升级全量安全升级灰度铺量收敛 收敛:收敛:全量热升级全量热升级异常异常检测检测异常异常流量

10、流量异常异常延时增高延时增高SidecarSidecar退出退出内存增长内存增长CPUCPU增长增长服务告警服务告警异常检测异常检测日志日志报警报警指标指标异常阻断异常阻断日志日志异常退出,coredump 日志指标指标CPU、Mem,qps、延时报警报警服务异常报警注:检测能力依赖字节注:检测能力依赖字节上线上线检测平台检测平台异常检测异常检测注:检测能力依赖字节注:检测能力依赖字节上线上线检测平台检测平台MeshProxy-MeshProxy-规则列表规则列表mesh_proxy coredump服务异常退出出流量延迟升高入流量延迟升高请求下游失败升高CPU波动内存波动错误日志突增报警检查

11、问题处理问题处理策略策略回滚回滚修复修复覆盖覆盖如何选择?如何选择?问题处理策略问题处理策略-Bug/-Bug/变更变更评级评级BugBug评级评级 严重严重轻微轻微回滚:全量/部分修复覆盖变更评级变更评级 大大小小正常发快速发方案方案总结总结Part5:落地成果落地成果&下一步下一步计划计划落地成果事故数事故数下降下降事故数量、等级明显下降 发布周期发布周期缩短缩短平均小版本数 6.76.7 个平均发布周期 1.91.9 个月下一步计划继续提升效率继续提升效率多区域变更、小版本自动验证机制版本收敛版本收敛加强长尾版本收敛,加强异常版本召回异常异常检测检测提升检测准确率Part6:总结总结结论结论关键挑战关键挑战 稳定性 效率解决思路解决思路 变更安全 变更效率 平台化解决方案解决方案 升级前:准入控制升级中:灰度、铺量、主动异常检测升级后:收敛问题发生:快速回滚、召回、恢复运维场景运维场景 Sidecar大规模升级THANKSTHANKS

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(字节-刘立伟-字节跳动Sidecar应用运维管理实践.pdf)为本站 (张5G) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部