《王华-阿里超大规模Flink集群运维体系介绍(FFA).pdf》由会员分享,可在线阅读,更多相关《王华-阿里超大规模Flink集群运维体系介绍(FFA).pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、王华阿里云实时计算高级运维专家阿里超大规模 Flink 集群运维体系介绍自我介绍 花名 尚付,阿里云-计算平台-大数据实时计算运维负责人 自2015年起,一直专注于开源大数据实时计算运维,完整经历了阿里巴巴实时计算发展全过程。负责超大规模实时计算集群架构演进、运维体系建设以及运维产品打造演进历史和演进历史和运维挑战运维挑战#1集群运维集群运维FlinkFlink ClusterCluster#2应用运维应用运维FlinkFlink JobJob#3阿里实时计算运维#1#1演进历史和运维挑战演进历史和运维挑战阿里实时计算平台演进历史1.0 时代2013-2017三大实时计算引擎并存时代(Gala
2、xy/Jstorm/Blink)2.0 时代2017-2021Blink为唯一实时计算引擎大一统时代(ALL On Blink)3.0 时代2021-Flink开源新引擎搭载云原生的新时代(VVP新平台)百万核 算力万级 物理机万级 用户万级 作业超大规模实时计算平台平台架构正从云下架构(Hadoop+Blink)全面往云原生架构(K8S+Flink)大规模演进中阿里实时计算平台规模和技术架构经历了近十年的快速发展实时计算运维挑战运维经历的三大挑战平台运维解决SRE超大规模体量的平台(Flink Cluster)运维难题帮助实时计算用户,解决复杂的应用(Flink Job)运维难题云原生&AI
3、智能化大浪潮下,运维演进和能力提升应用运维云原生&智能运维演进#2 2集群运维集群运维 FlinkFlink ClusterCluster超大规模Flink集群的稳定性难题业务重要且敏感,平台规模大架构复杂,稳定性双重叠加挑战Flink承载了阿里内部全部实时数据业务,包括双11 GMV媒体大屏、阿里妈妈广告计量计费报警、搜索推荐机器学习平台等电商核心业务场景业务场景既重要且实时敏感平台规模大,局部异常是常态几万台独享机器、多地域&多集群布局,规模体量飞增天然带来的平台部署形态复杂,局部异常是常态。Flink Cluster SLASLA可用率精细度量Flink Cluster稳定性Flink
4、Cluster SLIFlink Cluster SLOJM和TM启动中调度JM和TM都正常运行运行JM或TM FailOver异常Flink Job复杂状态抽象成三种简单状态代表SLISLA异常次数SLA异常时长/次ClusterSLA 做好预防,减少SLA异常次数 做好快恢,缩短SLA异常时长Cluster SLA(99.99x%)分钟级可用率来精细化度量集群稳定性集群巡检治理,减少SLA异常次数稳定性预防沉淀了几十种业务侧最高频的异常规则及治理方案全自动化识别、消灭之前“看不见”隐患Flink Cluster 异常自愈服务作业作业.异常作业问题版本用户治理平台升级分析决策隐患(预测+异常
5、)解决(修复+建议)e.g.批量机器Load高/磁盘打满,导致集群大量作业心跳丢失异常e.g.存储集群容量/请求队列打满,导致集群大量作业CPT超时异常e.g.某个版本存在性能/稳定性重大Bug,影响了集群近百个作业导致集群异常的“棘手”场景行为数据集群切流容灾,缩短SLA异常时长2.资源有限,切谁?业务精细化优先级体系,降低优保高优P0P1/P2P3/P4/P5业务优先级3.怎么透明切?存储复用计算透明迁移,业务无感存储State故障集群正常集群P0P1P0P1P0P1P0P1同城双机房部署集群,两两容灾布局RegionAClusterClusterRegionBClusterCluster
6、RegionCClusterClusterRegionDClusterCluster1.往哪里切流?建设Flink Job快速切流的平台容灾能力,让故障恢复“更确定”挑战:集群级重大故障均表现定位难,耗时久,稳定性极其被动SourceSink存储State计算中间结果计算集群作业作业作业.作业是长生命周期,每个要独立迁移故障切流恢复State,续跑计算集群作业作业作业.计算故障故障恢复作业大规模切流的技术方案生产到影子链路一键克隆,超大规模精准造压&控压&稳压能力压测平台压测降级热点限流计算限流业务降级热点均衡Flink 双11大促专项保障低优先级作业快速降级/恢复能力,水位提前预测,精准控制
7、集群水位作业pod级cpu资源隔离和限制实现作业粒度计算精准限流基于大促压测历史数据对作业画像,实现资源合理配置,集群热点机器均衡VS集群所有机器资源分配水位分布集群所有机器物理水位分布集群“卖出”资源和用户“使用”资源存在差异,导致集群层面机器水位不均衡热点机器CPU网络DISK内存而局部热点机器不仅会影响集群稳定性,还会成为整集群水位提升瓶颈,成本浪费集群水位不断提升机器某一维度资源达到性能瓶颈(e.g cpu 95%)热点机器既影响稳定性,又影响成本Flink Cluster AutoPilotFlink Cluster AutoPilot热点机器分析&解决的复杂流程1.发现热点机器2.
8、分析热点机器cpu/mem/disk/load热点机器实时监控(热点机器定义来自SRE线上经验)机器诊断工具定位具体进程(Linux系统原理深入分析)3.决策业务策略从进程关联业务数据决策(全链路数据关联以及业务策略)4.解决热点机器(限流/均衡/降级)Flink Cluster AutoPilot热点机器背后的技术难题热点机器背后是涉及 业务&调度&内核&专家经验 全链路分析定界的复杂技术难题系统内核经验&策略调度原理业务理解优先级调度&重调度热点阈值LoadCPUDISK内存分析Cgroup分配原理降级作业画像限流降级热点均衡作业超用Flink Cluster AutoPilot定义感知分
9、析决策执行可观测热点机器自愈沉淀SRE经验和能力K8S OperatorFlinkClusterAutoPilot基于K8S云原生的Flink ClusterAutoPilot实现热点机器自愈平台运维能力全面往云原生化演进,运维体系不断升级基于云原生的Flink Cluster AutoPilot,将运维能力更标准化,更智能化稳定业务治理监控报警故障定位容灾切流成本热点机器业务治理资源优化硬件自愈效率部署发布异常自愈作业管理作业升级#3 3应用运维应用运维FlinkFlink JobJob实时计算用户面临的运维难题报错FO启动问题延迟反压资源调优随着实时计算大趋势,Flink用户和作业数飞速增
10、长且体量庞大,而Flink Job运维是一大复杂难题海量数据+算法运维丰富的知识+经验+能力将运维丰富经验沉淀为产品Flink Job Advisor+Operator 定位和解决作业运维难题Flink Job AdvisorFlink Job Operator运维产品功能诊断异常异常修复Flink Job AdvisorCase1:作业资源不足无法启动Case2:平台机器下线导致FailOverCase3:作业内存配置不合理导致OOM阿里内部用户每周上千次使用Advisor,自助一键诊断作业疑难杂症效果展示Flink Job AdvisorAdvisor决策树风险体检 指标异动/事件预测异常
11、异常诊断 启动/停止报错或者慢 运行态性能不足/报错/数据问题历史回溯 历史问题诊断快照回溯针对Flink Job稳定性问题,提供事前风险体检、事中异常诊断、事后历史回溯全过程一键诊断能力背后的大脑:决策树几十种复杂异常诊断能力,构成庞大的决策树Flink Job Advisor提交日志调度日志作业运行生命周期海量异常日志AM/TMFO日志调度日志日志聚类实体提取自然语言处理专家标注解决方案3.异常日志诊断2.运行指标诊断1.作业状态诊断延时流量反压上下游GC.异常检测经验阈值实时指标指标诊断异常日志原因建议作业版本透明升级,配置热快速更新,解决稳定性隐患和异常升级优化迁移作业性能配置调优、资源配置优化,解决性能和成本问题作业跨集群透明迁移,帮助用户高效管理多集群大规模体量作业Advisor诊断出的风险和异常一键修复自愈修复作业问题Flink Job Operator修复实时计算运维管控实时计算运维体系全貌SRE+产研+技术支持实时计算终端用户集群+应用稳定效率成本技术内核往智能化&云原生化演进以智能+云原生为技术内核,建设实时计算运维管控产品,解决超大规模Flink平台运维&应用运维稳定性、成本、效率三大难题20222022-0101-0808THANKS