《数据密集型服务调度及稳定性建设实践 - 袁庆军.pdf》由会员分享,可在线阅读,更多相关《数据密集型服务调度及稳定性建设实践 - 袁庆军.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、数据密集型服务调度及稳定性建设实践袁庆军-阿里云 日志服务SLS弹性数据实时处理系统的技术探讨目前负责阿里云 SLS 数据加工服务研发工作,服务 阿里云上客户、以及阿里集团内部各团队的海量日志处理。曾就职于 Splunk(中国),对机器数据处理场景痛点、核心技术和架构有深刻理解。目前关注云原生、实时计算、海量数据的数据链路研发等 领域。个人介绍目录01 数据密集型服务架构02 云原生下数据密集型服务的架构适配03 该架构下稳定性常见挑战04 对应问题处理方案与实践05 未来展望目录01 数据密集型服务架构02 云原生下数据密集型服务的架构适配03 该架构下稳定性常见挑战04 对应问题处理方案与
2、实践05 未来展望数据密集型场景概述数据密集型场景概述数据密集型 vs.计算密集型系统要求:可靠性、可伸缩性、可维护性分布式架构下的数据存储与计算流批处理:Lambda架构、Kappa架构一般业务场景下的数据系统架构Lambda架构Kappa架构基于基于SLSSLS的数据密集型服务架构的数据密集型服务架构目录01 数据密集型服务架构02 云原生下数据密集型服务的架构适配03 该架构下稳定性常见挑战04 对应问题处理方案与实践05 未来展望云原生下数据密集型服务要求云原生下数据密集型服务要求企业级服务稳定性SLA要求极高多租户隔离(作业级)数据规模巨大吞吐:每秒数百万级延迟:实时、准实时成本考量
3、:资源预留成本+200%流量特征与业务强关联流量波动无固定模式流量洪峰:比如游戏开服、升级,瞬时增长数百倍云原生下数据密集型服务整体框架云原生下数据密集型服务整体框架多种异构作业类型作业持续监控用户侧状态观测数据密集型场景方案(实时加工为例)数据密集型场景方案(实时加工为例)数据密集型场景方案(实时加工为例)数据密集型场景方案(实时加工为例)状态码信息数据密集型特定场景架构(实时加工为例)数据密集型特定场景架构(实时加工为例)服务化、按量付费存储计算分离云原生调度实现数据密集型特定服务一般架构的云原生适配数据密集型特定服务一般架构的云原生适配ACK集群弹性POD作为计算单元HPA计算伸缩目录0
4、1 数据密集型服务架构02 云原生下数据密集型服务的架构适配03 该架构下稳定性常见挑战04 对应问题处理方案与实践05 未来展望用户场景、以及数据流量带来的系统挑战用户场景、以及数据流量带来的系统挑战计算复杂度高用户业务场景复杂多样用户自定义代码欠优化资源开销无法事先评估数据流量波动与业务强相关高压缩率、外部资源引入数据处理结果膨胀常驻场景下负载集中导致热点流量波动导致负载集中、难以再平衡节点过热,处理效率被压缩基于基于K8sK8s的系统挑战:的系统挑战:HPAHPA伸缩灵活性伸缩灵活性HPA原生参考指标少(CPU/Mem),IO/网络密集场景不适用伸缩动作滞后于实际运行状态基于基于K8sK
5、8s的系统挑战:系统变更的稳定性风险的系统挑战:系统变更的稳定性风险集群热升级风险服务配置复杂、存在不可控风险当前架构无法确保完全回滚相邻版本升级,操作链路长K8s版本快速迭代新版本优化、旧版本运维成本组件对旧版本的兼容性弱服务架构稳定性痛点同集群内业务之间资源争抢业务规模导致超大集群变更发布灰度范围难以精确控制近百个集群带来的运维挑战近百个集群带来的运维挑战多地域、多可用区近百个线上集群区域化部署:稳定性、合规区域内多集群负载均衡网络隔离、独立管理保障系统与数据安全运维成本几何级增长目录01 数据密集型服务架构02 云原生下数据密集型服务的架构适配03 该架构下稳定性常见挑战04 对应问题处
6、理方案与实践05 未来展望执行引擎方案:作业运行核心优化执行引擎方案:作业运行核心优化计算密集场景性能增强用户代码AST层优化、编译缓存:计算角度、逻辑角度计算单元资源优化并发单元级别运行参数动态适配基于共享资源池的内存反压边界状态作业自主请求重新调度IO密集场景性能增强数据传输协议升级:小包合并、底层语言实现等异步请求系统架构方案:作业计算扩缩容触发机制扩展系统架构方案:作业计算扩缩容触发机制扩展自定义伸缩指标:作业具体场景生成智能指标预测算法:增强伸缩灵敏度系统架构方案:跨集群作业调度系统系统架构方案:跨集群作业调度系统集群升级:旧集群逐步汰换多服务间实现集群级租户隔离集群变更灵活灰度多集群超大业务规模支撑K8sK8s可观测方案:可观测方案:SLSSLS全栈监控全栈监控K8sK8s可观测方案:可观测方案:SLSSLS全栈监控全栈监控K8sK8s可观测方案:可观测方案:SLSSLS全栈监控全栈监控目录01 数据密集型服务架构02 云原生下数据密集型服务的架构适配03 该架构下稳定性常见挑战04 对应问题处理方案与实践05 未来展望未来展望未来展望伸缩指标算增强,应对超大级别的数据突增,伸缩更灵敏并发单元级别负载均衡,加快旧集群汰换效率数据处理效率提升:计算下推专注日志分析,欢迎大家交流专注日志分析,欢迎大家交流