《计算密集型应用以ServiceMesh为支点解决分布式问题的探索与实践_王志龙.pdf》由会员分享,可在线阅读,更多相关《计算密集型应用以ServiceMesh为支点解决分布式问题的探索与实践_王志龙.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、计算密集型应用以Service Mesh为支点解决分布式问题的探索与实践京东集团架构师/王志龙个人简介 10年+互联网一线研发及架构经验,Kubernetes Contributor,Layotto Wasm Maintainer,专注云原生领域,擅长性能极限优化。曾工作于腾讯、阿里,参与过微信 PaaS 云平台从0到1建设,阿里 Serverless C+和 Golang Runtime 研发及落地。目前工作于京东集团搜索与推荐部,负责京东搜推微服务治理和新一代 Serverless 云化平台研发工作。一、Mesh溯源及背景介绍二、落地挑战和方案选型三、业务赋能探索&实践四、技术布局与未来展
2、望目录一、Mesh溯源及背景介绍William MorganBuoyant CEO服务网格理念的提出者和先行者以及最早的布道师2016.09.29 Buoyant 2016.01.15 初次发布2016.09.29 概念诞生Micro-Service=Service Mesh 一脉相承专门的一层基础设施;负责可靠传输;轻量的网络代理;对应用程序透明起源于 Buoyant 内部分享,从落地到概念一般为 Pod 多容器,但是随着 Node 模式的演进,载体多样化起来,但整体形式一致典型形式 Sidecar 部署绿方块为服务,蓝方块为边车部署的代理,多个 Sidecar 之间的连接和交互组成了 Me
3、sh右转90服务网格和 Sidecar 的关系栏目栏目细分方案1框架(bin)+业务(so)方案2框架(so)+业务(bin)方案3框架,业务一起编译方案4框架(bin)+业务(bin)方案5框架(bin+支持插件)+业务(bin)方案6框架(bin)+业务(bin+多so)方案7框架bin+filter bin+业务bin方案八框架bin容器+多bin目标消除框架侵入消除代码浸入可观察性中中中高高高高高可测试性中中中高高高高高可扩展性中中中较高高很高很高很高分离度中中低较高高很高很高很高业务代码修改量低低不需要低低低低低运维修改量较高较高低中中高高高基础模块梳理量高高中高高高高高框架开发量中
4、中低较高高高高高与框架发展契合度低低低高高高高高潜在风险So符号未定义和符号冲突符号冲突-So符号未定义和符号冲突-从微信 Svrkit 框架与业务分离方案,回看 Mesh 的意义基础框架作为承上启下的重要一环:对下充分利用底层系统能力,对上提供灵活可靠的底座当年的基于 Envoy HTTP 通道传输私有协议方案如今的 Service Mesh 百家争鸣,百花齐放Mesh协调微服务能力和分布式压力的一个支点微服务微服务分散能力解决系统复杂度问题逻辑垂直拆分分布式分布式分散压力解决系统性能问题物理横向拆分日益复杂多样的需求高效迭代和极致性能大促突发大流量挑战跨部门跨语言联动共性问题难聚焦复用小语
5、种服务治理弱二、落地挑战和方案选型数据量大计算密集实时性高链路复杂搜推广等计算密集型应用特点及落地挑战VSMOSN 多协议框架快速落地,中长期使用 MoE“双语”扩展技术选型Proxy 性能损耗 vs Proxyless 业务耦合 Proxy无损耗?!MoE Mosn On Envoy研发效能高(Golang)处理性能高(C+)多集群多主控制面架构多形态数据面&多数据面+多控制面架构三、业务赋能探索&实践跨语言、多协议去中心化网关TP99 降低 50%,抖动明显好转,可用率提高一个数量级HTTP网关下沉到数据面=私有协议RPC调用加权后不同规格机器可以相对均匀,TP99 降 5ms,但是个别算
6、力或容器跟物理机差别大的,依然会不均匀异构环境负载均衡加权最小连接数可根据业务需要设置 CPU 保护水位,打开远端负载感知常规流量 CPU TP75 63%=60%,TP99 降 8 ms复合多策略负载均衡加权&本地耗时感知&远端负载感知EDF应对突发大流量与业务内嵌限流的关键指标对比CPU/QPS 动态限流应对常规流量,可用率更高,TP99更低cpu超过上限值,快速限流(按当前cpu与上限值等比例限流)cpu低于下限值,快速恢复(按delta比例大幅扩大流量)cpu在上下限内,缓慢探测(按delta比例小幅探)基于Envoyfilter下发的混合跳步CPU/QPS自适应限流对比项业务内嵌MO
7、SN差值生效速度19s12s-36%限流CPU80%78%-2.5%限流可用率83%88%+6%Little s law:L=W传输 BDP=BW*RTT 应用 TW=TPS*LATENCYT QPS*Avg(RT)屏蔽个性化影响,提高压测效率;数据面一次修改,所有模块透明复用,一劳永逸;目前测试提效20%+测试环境治理单模块 Mock 测试流量分组以 Debug 流量为例路由动态别名,实例按需分组,赋能异常流量测试,跨集群流量调度,动态扩分片,全流量实验基于 eBPF 的旁路无侵入观测零侵入,跨语言,高扩展,低损耗 有效快速解决跨语言异构系统、多模块的问题紧急排查和定位四、技术规划与未来展望
8、AttachmentRDMATCP/IP1MBAvg-Latency:431,90th-Latency:437,99th-Latency:443,99.9th-Latency:446,Throughput:1942.76MB/s,QPS:1.98938k,Server CPU-utilization:105%,Client CPU-utilization:33%2000qpsAvg-Latency:632,90th-Latency:781,99th-Latency:857,99.9th-Latency:982,Throughput:1459.37MB/s,QPS:1.4944k,Server
9、CPU-utilization:83%,Client CPU-utilization:31%1500qps3MBAvg-Latency:1180,90th-Latency:1188,99th-Latency:1203,99.9th-Latency:1208,Throughput:2040.34MB/s,QPS:0.696435k,Server CPU-utilization:108%,Client CPU-utilization:34%700qpsAvg-Latency:1898,90th-Latency:2131,99th-Latency:2357,99.9th-Latency:2484,T
10、hroughput:1495.25MB/s,QPS:0.510379k,Server CPU-utilization:86%,Client CPU-utilization:26%510qps5MBAvg-Latency:1918,90th-Latency:1930,99th-Latency:1945,99.9th-Latency:1952,Throughput:2188.17MB/s,QPS:0.448137k,Server CPU-utilization:129%,Client CPU-utilization:36%450qpsAvg-Latency:2569,90th-Latency:26
11、56,99th-Latency:3939,99.9th-Latency:4227,Throughput:1830.62MB/s,QPS:0.37491k,Server CPU-utilization:99%,Client CPU-utilization:33%375qps10MBAvg-Latency:3774,90th-Latency:3781,99th-Latency:3793,99.9th-Latency:3808,Throughput:2491.11MB/s,QPS:0.25509k,Server CPU-utilization:130%,Client CPU-utilization:
12、37%250qpsAvg-Latency:6127,90th-Latency:7398,99th-Latency:7662,99.9th-Latency:8391,Throughput:1477.67MB/s,QPS:0.151314k,Server CPU-utilization:86%,Client CPU-utilization:25%150qpsLiMoE=Layotto in MOSN on Envoy“能力 X 性能”WLARA LB服务集合跨逻辑集群跨物理集群智能流控Istio Ecosystem基于 Admiral 智能自动化流量调控Mesh Node 化架构赋能新一代 Serverless 平台 欢迎技术交流