《孙炜-QCon-快手长连接的成本治理实践.pdf》由会员分享,可在线阅读,更多相关《孙炜-QCon-快手长连接的成本治理实践.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、快亿级连接的成本治理实践孙 炜主要内容连接介绍成本治理实践-运营治理-架构优化-性能优化-带宽优化-量优化未来计划整体介绍安全、双、低延迟的信令传输服务(KLink)峰值亿级同时在线连接每秒 800w+信令传输每秒 30w+新建连接业务数百服务系统架构接层(FE)协议卸载连接管理逻辑处理存储层(Crux)户状态管理服务层(Svc)消息推送在线状态查询实时拨测主要内容连接介绍成本治理实践-运营治理-架构优化-性能优化-带宽优化-量优化未来计划运营治理产品单价=总成本 可售卖量=总成本 (实际售卖量 售卖率)治理思路&标:架构&性能优化:提升可售卖量,增加售卖率,增加平台收量精简&缩容:降低产品单
2、价成本不清pre-2021 TCO 分摊2021定价计费2021-2022主要内容连接介绍成本治理实践-运营治理-架构优化-性能优化-带宽优化-量优化未来计划架构优化 背景单点推送:规模户量场景下,RPC 调和户数量线性相关,请求扩散严重。例如,直播间 PCU 1000w,1 条直播间消息推送会产 3000w 次平台内 RPC 调;主调业务侧和被调平台侧,都需要消耗量的机器资源。架构优化 解决案标签推送:改造推送系统架构,建两层内存索引:tag-list(fe)tag-list(uid)平台侧 RPC 调:2+N。N 为常数级,最值为 FE 实例数。架构优化 收益产品单价业务侧 RPC 量(以
3、1000w pcu 直播间为例,每秒产 1 条消息)单点推送X C/wqps1000w qps标签推送0.27X C/wqps1qps主要内容连接介绍成本治理实践-运营治理-架构优化-性能优化-带宽优化-量优化未来计划性能优化 概览接层 QUIC服务层 RPC依赖库 Perf Kafka编译层 LTO BOLT性能优化 接层(QUIC)性能问题优化措施优化效果优化 1Quiche 全握默认计算两次 RSA 签名,占握总耗时 91.26%第 2 次签名实际并校验,可以省略省略次 RSA 签名后,压测中建连吞吐提升 61.9%优化 2RSA 签名性能低,单核 1.3k QPSRSA 签名 offl
4、oad 远程 Cavium 加速卡集群全握压测性能提升 50.3%优化 30-RTT 默认法跨机器、集群复 集群间复:改造 ServerConfig 成逻辑 移动端:持久化 0-rtt session,在不同 region 接点间共享0-RTT 建连性能是全握建连的 5.3x0-RTT 线上复率:99.8%优化 4连接已在应层加密(AES),QUIC 协议层进了次加密增加 QUIC 握协商,持了明传输去除 QUIC 加密后,压测吞吐提升 9.9%接层协议:QUIC(90%)、TCP(10%)性能优化 服务层(RPC)性能问题优化措施优化效果优化 1PB 编解码(v3.1)ProtoBuf 升级
5、 Arena 优化:减少内存分配回收次数,降低碎 MAP 优化:降低内存占、析构耗时部分模块 CPU 降幅 40%+优化 2ProtoBuf 改为 Flatbuffer(under experiment)降低反序列化耗时:根据偏移量次或多次直接读取数据压测解析耗时相对 pb 降低50%(1KB payload)优化 3gRPC 及治理层性能瓶颈 平台模块间通信使研 linkRPC 替换 gRPC Numa 绑核某个推送服务 CPU 降幅 7%性能优化 依赖库性能问题优化措施优化效果Perf 打点组件 监控打点数量多,打点组件耗时占 10%字符串减少拼接、原地拷优化 红树+Hash 加速查找,控
6、制内存 组件压测性能提升 2X;线上服务 CPU 降幅2.5%10%Kafka 组件多线程单实例批量产志耗时在上层 buffer 数据,减少接锁冲突单机 CPU 节省 1 C性能优化 编译层LTO(Link-time optimizations)BOLT(Binary Optimization and Layout Tool)运时采样 CPU LBR(branch information)事件,输出 profile 数据转换 profile 为 BOLT 格式,运 llvm-bolt 优化 ELF 件进制布局,帮助 CPU 更好地利其缓存和分预测资源。叠加 LTO+BOLT 优化后,单机 CP
7、U 降幅 8%9%主要内容连接介绍成本治理实践-运营治理-架构优化-性能优化-带宽优化-量优化未来计划带宽&LB 优化优化措施优化效果优化 1 增 tcp_keepalive 间隔 启更激进的压缩策略(256B)出带宽峰值下降约 12%优化 2接层(ConnMgr)持 WSS,移除早期使的云商 L7 LB成本下降 7%优化 3BGP LB 产品类型置换LB 成本降低 50%主要内容连接介绍成本治理实践-运营治理-架构优化-性能优化-带宽优化-量优化未来计划量优化优化项量降幅1.移除转发给业务 的登录、消息 降低 57%2.移除 后台自动触发的信令 降低 15.4%3.精简 ping 信令 降低 35.7%4.精简登录动触发的跳消息 降低 19.6%5.某 P2P 业务聚合请求信令 降低 46.6%总计精简不必要 QPS 200+成本收益优化后峰值 使率降幅 31%可售卖量不变下,平台通过缩容,单价下降 46.8%主要内容连接介绍成本治理实践-运营治理-架构优化-性能优化-带宽优化-量优化未来计划未来计划持续提升售卖率云原演进Thanks!欢迎交流(wechat:suenway)