《谭奎(public)TQUIC在腾讯的全场景优化实践.pdf》由会员分享,可在线阅读,更多相关《谭奎(public)TQUIC在腾讯的全场景优化实践.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、TQUIC在腾讯的全场景优化实践腾讯/谭奎个人介绍腾讯云CDN、EdgeOne腾讯应用网关、负载均衡CLBTQUIC(Tencent QUIC)协议现在 腾讯提纲EdgeOne TQUIC背景介绍业务场景和挑战QUIC优化实践案例效果和应用关键内容 在线广告营收与网络传输关系 用户体验与传输指标如何对应 各种业务场景如何优化 落地效果:广告营收、视频播放等EdgeOne TQUIC背景介绍QUIC协议发展和主要技术点 Q Quickuick U Udpdp I Internetnternet C Connectiononnection主宰互联网web传输至少30年的新一代传输协议HTTP3对标
2、TCP+TLS+HTTP2核心特性:全用户态协议栈、队头阻塞优化、用户态拥塞控制、连接迁移QUIC 初始版本谷歌内部版本IETF-QUIC草案Chrome灰度gQUIC+iQUIC 共存IETF 进行标准化HTTP/3草案发表实验版本200182021RFC 9000发布QUIC标准2022RFC 9114发布HTTP/3标准0-RTT建连连接迁移腾讯EdgeOne TQUIC介绍DNS静态缓存动态加速协议加速DDoS防护Web防护EdgeOneEdgeOneBOT防护边缘计算TQUICSDKEdgeOne接入QUIC协议北京节点贵州节点海外节点监听协议解析加速能力回源节
3、点回源节点回源节点就近回源客户源服务器QUIC协议QUIC协议TQUICSDKTQUICSDK TQUIC协议加速方案极简接入:提供客户端SDK与服务端节点全覆盖包含主流协议标准:GQUIC、RFC 9000、RFC 9114等加速能力:高比例0-RTT、多路径传输、动态路径选择、自适应拥塞控制 边缘安全加速平台EdgeOne提供性能加速、安全防护、计算的边缘一体服务平台极速性能:覆盖全球数千个边缘节点,通过协议加速、动态链路加速等构建极致低延迟体验业务场景和挑战 在线广告营收与网络传输关系 视频起播慢、卡顿影响用户留存 用户体验与传输指标如何对应 传统优化方案局限性业务场景概览 业务场景特点
4、覆盖场景多:通信、办公、视频、游戏、金融、云客户应用协议多样:RTC、XMPP、RTMP、HTTP、私有二进制面临问题多样:秒开成功率低、登录耗时久、弱网抗性低腾讯视频视频号腾讯会议腾讯广告秒开成功率播放卡顿下载竞速弱网抖动登录耗时平滑切网首帧卡顿不同业务对应的痛点多样不同业务对应的痛点多样程序化广告:网络传输对广告营收起关键作用APPAPP广告SDK广告后台ADXDSP图片CDN视频曝光归因平台点击落地页购物、下载、跳转竞价请求素材请求转化曝光、点击 归因上报公网网游戏APK 面临问题面临问题 实时性要求高、依赖资源多、流程复杂 要求网络请求速度快、成功率高 业务特点业务特点严格限时:几百m
5、s内完成请求流程交互复杂:选单、竞价、素材、曝光、上报广告请求广告展示广告点击广告转化营收广告填充率曝光失败落地页空白归因失效 网络传输影响网络传输影响 竞价成功率低:超30%最优单超时 素材下载失败:影响广告转化效果 归因上报失败:无法与广告主结算 点播常见问题点播常见问题 视频起播慢,缓冲时间长,用户主动退出 播放过程卡顿,用户更容易滑走、退出 痛点:痛点:卡顿原因多样,造成因素可能有多个,难以分析视频播放:观影体验不流畅、黑屏,影响用户留存 直播常见问题直播常见问题 直播过程卡顿,黑屏,影响互动和直播效果帧率差编解码性能关键帧丢失初始窗口RTT丢包带宽低于码率卡顿原因业务层传输层其他场景
6、 实时会议实时会议 进出电梯网络切换,wifi质量不稳定 FeedFeed流加载慢流加载慢 API拉取失败 图片加载失败 在线游戏重连在线游戏重连 RTT高、网络拥塞、网络切网挑战一:传输优化方案存在局限 基于TCP的优化方法限制多,落地成本极高解决的问题范围有限 链路瓶颈问题无法解决高频率连续丢包,难以通过拥塞算法调优TCP Fast Open特定内核、双端配合2015 至今,Experimental 阶段拥塞算法调优内核修改成本高DNSDNS预热、HTTP-DNS等解决问题范围有限TLS 握手TLS 1.3,0-RTT加速无法彻底优化握手延迟要求加客户端支持231XXX2X222X2X 无
7、法解决假WIFI、网络衰退、网络切换问题挑战二:体验问题与传输指标无法直接映射广告超时播放卡顿会议中断素材失败游戏重连直播卡顿链路延迟丢包带宽拥塞算法链路拥塞起播慢网络切换API失败 用户体验只能反映用户体验只能反映是否变差是否变差 业务层数据量化用于比较问题业务层数据量化用于比较问题严重程度严重程度无法定位到根本问题例1:登录耗时统计例2:视频卡顿率 与传输层指标映射与传输层指标映射无法与拥塞参数对应登录耗时高广告成功率低视频突发卡顿TLP Time初始窗口Pacing rate最大窗口RTO Time?QUIC优化实践案例 业务体验与传输指标映射 传输策略动态配置 耗时敏感场景如何优化 跨
8、链路传输优化 视频场景如何优化细粒度数据上报分析,体验与传输指标映射传输特征参数传输特征参数 (50+)(50+)流控窗口大小最小RTT重传次数下载速度窗口受限时长平滑RTT发送窗口大小TLP次数卡顿次数请求耗时首帧耗时Buffer大小业务体验指标业务体验指标 下载超时状态码 业务体验与细粒度传输指标上报关键点:QUIC全用户态,可以获取窗口、丢包、受限时长、srtt等精细指标 案例:成功率与传输指标映射 业务体验指标:成功率、请求耗时 传输层指标:sRTT、重传包量、发包量轻度丢包中度丢包重度丢包TLP/RTO参数调整重传定时拥塞算法更换调整重传发包数换接入点重试切换传输路径丢包数丢包数分布
9、比例分布比例归类归类1214.6%轻度3437.6%轻度5634.3%中度7106.9%中度106.4%重度传输策略动态配置:精确到用户粒度进行传输优化 案例:广告选单请求优化 业务失败请求-丢包数 分类,针对性下发优化策略用户A用户BEdgeOne 协议加速自适应拥塞控制特征参数/传输参数/历史信息Cubic+参数ABBR+参数B握手包数据包数据包端云协同分析拥塞画像离线分析用户C策略决策下发竞速策略、初始窗口 传输策略动态配置端云协同:同一个客户端,其历史拥塞信息可以用于指导当前请求自适应拥塞:分类提取表现较好会话的拥塞参数,用于指导下一阶段传输耗时敏感场景的优化:背景及0-RTT原理 现
10、状:广告场景请求限时,对耗时敏感短连接请求,连接耗时超过了数据传输耗时使用HTTPS,通常需要23次握手 QUIC 0-RTT握手首次握手一般需要1个RTT需要会话凭证才能完成0-RTT耗时敏感场景的优化:0-RTT握手比例低的原因客户端冷启动命中多进程命中多机 背景:广告业务初次上线,实际0-RTT比例只有33%客户端未存储会话凭证随机生成会话凭证耗时敏感场景的优化:高比例0-RTT握手实现 客户端固态存储热更新 内存+磁盘存储凭证 重启后然后保持0-RTT 多app间share同一份凭证 服务端一致性生成 会话凭证无需每次生成 基于可轮转密钥的一致性生成 多机同步 不依赖统一的凭证,安全性
11、更高 需要考虑实时性和稳定性接入点1接入点2Tencent EdgeOne 协议加速普通用户接入EdgeOne接入Tquic Sdk+EdgeOne一致性算法多机共享凭证固态存储热更新广告源站A广告源站B广告源站C广告源站D0-RTT比例:33%未携带会话凭证 命中到不同server收到会话凭证不一致0-RTT比例:96%0-RTT比例:60%首次请求,未携带会话凭证凭证一致性生成定期轮转密钥字符串拉取、下发同步实时交互场景优化:跨链路传输背景网络阻塞不稳定链路网络切换假WIFI曝光失败不断重试 场景一:链路质量显著影响广告竞价、直播、在线游戏等 场景二:使用会议、直播等,进出电梯、停车场等;
12、信号衰退重传次数重传次数分布比例分布比例请求特征请求特征12次51.6%可以通过TLP/LOSS_DETECT恢复34次40.1%需要12个RTT重传5次1.2%用户可明显感知卡顿5次6.4%可能导致退出、断连 现网某业务分析:部分请求链路质量差,对实时用户体验有显著影响 实验对照:在WIFI与蜂窝都打开的情况下,蜂窝可能更快跨链路传输优化:连接迁移实现平滑跨网 连接迁移客户端:切换网卡进行数据发包 迁移的协议栈视角 连接迁移触发:通过系统网络事件对系统版本有依赖跨平台不通用仅网卡切换触发,无法感知弱网 启发式连接迁移跨平台通用弱网感知切换,及时止损思考:连接迁移存在局限性,仅用于解决当前链路
13、不可用场景跨链路传输优化:多路径传输背景 MPTCP(2011年发布)无法大规模部署严格遵循TCP格式,限制多中间设备误伤必须在原始通道重传数据内核升级成本高,至今未大规模应用 QUIC 多路径IETF 标准化中基于 UDP,中间设备无任何感知全应用态,实现更灵活无连接层面的序列号,数据重传可以任意选择路径 业界实现:基于最小RTT调度数据包,效果不佳跨链路传输优化:多路径传输MPQUIC实现EdgeOne TQUIC接入中国电信中国移动七层接入长连接广告节点广告节点广告节点WIFI5G/LTE连接ID一致性路由TQUIC-SDK数据汇聚 接入层数据汇聚连接ID一致性路由跨运营商转发集群间内网
14、转发多路径调度策略 多路径调度策略路径异构调度面向最终完成时动态调度多队列重注入调度视频场景优化:非可靠传输背景I I帧丢包导致客户端缺失帧丢包导致客户端缺失9 9个帧内容,卡顿明显个帧内容,卡顿明显P P帧丢包导致客户端缺失帧丢包导致客户端缺失3 3个帧内容,卡顿轻微个帧内容,卡顿轻微B B帧丢包导致客户端缺失帧丢包导致客户端缺失1 1个帧内容,卡顿无感个帧内容,卡顿无感 背景:并不是所有数据都需要全可靠传输 完全可靠传输在弱网场景的问题不断重传加剧了链路拥塞程度CWND 窗口满导致无法发新数据实时数据不能更快抵达非可靠传输:降低链路拥塞,保证用户体验 QUIC非可靠传输 协议扩展能力(IE
15、TF 草案阶段)丢包无需重传 共享加密连接 TQUIC非可靠传输动态可靠性切换实时流重传比例可配 优化手段:部分数据使用非可靠传输,降低对链路影响效果与应用落地效果:提升广告传输质量,营收显著提升 广告闪屏、插屏、贴片、Feed流、联盟广告竞速等多场景接入 营收显著提升 广告转换效果提升 收敛长尾耗时显著:超500ms耗时大幅减少广告效果优化幅度营收提升超x%个点最优单比例50%-70%+在线广告占比68%-92%落地效果:提升弱网抗抖动,助力网络平滑切换 会议、直播、游戏等场景接入效果 网络切换场景,会话不中断,用户无感知 业务登录耗时下降 弱网下抗丢包率提升关键指标原始优化后抗丢包率70%
16、80%关键指标原始优化后幅度登录耗时1000ms+800ms+降低30%+落地效果:加速视频首播,有效播放时长提升 视频点播、直播场景接入 海外视频场景落地,视频观看卡顿、成功率指标等显著提升 优化APP正片观看时长、特定页面播放等指标QoE指标优化幅度卡顿率降低30%首帧时长840ms-680ms播放成功率95.7-97%视频核心指标视频核心指标提升效果提升效果人均正片播放次数提升0.44%人均有效播放时长提升0.36%跳转页人均播放时长提升1.77%发现页人均播放时长提升2.1%如何接入腾讯TQUIC 腾讯云边缘安全加速平台EdgeOne一键启用HTTP3包含TQUIC-SDK,开启双端加速 腾讯云负载均衡(CLB)Q&AThanks欢迎合作交流,一起推动QUIC协议的发展