《1. 重塑RTC未来大模型浪潮下的技术变革与展望(宋利).pdf》由会员分享,可在线阅读,更多相关《1. 重塑RTC未来大模型浪潮下的技术变革与展望(宋利).pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、重塑RTC未来大模型浪潮下的技术变革与展望宋利上海交通学2011-2018随着终端能力增强、规模增大,音视频点播直播业务量大量增长;Google收购WebRTC并进行了开源,大量VoIP产品进入市场;2018-2023视频通话、在线会议、在线教育等应用蓬勃发展、全面应用;重视技术优化,RTC的传输速度和弱网抵抗能力进一步提高2023-至今传统RTC优化进入瓶颈期;日新月异的大模型和AIGC业务需要更强的RTC能力做支撑;实时通信技术发展历程多模态媒体大模型TextImageSensorAudio3DMotorLarge Language Model表示对齐推理生成评价编码交互EncoderDe
2、coderTransport:User CloudTransport:Cloud UserPart OnePart TwoPart Three1实时通信RTC关键技术RTC基本架构网络层络层处理数据传输的底层细节,包括ICE、STUN等协议,帮助穿越防墙、发现对端地址、建络连接。同时也包括建、维护和关闭连接,以及交换有关媒体流的信息。音视频处理层媒体捕获:获取来克和摄像头的媒体流。媒体通信:压缩和解压缩频和视频数据。络传输:处理通过络传输的频和视频数据,包括带宽适应和丢包恢复。媒体渲染:将接收到的媒体流显示在浏览器中的频和视频元素上。面向TCP的拥塞控制基于固定规则的基于丢包:Reno,CUB
3、IC基于延时:Vegas,LEDBAT基于拥塞:BBR,Iris基于学习的基于尔可夫模型:TCP Remy基于在线学习:PCC Vivace/Verus实时通信关键技术-拥塞控制面向RTC的拥塞控制算法基于固定规则的:GCC通过增减单次发送的分组数量,使其逼近当前的络承载量BBR/GCCFEC:Forward Error Correction 通过增加冗余数据对丢失的数据包进恢复实时通信关键技术-抗丢包策略ARQ:Automatic Repeat Request 丢包是传输过程中难以避免的项问题,可能由物理因素造成,也可能由络拥塞、控制算法滞后等造成通过重传关键数据包完成纠错HARQ(FEC+
4、ARQ)SFU:Selective Forwarding Unit 所有参与会话的流都发送到服务端,服务端将同等数量的流转发给应终端。适合对超低延时要求,并发要求不是特别的场景实时通信关键技术-媒体分发机制MCU:MultiPoint Control Unit 将所有参与会话的流都发送到服务端,服务端将所有流混流合并成路流,然后再下发到应终端。适合对超低延时要求不,对并发要求特别的场景,如规模赛事直播等场景。RTC媒体分发系统中对各应终端间视频数据的转发控制机制2结合AI技术的RTC进阶强化学习赋能在不稳定的络环境下,基于延迟的状态机内部的固定规则往往法跟踪快速变化的带宽,因此引强化学习进更灵
5、活的带宽估计,进给编码器和Pacer更准确的速率指导。QTCP,AuroraR3Net,OnRL,HRCC,BoB面向TCP:面向RTC:在RTC原框架下,在内部可以对拥塞控制模块(带宽估计器)进优化,在外部可以结合新兴流媒体处理技术。信源信道联合优化新兴流媒体处理技术 神经络编码 可分级视频编码 视频超分 视频插帧 脸压缩编码 视频源编码器发送端播放器解码器接收端拥塞控制:传输端估计络路径的平均数据速率,提供给编解码器;编解码器选择编码参数(例如帧速率和质量设置),并成具有近似于估计络容量的平均特率的压缩视频流。抗丢包:常优化案是基于信道状况调整FEC冗余率;也出现了联合神经络编码器的案,在
6、丢包时也需重传和添加冗余也能正常解码播放信源信道联合优化RTC2.0-跨层联合优化CLCC:基于强化学习的跨层拥塞控制视频特率增到定程度后,视频质量会达到种“饱和”,因为过的特率可能是对带宽资源的种浪费,对视频帧来说也会更难适应络突变;且传输层信息量有限,不能全指导QoE。CLCC不仅基于络状态来进决策,且还可以考虑编码器级别的信息,包括帧的质量、帧延迟。基于此构建了能进RL计算的、真实的视频传输实验环境。平均帧延迟降低17%23%PACC:基于用户感知的拥塞控制RTC2.0-跨层联合优化感知贯穿实时互动的整个链路,分说 发送端感知(表情捕获、动作捕获);链路感知(络问题识别、丢包估计);接收
7、端感知(体验计算)优化标是户对于时延的接受度和视觉视频质量之间的平衡,PACC 使了深度模型对当前视频的视觉质量进估计,并利传输层的信息估计络状况的变化趋势,之后根据两个趋势值的变化动态调整视频码率,最后实现户体验的提升传输层和应层QoE提升8.2%32.4%和6.8%18.0%u 空间域:超分RTC2.0-编码传送+前/后处理联合优化LiveNAS可分级编码SVC+SRu 时域:插帧RTC2.0-编码传送+前/后处理联合优化SAFR:System of Adaptive Frame rateRTC2.0-实时媒体网络RTNRTN是种新型架构的视频实时传输络。类似于直播的CDN络,RTN是对视
8、频的实时性强烈要求的场景设计的,原理上全球端到端的时延通过RTN络可以控制在300ms以内。超低延迟软件定义 去中心化 自由调度RTC2.0-实时媒体网络RTN代表厂商技术特点性能落地应用阿里云 GRTN对等组网和动态路径规划双向实时消息网算网融合全链路可视化监测千万级并发情况下延时可在1s以内RTC端到端延时可在250ms左右多人会议淘宝直播/连麦腾讯云 RTN基于Tencent Cloud EdgeOne 节点网络智能路由,就近响应,可以避开质量较差、拥堵的链路自研协议层优化算法平均回源性能提升30%+直播等音视频应用声网 SD-RTN共享节点接近接入 云端QoE协议优化动态路由通用架构全
9、网 200ms 包到达率超过 99.9%,平均提升终端用户访问性能 100%服务于直播、社交、游戏、教育、医疗等行业华为云 SparkRTC动态分组管理网络质量探测路由规划多路径传输全球互联200ms以下华为云云桌面/协同办公网易 WE-CAN边缘接入 智能调度,智能路由,快速避障弱网对抗:信令可靠传输,自研编码器和拥塞控制技术分层解耦跨国通信接近专线质量,全球范围内延迟不超过250ms网易云信XR业务共同点-分布式架构,就近接入、降低延迟 -智能路由、智能避障-传输协议优化,提升传输效率 -全链路质量监控3RTC3.0技术变革展望RTC技术发展演化传统技术-AI赋能提升系统性能Interac
10、tAI-AIGC适配多模态内容源1.02.03.0RTC3.0-基于云端代理的新型实时交互语音图像/视频/点云“您好,请问您叫什么名字”“向她问好”文字图像/视频/点云回应问好“您好,我叫Lisa,很高兴认识你”RTC3.0-基于云端代理的“offline”实时交互持久性数字化身(数字生命)Client1本地渲染Client2本地渲染Agent1Agent2多模态实时驱动云上的引擎LLM 基于个人数据Fine Tune对方的驱动参数-云端代理的持久性,支持Client离线情况下的自动交互-云端代理可离线Fine Tune,具有个人的大部分/全部特征,即数字生命的特性-交互范式扩展特点持久性数字
11、化身(数字生命)用户说出问题自动语音识别ChatGPT自动生成回复TTS文本转语音语音驱动数字人回复RTC3.0-交互式问答助理 数智人RTC3.0-交互式问答助理 数智人全息仓效果示意图,真人录制训练集,训练数字人模型后可以实现模型驱动RTC3.0-适配AIGC的控制中心新升级特点-传输多模态嵌入,在AICU上进行-融合操作,然后返回各个Client,解码播放Embedding AIGUEmbedding Embedding Embedding RTC3.0-面向多模态内容的新一代媒体容器Video ChannelBEFOREAFTER拆分生成解析同步Meta info解析生成以 视频 为主体的容器以 元数据 为主体的容器统一元数据标识 Sequence:SSRC:Type:Timestamp:Position:Index:Extension:Audio ChannelText ChannelSensor ChannelDifferentTracksDifferentTracks大模型浪潮下的RTC未来?RTC业务新格局RTC技术新范式感谢参与THANKSSJTU Media Labhttps:/