《4. AI Codec研究进展与展望(王晶).pdf》由会员分享,可在线阅读,更多相关《4. AI Codec研究进展与展望(王晶).pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、AI Codec研究进展与展望王晶华为 媒体编解码技术实验室主任作经历:2018-今 华为媒体编解码技术实验室2013-2018 国家计算机络安全管理中教育经历:2008-2013 清华学 电程系 博2004-2008 南京学 电信息科学与技术 学研究领域:视频编解码、图像编解码、图像处理个人简介王晶1JPEG AI标准介绍JPEG AI 标准简介PartTitleWDCDDISFDISIS1JPEG AI:Core Coding System23/0123/0723/10-24/042JPEG AI:Profiling23/1024/0124/04-24/103JPEG AI:Referen
2、ce Software24/0124/04-24/104JPEG AI:Conformance24/0424/07-25/01wg1n90049,White Paper on JPEG AI Scope and Framework v1.0,2021.wg1n100603-100-CPM-Request for subdivision of ISO-IEC 6048(JPEG AI).VERSION 1(v1)Version 1 聚焦于效的图像编解码.压缩效率 跨平台致性 低复杂编解码VERSION 2(v2):Version 2 处于需求征集阶段 向机器视觉任务编码 向图像处理任务编码 渐进
3、式编码 JPEG AI 编解码框架解码器编码器 YUV域编解码去除分量间相关性,降低络整体算 编码特征残差图解耦概率分布参数与特征图预测值估计 向不同应场景,设定两个operation point两个OP区别点 High OP 中编解码络增加注意机制 High OP 中预测络利上下信息解码算 Base OP:20 kMAC/pixel High OP:200 kMAC/pixelJPEG AI 性能评价指标:7个指标的综合收益 msssim,vif,fsim,nlpd,iw-ssim,vmaf,psnrHVS当前压缩效果与解码端计算量Reference:VVC4 points BD-rate(
4、0.06,0.12,0.25,0.5)10%BD rate vs VVCMonotonicityMaxBitDiffDplexityTestAVGmsssim Torchviffsimnlpdiw-ssimvmafpsnrHVSMAX kMAC/pxlAVG kMAC/pxlTime GPU,xTime CPU,xModelModelSv4.1-tools-off-GPU-26.3%-39.4%-18.9%-29.1%-25.0%-36.8%-23.8%-10.8%TRUE366%2122070.35#9.97E+06 3.99E+07v4.1-tools-off-GPU-11.4%-29.0
5、%-3.5%-15.3%-10.3%-25.5%-1.5%5.6%TRUE315%22220.082.93E+06 1.17E+07HOPBOP实测性能1024x1024图像,BOP的络结构在Huawei Mate 50 Pro(Qualcomm Snapdragon 8+Gen 1 4G SoC)上实测耗时ModuleCPU(fp16)DSP(A8W8)Arithmetic coding8ms(*)-Hyper Decoder(Y)10ms(*)2ms(*)HSD2ms(*)2ms(*)Synthesis(Y)82ms(*)4ms(*)*wg1m100132-CPM-JPEG AI INF
6、Smartphone demo of JPEG AI codec,Timofey Solovyev,Alexander Karabutov,Dequan Yu,Tiansheng Guo*wg1m100031-CPM-JPEG AI CE Report on CE4.8-Lightweight Model Simplification(Hyper Part),Dequan Yu,Yin Zhao,Elena Alshina*wg1m100032-CPM-JPEG AI CE Report on CE4.8-Lightweight Model Simplification(Synthesis T
7、ransform Decoder Part)Xiang Pan,Ding Ding,Liqiang Wang,Xiaozhong Xu,and Shan Liu,Dequan Yu,Yin Zhao,and Elena AlshinaJPEG AI与与VVC主观质量对主观质量对wg1m99141-REQ-JPEG AI status overview,Joo Ascenso,Elena AlshinaJPEG AI VM4.1BOP_0.75 bppVVC_0.75 bppVVC_1.5 bppJPEG AI 工具功能工具码率控制单模型多码率ROI编码降低复杂度Skip技术提升压缩效率适应量化
8、隐变量缩放技术隐变量在线更新后处理增强滤波器JPEG AI Skip技术 Skip算法(*)当于0.2时,符号概率为0,跳过熵编解码过程 有益效果:平均跳过60%的特征点,减少熵编解码个数,降低复杂度 融训练过程,类似RDOQ效果,提编码效率 潜在险:当斯分布参数估计错误时,跳过对应特征值的编码传输,引artifact 向skip技术的块级控制技术(*)编码端以8x8xC为单元进决策,判断skip引的特征值误差,并在码流中传输skip enable flag基本原则:x为0的概率区间-0.5,+0.5 落在2.5范围内时,x为0的概率超过99%。*wg1m98018-ICQ-JPEG AI C
9、E2.9 ElementCE2.9 Element-based skip in residual codingbased skip in residual coding,Jue Mao,Yin Zhao,Elena Alshina*wg1m99047-CPM-JPEG AI Non-CE Latent-cube-based control for the skip mode,Jue Mao,Yin Zhao,Solovyev Timofey,Elena AlshinaJPEG AI 码率控制 基于通道增益向量的单模型多码率架构(*)增益向量对特征图进通道级缩放,实现变码率编码 适配JPEG A
10、I对特征残差图熵编码架构,通过对特征残差值及概率分布参数量化同步量化,实现码率调节 基于块级质量控制因的ROI编码(*)块级质量等级图与特征图宽相同,即图像域16x16单元的控制度 块级质量等级图编码法 质量等级值预测:_,=,1+1,/2 质量等级增量值:_,=,_,对质量等级增量值采基于斯分布的me-ANS编码变量x的概率密度函数为斯分布:=!#$%!#$%$,则在#,!概率,即对x进量化操作后&=/,&在#,!的概率为!=$)&)()=$&()=$&!#$%!(#$%$()=$&!#$/)%!#/($%/($*wg1m98040-ICQ-JPEG AI Applying Gain Uni
11、t in entropy estimation subnetwork,Timofey Solovyev,Jue Mao,Panqi Jia,Elena Alshina,*wg1m100077-CPM-JPEG AI Non-CE 3D Gain Unit for Block3D Gain Unit for Block-level Quality Controllevel Quality Control,Jue Mao,Yin Zhao,Panqi,Timofey Solovyev,Elena Alshina小结JPEG AI标准愿景:利用AI技术,面向AI应用同架构,两个OP,向多样化应场景持
12、基于特征域的机器视觉和图像增强任务JPEG AI技术特点基于效的AI络结构,提升压缩效率,同码率下主观质量优于VVC叠加编码器可控制的AI编码具,提升应适配灵活性、压缩效率、解码速度等利CPU+通AI加速器,实现实时软件编解码2AI视频编码当前AI视频编码概述整体结构预测编码与残差编码两部分 预测编码:计算、编码运动信息,并根据解码后的运动信息将参考帧对到当前帧得到预测结果。残差编码:编码残差信息,并根据残差信息重建得到重建帧。残差编码法主要包含直接残差编码与条件残差编码直接残差编码的先验更强、更加依赖于预测的准确性。条件残差编码络的由度更,对运动带来的错误纹理更加鲁棒。P帧编码框架残差编码方
13、法AlphaVC视频编码方案示意图I帧为经典基于VAE的图像压缩框架;P帧包含以下个部分:-特征提取模块-运动模块:包含运动估计、运动编码解码(Motion Encoder/Decoder)、运动信息的熵估计。负责估计、压缩参考特征和重建特征的运动信息。-预测模块:利传输的运动信息将参考特征对到当前特征。-残差、置信度编码重构模块:包含残差编码解码(Residual Encoder/Decoder)、残差信息的熵估计、特征重建。负责编码当前特征与预测特征的差,并得到当前帧的重建特征。AVS提案:M7882图像与特征域转换特征提取模块将图像域转到特征域,于后续对、压缩和重建。图像模块于根据重建后
14、的特征得到重建图像。运动模块运动模块包括运动量估计模块与运动量编码模块。运动量估计模块包含运动估计、运动转换、运动对与运动更新四部分。运动估计模块:采预训练的LiteFlowNet 2,在图像域为每个像素成个运动量!#$%&;运动转换模块:利图像域光流和特征域光流的相关性,图像域光流直接成图征光流!#!;运动对模块:DCN对得到当前帧特征估计#!;运动更新模块:当前帧特征!当前帧特征估计#!学习个特征域光流残差,来修正特征域光流示。运动矢量编码模块运动量编码类似于个AI图像编码框架,由Auto-Encoder和个熵估计模型组成。熵估计模型采了适应量化步的Skip熵估计。适应量化步的Skip熵估
15、计络自适应量化步长利超先验和运动的时域(前帧运动信息)、空域(参考特征信息)的先验信息,估计出待编码隐特征的均值,差,量化步。最终 0,的斯分布将,=()*+编码流。Skip为了进步降低熵编码时间,提升编码效果,对于较(=27。测试环境为NVIDIA A100。客观指标vs主观感受PSNR:21.6364MS-SSIM:0.9167PSNR:21.2848MS-SSIM:0.9444PSNR:22.5892MS-SSIM:0.9467主观优化loss向主观优化的重建损失采了混合loss,包含:L1损失,LPIPS 损失6,对抗损失7以及PC损失5:!=&,!,6!+-!,6!+./012!
16、,6!+34(!,6!)为了对抗棋盘格效应,引了PC Loss(Periodic compensation loss)5:PC Loss根据棋盘格的周期将原始图像和重建图像划分为块计算所有块相同位置的均值,得到聚合的特征块计算原图和重建图特征块的误差5 Meng Li,Yibo Shi,et.Al.High Visual-Fidelity Learned Video Compression.2023 ACMMM.6 Zhang R,Isola P,Efros A A,et al.The unreasonable effectiveness of deep features as apercep
17、tual metricC/Proceedings of the IEEE conference on computer vision and patternrecognition.2018:586-595.7 Meng Li,Shangyin Gao,Yihui Feng,Yibo Shi,and Jing Wang.2022.Contentorientedlearned image compression.In Computer VisionECCV 2022:17thEuropean Conference,TelAviv,Israel,October 2327,2022,Proceedin
18、gs,Part XIX.Springer,632647.HPM13.0HPM13.0AlphaVCAlphaVC-p p原图3展望AI Codec应用思考 如何评价PSNR不能很好的体现主观质量,AI Codec在PSNR上优势不明显JPEG AI使msssim,vif,fsim,nlpd,iw-ssim,vmaf,psnrHVS 7个传统指标综合评价,更符合主观感受当前基于GAN优化的AI Codec主观收益更明显,需要推动业界研究、采纳更合理的评价指标,如LPIPS、FID等 应用难点络轻量化:当前JPEG AI BOP压缩率较HEIF提升约40%,但功耗达到HEIF10倍AI视频编码对功耗、时延有更要求络轻量化是当前应的最挑战 应用拓展仅从压缩率提升难以促成应,需要利AI Codec的优势,增加更多能对CV、图像处理任务的持增强编码:在图像信息的基础上增加深度信息,拓展图像功能AIGC、CG成数据编码感谢参与THANKS