6-3 游戏视频的多模态与细粒度理解分析技术.pdf

编号：102373

PDF 36页 11.61MB 下载积分：VIP专享

下载报告请您先登录！

6-3 游戏视频的多模态与细粒度理解分析技术.pdf

1、游戏视频的多模态与细粒度理解分析技术姚韬腾讯游戏级算法研究员CONTENTS01游戏视频理解简介游戏视频细粒度理解技术游戏视频多模态理解技术游戏视频事件检测框架020304|01游戏视频理解简介1.游戏内容个性化推荐游戏视频动打标，动事件检测，基于内容的推荐2.游戏光时刻动剪辑动提取出对局视频中的精彩事件及光段3.辅助创作者进次创作动剪辑，动配乐，动表情包添加，动解说4.打击版权侵权为识别外部渠道违规直播未经授权的游戏内容英雄联盟0.99MOBA0.99复仇之0.98精彩集锦0.50团战0.11游戏视频理解简介|02游戏视频事件检测框架视频理解分析中的事件层次定义画元素（Eleme

2、nt）动作（Action）剧本事件（Event）举例（王者）Frame_1Frame_2Frame_3Frame_4Frame_5Frame_6Frame_7Frame_8Frame_9Frame_10播报,防御塔攻击Element（画元素）Element（画元素）Element（画元素）Element（画元素）越塔,1v1,击杀Action（动作）Action（动作）越塔强杀,多杀Event（事件）Event（事件）举例（CFM）Frame_1Frame_2Frame_3Frame_4Frame_5Frame_6Frame_7Frame_8Frame_9Frame_10流播报Element（

3、画元素）Element（画元素）Element（画元素）Element（画元素）Element（画元素）Element（画元素）Element（画元素）Element（画元素）Element（画元素）Element（画元素）爆头Action（动作）Action（动作）雷杀Action（动作）Action（动作）三连杀Event（事件）四杀Event（事件）游戏事件层次定义|当前分 4:6当前分 4:6当前分 4:6当前分 6:62分球连续得分当前分 2:6当前分 2:6当前分 2:6当前分 4:62分球画元素Element动作Action剧本事件Event 其他游戏也有类似的事件层次，因此我们

4、的事件层次定义具有很好的通性已持王者/和平精英/CFM/LOL/NBA2k/DNF/影等款头部游戏，持续增加中多层次：标签体系与事件层次对应细粒度：精确到元素级别游戏事件层次定义|事件层次定义标准化算法服务开发框架标准化业务开发流程标准化整套流程可快速扩展其他游戏王者荣耀视频结构化分析游戏视频结构化分析|视频预处理帧处理事件打点视频裁剪视频录制边裁切帧采样击杀检测兵线检测条检测越塔检测帧分类封图连杀事件搞笑事件特殊属性素材裁剪动标题智能封红兵防御塔蓝兵防御塔兵线对抗事件节点元素节点空间位置LOL视频结构化分析影忍者视频结构化分析游戏视频结构化分析|03游戏视频细粒度理解技术游戏视频

5、细粒度理解画元素检测识别多尺度模板匹配标检测识别特征点匹配+Homography对应标检测识别|深度神经络标识别阿古朵OCR字识别KDA=3/0/3游戏视频细粒度理解画元素检测识别|基于YOLO的标检测检测包含形变的标视变换定位物体实际位置游戏视频细粒度理解画元素检测识别|服务于游戏视频细粒度理解框架帮助户快速实现指定各种游戏中指定标检测功能框架检测流程游戏视频细粒度理解通游戏标检测框架|框架功能依赖逻辑检测器模板匹配特征匹配滤波器模板匹配分数颜直图 pHash SSIM 灰度均值孪络框架持模式单张图推理单张图调参单个视频调参图像模板定义系列图像标注

6、检测结果系列图像动调参游戏视频细粒度理解通游戏标检测框架|基于该框架的标检测示例游戏视频细粒度理解通游戏标检测框架|视频分析-王者荣耀视频分析-和平精英内容态-IP侵权识别打击营造框架背景游戏视频细粒度理解游戏场景OCR框架游戏推游戏开发游戏体验打造游戏态完整闭环加速正向循环同时着态的四向打造态级|图像合成本&字符检测本识别框架内容游戏视频细粒度理解游戏场景OCR框架|具有模仿复杂本图像能的合成框架字成算法unity对图像进渲染OPENCV对图像进映射导出合成的图像半动图形特征统计图像合成框架游戏视频细粒度理解游戏场景OCR框架发光描边字距变化渐变阴影浮雕特效库seamless正常混合

7、叠底旋转变形裁剪模糊后处理库半动图像特征统计模块级特效渲染模块配置件|写体数据合成数据街景数据合成数据合成数据合成数据合成数据验证码数据牌数据告数据数字数据合成数据合成数据总计 15,997,702合成数据占82.5%总计 3,393,451标注占17.5%游戏视频细粒度理解游戏场景OCR框架|编码器解码器稠密预测阶段标检测算法检测结果RNN解码器CRNN本识别算法识别结果分分111亿亿现CTC规则分1亿现分1亿现后处理后处理结果后处理结果识别结果检测帮助识别识别帮助检测基于交错监督的阶段标检测算法游戏视频细粒度理解游戏场景OCR框架输图像编码器|ResNet34+CRNN+CTCResNe

8、t34+CRNN+AttentionResNet50+CRNN+CTCBagging训练去哪了？去哪去哪了？多维度融合训练数据集测试测试测试测试基于随机森林本识别模型游戏视频细粒度理解游戏场景OCR框架|王者荣耀-时间识别（100 qps）专OCR准确率97%，外部OCR准确率90%LOL-时间识别（50 qps）专OCR准确率97%，外部OCR准确率90%和平精英-数字识别（100 qps）专OCR准确率99%，外部OCR准确率89%法字识别（15 qps）专OCR准确率99%，外部OCR准确率90%业务价值游戏视频细粒度理解游戏场景OCR框架|标准视频标准视频样例版式横版横版、竖版尺度不

9、存在缩放存在局部放缩边框边框版式少边框版式多样特效存在特效清晰度存在低清晰度完整度画完整存在画裁剪遮挡较少存在表情包等遮挡时视频，游戏对局完整存在短视频，游戏对局不完整短视频带来的新挑战游戏视频细粒度理解信息流短视频理解|王者荣耀LOL游LOL游条/技能区/播报/防御塔/KDA识别进步挖掘深度模型的潜使个深度模型完成位置/量/阵营检测把游戏内的多种类型标都作为同模型的检测对象把游戏标进梳理归类 L0 框架复 L1 模型重新训练/替换数据使 L2 模型fine tuning使 L3 模型直接复游戏视频细粒度理解信息流短视频理解|短视频标签召回从46.5%提升68.5%游戏视频细粒度理解信

10、息流短视频理解效果优化：持续迭代模型泛化性提升：数据成+数据增强+深度标检测模型解决在短视频场景存在的以下挑战：画裁剪视频特效标遮挡定义边框|功能模块识别任意视频中（包括混剪视频）包含的特定游戏段难点：游戏画在视频中出现的形式千变万化，很难准确识别解决案：综合利多种图像识别法对视频帧进识别画被裁剪（LOL）画被旋转（LOL）背景扰（王者）翻拍画（DNF）相似游戏（CSGO，和CF较像）肤展示类视频（LOL）名称描述视频预处理为了得到较为纯净的游戏画于识别游戏名称对旋转视频的校正和对叠加背景的视频裁剪掉背景图像识别模型基于视频帧的图像识别，判断每帧是否为特定游戏画OCR基于视频帧的OC

11、R，通过识别特定字符判断画是否为特定游戏画标检测使多标检测框架，检测画中是否存在特定游戏的特定界元素，从判断是否为特定游戏画游戏视频细粒度理解典型应：视频游戏画识别|旋转识别与校正位置识别与裁剪LOL对战LOL棋LOL肤展示OCR识别游戏界（王者荣耀）标检测识别游戏界（王者荣耀）游戏王者荣耀游戏穿越线游戏视频细粒度理解典型应：视频游戏画识别预处理游戏类别细分OCR与标检测|04游戏视频多模态理解技术EfficientNetVggishBert存在问题视频数据量少相对较少视频信息提取不标签数量不平衡，尾标签出现频率低需要更好的对多模态信息进融合肤展示（图像模态）教学攻略（本模态）Line

12、arBCE英雄联盟：锐雯精彩操作，丝滑连招，秀杀对！特征提取多模态融合分类输出游戏视频多模态理解视频多标签任务为什么需要为游戏视频打标签？每天会产量游戏视频内容，对这些视频内容做科学管理可以带来巨的价值增益游戏视频的运营、推荐、分析需要准确全的内容描述，游戏视频分类和打标是个最普遍的内容描述式为什么需要多模态理解来解决游戏视频多标签任务？游戏视频的语义信息包含在不同的模态数据中多模态视频理解模型包含图像、视频、频、本等模态本模态由视频标题、OCR、ASR等来源融合成|1.利开源预训练模型能来提取底层数据特征冻结预训练模型参数来保留预训练模型的识别能冻结预训练神经络前层参数，只在最后1-2层

13、参数进BP优化，更好的保留预训练模型的特征抽取能，避免overfitting 解决视频量不导致模型法充分训练的问题2.升级单模态预训练模型的能通过升级模型，提单模态底层特征表达能，从提融合后的多模态模型的识别能模型选择模型特点视频Swin更好的提取patch化图信息，增强了对画中元素的理解能Video-Swin引了时序patch，增加了对时序信息的理解能频Wav2Vec该模型在asr任务中具有更好的表现效果，可以提升通过频理解语义信息的能AST利transformer结构提了模型对频捕获全局上下的能，可以更好的提取频特征游戏视频多模态理解多模态预训练模型|视频模态全局clipClip 1Cl

14、ip 2Clip 3Clip 4图像模型连续视频抽帧结果稀疏抽帧密集抽帧稀疏抽帧和密集抽帧同时使频模态采和视频类似的密集抽帧和处理式Clip 1Clip 2Clip 3Clip 4频模型密集抽帧连续频抽帧结果短本短本短本短本本模态因为Bert模型限制最输为512字符，普通法法处理512字符以上的本，往往截断成短本进处理；为了提取本特征，我们考虑游戏视频中不太会有过的上下依赖，采分段的思路处理本；本因为asr从频中提取的本会有错误和些语扰本，我们利N-gram计算ASR本的困惑度，筛除掉困惑度过的句；Bert游戏视频多模态理解优化视频抽帧|优化Loss函数在游戏视频理解中，多数标签出现

15、的频率不，有较明显的正负样本不平衡为了解决这个问题，我们实验了Focal Loss及其变体ASY Loss正样本比例标签数量=10%11个=5%7个=1%33个1%74个Focal LossAsymmetric（ASY）Loss!=log=log(1 )!=1#log=#log 1 置信度的sample会在loss上进衰减，更多优化“难”的样本。对于负样本过多的情况，预测负样本是简单的，所以被衰减，正样本则不被衰减。CE Loss:Focal Loss:,!=1#!log=$#log 1%正负样本衰减系数解耦，并且屏蔽置信度过的负样本的lossASY Loss:%=max(1 ,0)游戏视频

16、多模态理解优化LOSS函数|Transformer融合Transformer融合模块利self-attention让不同模态的特征之间进充分的信息交换MBT(Multimodal Bottleneck Transformer)融合游戏视频不同模态数据中包含量冗余信息，直接融合会带来量效信息MBT迫使模态间信息只通过少量瓶颈节点进流动，要求单模态模型整理和浓缩每种模态中最相关的信息，提融合性能我们的模型中进了视频、频、标题、其他本四个模态的融合图像模块频模块本模块拼接融合图像模块频模块本模块Transformer融合Transformer普通Transformer融合MBT融合Bottlenec

17、k本频视频本频视频游戏视频多模态理解优化多模态融合|前多模态覆盖43个频标签，其中包括语义标签和实体标签，准80%召60%多模态标签提升打标效率多模态标签辅助打标，提升打标效率，可更好地服务内容管理、内容推荐、内容分析等应场景；前多模态覆盖43个频标签，其中包括语义标签和实体标签，准80%召60%。游戏视频多模态理解业务应|多模态模型提升游戏分类效果该模型结构同时复于游戏分类业务，带来了显著的效果提升。多模态embedding帮助推荐提效打标模型输出的多模态embedding包含更丰富的视频语义信息，将其输出给推荐场景，可提升推荐召回效率和效果。游戏分类能持更多应场景基于多模态建设的游戏内容分类能，可更好地服务内容初始化处理、内容分析、内容引等场景。常感谢您的观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（6-3 游戏视频的多模态与细粒度理解分析技术.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。