2020年终大会-计算机视觉：11-5.pdf

编号：29892

PDF 35页 20.50MB 下载积分：VIP专享

下载报告请您先登录！

2020年终大会-计算机视觉：11-5.pdf

1、多媒体内容理解在美图社区的应实践付超分享纲多媒体内容理解短视频分类视频指纹 OCR 总结多媒体内容理解多媒体内容理解短视频分类短视频分类在社区的应场景基于标签的召回搜索相关推荐排序模型特征用户画像短视频的特点随意性多样性单一性不平均性多元性个性时效性实时性结构性模型选择多模态尝试分类模型:NextVlad 均匀取300帧特征提取:efficientnet-b3 音频特征提取:VGGish 文本特征提取:Bert 改进NextVlad 多模态尝试 93%的时间都消耗在图片特征提取精度相差不大流程复杂下载下载 1% 视频特征视频特征 93% 音频特征音

2、频特征 4% 文本特征文本特征 2% 分类分类 0% 多模态多模态TSMGSM 特征提取(ms)81565656 推理时间(ms)86623031 准确率90.2%86.3%89.6% 舞蹈类别对比舞蹈类别: 爵士舞韩舞街舞手势舞古典舞肚皮舞拉丁舞民族舞少儿舞钢管舞芭蕾舞鬼步舞广场舞宅舞 Nextvlad pipeline 耗时对比单模态视频分类模型 C3D 一般性能都不好，而且由于涉及大量的参数和计算量 TSN 每帧取均值，缺乏时间编码能力 GST 在分离的通道，2D和3D卷积并行模拟空间和时空相互作用 TSM 使通道在时间上固定前移或者后移 GSM 特征选择能力和数据路由能力的时空

3、间特征模块视频分类模型GSM GSM（Gate-Shift Module）模块 GSM是对几种现有方法的概括: 当gating = 0时，退化为TSN 当gating = 1时，收敛到TSM GSM放在卷积数较少的分支上 GSM优化点增加128位全连接层增加网络深度效果:提升2% 优化采样解决数据不均匀问题例：视频：64帧，间隔：8帧效果：最多可以提升20% GSM VS TSM TSM GSM TSM VS GSM性能对比 GSM准确率提升8.81% GSM召回率提升27.63% 二次标签预测目标进一步提升召回率结果准确率基本不变整体召回率提升 11% 视频指纹视频指纹难点改变视频时长添加水印、 logo和文字修改分辨率改变视频内容我们的解决方案特殊的数据增强方法中心加权&特征聚合二次校验视频指纹Pipeline 特征提取 Center Ke

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（2020年终大会-计算机视觉：11-5.pdf）为本站（X-iao）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。