上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2020年终大会-计算机视觉:11-5.pdf

编号:29892 PDF 35页 20.50MB 下载积分:VIP专享
下载报告请您先登录!

2020年终大会-计算机视觉:11-5.pdf

1、多媒体内容理解在美图社区的 应实践 付超 分享纲 多媒体内容理解 短视频分类 视频指纹 OCR 总结 多媒体内容理解 多媒体内容理解 短视频分类 短视频分类在社区的应场景 基于标签的召回搜索相关推荐排序模型特征用户画像 短视频的特点 随意性多样性单一性 不平均性多元性个性 时效性实时性结构性 模型选择 多模态尝试 分类模型:NextVlad 均匀取300帧 特征提取:efficientnet-b3 音频特征提取:VGGish 文本特征提取:Bert 改进NextVlad 多模态尝试 93%的时间都消耗在图片特 征提取 精度相差不大 流程复杂 下载下载 1% 视频特征视频特征 93% 音频特征音

2、频特征 4% 文本特征文本特征 2% 分类分类 0% 多模态多模态TSMGSM 特征提取(ms)81565656 推理时间(ms)86623031 准确率90.2%86.3%89.6% 舞蹈类别对比 舞蹈类别: 爵士舞韩舞街舞手势舞古典舞 肚皮舞拉丁舞民族舞少儿舞钢管舞 芭蕾舞鬼步舞广场舞宅舞 Nextvlad pipeline 耗时对比 单模态视频分类模型 C3D 一般性能都不好,而且由于涉及大量的参数和计算量 TSN 每帧取均值,缺乏时间编码能力 GST 在分离的通道,2D和3D卷积并行模拟空间和时空相互作用 TSM 使通道在时间上固定前移或者后移 GSM 特征选择能力和数据路由能力的时空

3、间特征模块 视频分类模型GSM GSM(Gate-Shift Module)模块 GSM是对几种现有方法的概括: 当gating = 0时,退化为TSN 当gating = 1时,收敛到TSM GSM放在卷积数较少的分支上 GSM优化点 增加128位全连接层 增加网络深度 效果:提升2% 优化采样 解决数据不均匀问题 例: 视频:64帧,间隔:8帧 效果:最多可以提升20% GSM VS TSM TSM GSM TSM VS GSM性能对比 GSM准确率提升8.81% GSM召回率提升27.63% 二次标签预测 目标 进一步提升召回率 结果 准确率基本不变 整体召回率提升 11% 视频指纹 视频指纹难点 改变视频时长 添加水印、 logo和文字 修改分辨率 改变视频内容 我们的解决方案 特殊的数据增强方法 中心加权&特征聚合 二次校验 视频指纹Pipeline 特征提取 Center Ke

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2020年终大会-计算机视觉:11-5.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部