1、多媒体内容理解在美图社区的 应实践 付超 分享纲 多媒体内容理解 短视频分类 视频指纹 OCR 总结 多媒体内容理解 多媒体内容理解 短视频分类 短视频分类在社区的应场景 基于标签的召回搜索相关推荐排序模型特征用户画像 短视频的特点 随意性多样性单一性 不平均性多元性个性 时效性实时性结构性 模型选择 多模态尝试 分类模型:NextVlad 均匀取300帧 特征提取:efficientnet-b3 音频特征提取:VGGish 文本特征提取:Bert 改进NextVlad 多模态尝试 93%的时间都消耗在图片特 征提取 精度相差不大 流程复杂 下载下载 1% 视频特征视频特征 93% 音频特征音
2、频特征 4% 文本特征文本特征 2% 分类分类 0% 多模态多模态TSMGSM 特征提取(ms)81565656 推理时间(ms)86623031 准确率90.2%86.3%89.6% 舞蹈类别对比 舞蹈类别: 爵士舞韩舞街舞手势舞古典舞 肚皮舞拉丁舞民族舞少儿舞钢管舞 芭蕾舞鬼步舞广场舞宅舞 Nextvlad pipeline 耗时对比 单模态视频分类模型 C3D 一般性能都不好,而且由于涉及大量的参数和计算量 TSN 每帧取均值,缺乏时间编码能力 GST 在分离的通道,2D和3D卷积并行模拟空间和时空相互作用 TSM 使通道在时间上固定前移或者后移 GSM 特征选择能力和数据路由能力的时空
3、间特征模块 视频分类模型GSM GSM(Gate-Shift Module)模块 GSM是对几种现有方法的概括: 当gating = 0时,退化为TSN 当gating = 1时,收敛到TSM GSM放在卷积数较少的分支上 GSM优化点 增加128位全连接层 增加网络深度 效果:提升2% 优化采样 解决数据不均匀问题 例: 视频:64帧,间隔:8帧 效果:最多可以提升20% GSM VS TSM TSM GSM TSM VS GSM性能对比 GSM准确率提升8.81% GSM召回率提升27.63% 二次标签预测 目标 进一步提升召回率 结果 准确率基本不变 整体召回率提升 11% 视频指纹 视频指纹难点 改变视频时长 添加水印、 logo和文字 修改分辨率 改变视频内容 我们的解决方案 特殊的数据增强方法 中心加权&特征聚合 二次校验 视频指纹Pipeline 特征提取 Center Ke
1、下载报告失败解决办法 2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。 3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。 4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
2020年终大会-计算机视觉:11-1.pdf
2020年终大会-计算机视觉:11-2.pdf
2020年终大会-计算机视觉:11-3.pdf
2020年终大会-计算机视觉:11-4.pdf
2020年终大会-大数据架构:5-5.pdf
2020年终大会-推荐算法:3-5.pdf
2020年终大会-对话智能:14-5.pdf
2020年终大会-数据治理:15-5.pdf
2020年终大会-大数据架构:5-2.pdf
2020年终大会-大数据架构:5-3.pdf
三个皮匠报告专业的行业报告下载站,每日更新,欢迎大家关注!
copyright@2008-2013 长沙景略智创信息技术有限公司版权所有 网站备案/许可证号:湘B2-20190120
专属顾问
机构入驻、侵权投诉、商务合作
三个皮匠报告官方公众号
验证即登录,未注册将自动创建三个皮匠报告账号
使用 微信 扫一扫登陆