《火山引擎:CV 技术在视频创作中的应用(2022)(31页).pdf》由会员分享,可在线阅读,更多相关《火山引擎:CV 技术在视频创作中的应用(2022)(31页).pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、2022/5/191CV 技术在创作场景的应用火山引擎创作 CV 负责人吴兴龙22.智能特效及背后的技术简介3.智能编辑及背后的技术简介磅4.客户实践案例1.视频创作中用户的痛点2视频创作中用户的痛点问题34概览:视频内容生态4丰富内容创作维度,促进内容生产分享内容创作内容消费用户个性化内容推荐智能美化特效智能理解编辑直播短视频内 容 理 解 与 编 辑视频音频图片文字5视频创作中用户的痛点专业的创作者,占所有短视频用户的比例是很低的普通用户的痛点:缺少创意不知道拍什么不懂的如何剪辑50554045头腰部创作者尾部创作者视频消费者数量占比数量占比6如何做好 UGC 激发在
2、 UGC 创作激发上,字节的最佳实践是什么?优秀的创作工具:剪映抖音醒图强大的 AI 支撑:智能特效智能编辑6智能特效:让拍摄更有趣78抖音特效场景8婚纱照哈利波特转场赛博朋克三屏人生动态照片多种智能特效能力,有效提升了拍摄的可玩性,让用户更有意愿参与拍摄9智能特效背后的视觉技术9数据处理数据处理、管理、存储的一站式方案、管理、存储的一站式方案数据平台面向视觉面向视觉连接数据连接数据/标注的工具平台标注的工具平台训练平台人工人工、机器多种方式的自动标注平台、机器多种方式的自动标注平台标注平台量化量化、压缩、压缩、NASNAS、端上推理引擎、端上推理引擎、ModelZooModelZooAuto
3、ML基础基础平台层平台层人脸人脸理解理解场景理解场景理解人体理解人体理解物体检测物体检测理解理解变宝宝变宝宝属性编辑属性编辑变性别变性别人脸驱动人脸驱动生成生成VRVRSLAMSLAMARAR场景建模场景建模XRXR算法算法能力层能力层特效业务特效业务人体分割人体分割物体分割物体分割人体解析人体解析显著性分割显著性分割分割分割Deep Drive Case 1:年龄编辑图片区域10利用 GAN 技术,实现年龄编辑效果可用于特效、编辑等场景技术原理图片区域11技术优势:全年龄段高清可控编辑全年龄段高清可控编辑:指定年龄并精准编辑生成对应年龄的高清人像渐变编辑渐变编辑:不同年龄之间的变化真实自然高
4、相似度高相似度:保留原始人像主要特征,与原图长相相似度高Deep Drive Case 2:人体解析图片区域12利用人体解析技术,实现炫酷的画面特效极大激发用户的创作热情人体解析技术简介图片区域13技术优势:丰富度高丰富度高:支持 80+类别的解析能力运行效率高运行效率高:端上实时运行实例分割实例分割:能区分不同主体Deep Drive Case 3:AutoML-GAN图片区域14AutoML:通过模型搜索、压缩、量化等技术,提升算法的运行效率有效保证算法在端上的运行效率和算法效果AutoML-GAN图片区域15技术优势:能够把 GAN 模型的计算量减少到最低 1/46、参数量减少到最低 1
5、/82 的程度,并保持原来的图像生成质量创新性的在线蒸馏和多粒度蒸馏方案在内部多个业务问题上验证有效智能编辑:让剪辑更简单1617智能编辑场景17文章转视频希区柯克素材库一键成片各种一键式的 AI 能力,让小白用户也可以轻松剪辑出高质量视频18智能编辑背后的视觉技术18数据处理数据处理、管理、存储的一站式方案、管理、存储的一站式方案数据平台面向视觉面向视觉连接数据连接数据/标注的工具平台标注的工具平台训练平台人工人工、机器多种方式的自动标注平台、机器多种方式的自动标注平台标注平台量化量化、压缩、压缩、NASNAS、端上推理引擎、端上推理引擎、ModelZooModelZooAutoML基础基础
6、平台层平台层视觉推荐视觉推荐视觉搜索视觉搜索CTRCTR推荐推荐&像素理解像素理解Deep drive:Case 1 视频抠图图片区域利用视频人像分割技术,低成本实现高级视频效果极大提升创作效率:手动抠图/绿幕拍摄-一键抠图19视频抠图-RVM图片区域Paper:Robust High-Resolution Video Matting w
7、ith Temporal Guidance.Shanchuan Lin,Linjie Yang,Imran Saleemi,Soumyadip Sengupta.(BMVC 22)Code:https:/ 5K star视频抠图图片区域21Unet 结构,Encoder 为普通的全卷积网络,Decoder 使用了 Recurrent 模块接收视频前面帧信息ConvGRU 前后使用 skip connection,可提升稳定性模型最后接 Deep Guided Filter 提升分辨率输出三个节点:Alpha(Matting 结果),Foreground(前景 RGB),Segmentation
8、(粗分割结果)Deep drive:Case 2 文章转视频图片区域利用 AI 技术,一键式的完成文章到视频的转换有效解决图文创作者的痛点2223文章转视频-技术原理23文章摘要生成字幕文章定位音乐匹配素材匹配视频渲染-涉及图像、语音、文本多模态理解与检索-有效降低了投稿门槛,投稿自动化Deep drive:Case 3 3D 运镜图片区域利用单张图片,实现影视级运镜效果小白也能简单获取高级感视频技术优势:精细的边缘处理效果逼真的填补效果3D 感十足的运镜设计24253D 运镜25深度估计深度估计主体分割主体分割InpaintingInpaintingMesh构建Mesh构建图片图片视频视频带动 CapCut 在全球 28 个国家/地区冲到商店总榜榜首比较有意思的 case图片区域26外部客户实践27智能创作云图片区域28金融行业 图文转视频图片区域29可用于:公告类(业绩预告、季报年报等)、快讯类(宏观政策、财经资讯播报)视频内容制作公告类(业绩预告、季报年报等)、快讯类(宏观政策、财经资讯播报)视频内容制作投顾报告财经资讯转视频金融实时k线图播报虚拟人新闻播报汽车行业 一键成片图片区域30可用于:营销类、用户娱乐类场景营销类、用户娱乐类场景汽车营销车端创作