《AI 在短视频创作与理解上的应用-王仲远.pdf》由会员分享,可在线阅读,更多相关《AI 在短视频创作与理解上的应用-王仲远.pdf(46页珍藏版)》请在三个皮匠报告上搜索。
1、AIAI在短视频创作与理解上的应用在短视频创作与理解上的应用王仲远快手技术副总裁,MMU&Y-tech负责人2021.11.25快手快手-国民短视频及直播社区国民短视频及直播社区流量内容粘性3.23.2亿亿国内日活用户5.75.7亿亿国内月活用户1.81.8亿亿+海外月活用户数百数百亿量级亿量级短视频库存100min+100min+日均使用时长140140亿亿+对人互相关注1010次次日均访问次数70%70%私域渗透率快手快手-拥抱每一种生活拥抱每一种生活跑车美景才艺表演探店古风非遗国粹搞笑吐槽家乡好货美食教程极限运动绘画艺术舞蹈山河美景可爱萌宠AIAI技术在快手的应用技术在快手的应用内容生产
2、:内容生产:在APP中提供炫酷的视觉特效、魔法表情、一键出片、自动字幕等AI工具和玩法,依赖AR引擎、人脸&手势识别、语音转译、智能创作等自助研发技术。内容理解:内容理解:基于对社区中视频、图像、音乐、语言语义、主播和创作者的理解,充分结构化解释快手的内容生态,实现了社区海量内容的分类管理、原创保护、安全审核、助力分发等诸多应用。内容分发:内容分发:推荐是用户与视频的双向匹配,将百亿视频特征和亿万用户特征输入推荐系统,实现精准、个性化的推荐。内容生产内容分发内容理解AIAI在内容生产中的应用在内容生产中的应用基础能力基础能力美颜美体自动字幕自动配音高级玩法高级玩法智能变声魔法表情AR/MR智能
3、创作智能创作智能编辑虚拟人MetaverseMetaverse一个离不开美颜的时代一个离不开美颜的时代不管是拍照、拍视频还是直播,美颜如今已是大家依赖的基础能力。智能创作智能创作高级玩法高级玩法基础能力基础能力人像美化技术现状人像美化技术现状磨皮 美白各项细调美型瘦脸滤镜美妆滤波器组合,LUT组合特征点+变形算法设计师设计LUT设计师设计素材现有美化流程和技术现有美化流程和技术如何达到用户想要美化效果如何达到用户想要美化效果8优化现有技术优化现有技术优势:迭代快,性能可控劣势:效果上限不高,自适应能力差vsvs优化引入新变量-AIAI能力能力优势:复杂高级效果,自适应劣势:研发周期长,端上运行
4、慢智能创作智能创作高级玩法高级玩法基础能力基础能力人像美化:人像美化:AIAI美颜技术美颜技术AIAI人像人像画质增强画质增强修复对焦不准、低端机成像差等等导致的人像画质问题AIAI一键美颜一键美颜一键式磨皮,提升面部立体感肤色自然过渡AIAI头发生长头发生长双眼皮生成双眼皮生成自然将单眼皮变为双眼皮任意短发变成长发模样传统美颜传统美颜AI美颜美颜传统增强传统增强AI增强增强智能创作智能创作高级玩法高级玩法基础能力基础能力人像美化:一键人像美化:一键AIAI美颜完整技术方案美颜完整技术方案原始人脸美颜后人脸高频皮肤纹理高频皮肤纹理低频皮肤颜色卷积网络reorg代表H,WH/2,W/2H/4,W
5、/4网络结构每个block结构重采样卷积每个重采样卷积结构conv3x3conv3x3conv1x3conv3x1conv1x1AvgPoolconv1x1Sobelconv1x1Gaussianconv1x1Laplacian参数融合conv3x3训练时推理时代表我们在网络设计上使用了encoder-decoder的结构,网络中每个block都使用了先降维度再升维的重采样卷积结构来降低计算量,每个重采样卷积我们创新性的加入了sobel,gaussian等传统图像处理算子在更进一步提升训练时网络容量的情况下不增加推理时的性能开销。智能创作智能创作高级玩法高级玩法基础能力基础能力AIAI在在人脸
6、属性变换中的应用人脸属性变换中的应用人脸属性编辑:人脸属性编辑:对含有人脸的图像,进行人脸属性变化,可返回各种处理效果,效果真实自然。原图变少年变老变性别变胖DemoDemo体验体验输入图像/视频年龄性别五官表情胡须头发源图像编码器隐空间操控:StyleClip/Interfacegan域迁移:CycleGAN/StarGAN目标图像生成器数据质量增强属性挖掘属性控制数据融合美颜美化超分辨率属性类别AIAI在在人脸属性变换中的应用人脸属性变换中的应用人脸属性编辑:人脸属性编辑:人脸属性编辑项目主要包含属性的类别判断,属性的编辑操控及一些数据质量增强方法,通过串联这些技术点,最终实现从输入图像到
7、输出图像的属性变换的效果。其中最核心的为属性操控,主要采用两种思路,分别为基于domain transfer的学习,和基于隐空间的操控。输出图像/视频域域A A生成器AtoB生成器BtoA域域B B判别器A判别器BW编辑后W智能创作智能创作高级玩法高级玩法基础能力基础能力魔法表情:魔法表情:人像风格人像风格化化东方国漫主站-神仙拜年国风风格主站-国风美人韩漫风格主站-综艺大咖生成式人像风格化:生成式人像风格化:人像风格化是指通过AI算法,将输入的人像图片转换成具有目标风格的人像图片。转换后的图片既保留输入人像图片的五官和外形等特征,又具备目标风格的美学和艺术效果。国风风格主站-新春画中人言情手
8、绘主站-我的手绘脸智能创作智能创作高级玩法高级玩法基础能力基础能力生成式人像风格化:生成式人像风格化:我们提出了一个高效的人像风格化落地方案,包括基于StyleGAN-blending等技术的小成本的高质量风格数据生成,以及采用了半监督混合训练框架和human-in-the-loop策略,以适配于快手场景的风格模型训练与迭代。小成本数据生成小成本数据生成科学的数据分布与场景覆盖海量的虚拟/真实数据收集基于少量样本的高质量数据生成模型训练与分级部署模型训练与分级部署高效的模型训练框架SOTA的风格迁移模型效果CPU/GPU/NPU/DSP支持与性能优化不同算力下的最优效果展示多种玩法灵活支持多种
9、玩法灵活支持服务端全图风格化客户端实时多人风格化客户端实时单人多风格化魔法表情:魔法表情:人像风格人像风格化化智能创作智能创作高级玩法高级玩法基础能力基础能力自动字幕(ASR)智能语音合成(TTS)在生产环节创造的价值:在生产环节创造的价值:降低创作视频的门槛,配合推荐在配乐、视频制作上提供更多工具,让每个人都可以止制作更精致的视频 提供更多玩法,让视频更有趣智能RAP智能语音在快手普遍被应用,自动字幕、语音合成、智能RAP为用户提供更方便、快捷、有趣的工具和玩法智能语音智能语音智能创作智能创作高级玩法高级玩法基础能力基础能力智能说唱配音智能说唱配音智能说唱配音可以识别视频主题,自动编写与主题
10、匹配的说唱歌词并演唱,可丰富视频配乐的玩法手段。自动视频理解自动歌词生成可爱的小猫自动说唱生成|可爱猫咪 好听话 打扮起来 本领大|小小爪子 是活动家 吐司头套 给你抓|图像NLP语音智能创作智能创作高级玩法高级玩法基础能力基础能力智能变声能够将一个人的声音变成另外一个人的音色,同时保持说话内容不变,可用于视频创作、直播等场景。首先通过一个音素内容提取模块从原始语音中提取内容信息,然后根据选择的目标音色id生成目标说话人表征向量,将这两者信息通过语音转换模型进行耦合,生成含有目标人音色,原始语音内容信息的变声语音。智能变声智能变声原始语音输入语音输入语音音素内容提取音素内容提取b ai2 r
11、i4 y i1 sh an1 j in4(白日依山尽)目标音色选取目标音色选取小哥哥/小姐姐/蜡笔小新非自回归语音非自回归语音转换模型转换模型输出变声效果输出变声效果变小哥哥变卡通小新变四川方言智能创作智能创作高级玩法高级玩法基础能力基础能力AIAI歌手歌手智能创作智能创作高级玩法高级玩法基础能力基础能力2019年12月搭建基础BaseLine,采用传统BLSTM语音合成框架2020年5月采用改进后的自回归网络+LPCNet声码器2020年8月优化声码器高音预测音质差的问题2020年11月改用PW-GAN声码器方案,音色更加自然,且提升了音质及采样率NeuralNet声码器版本迭代传统Sour
12、ce-Filter声码器版本迭代采用WORLD版本,保证音准优化发音及自然度增加谱后处理优化2020年12月优化声学模型结构,改善发音及跑调,提升合成表现力魔法表情使视频制变得更具有趣味性,提升了大家的创作热情。普通魔法表情普通魔法表情智能创作智能创作高级玩法高级玩法基础能力基础能力地标AR主站-太古里熊猫地面AR主站-地面开花空间AR主站-许愿魔表自研流体特效主站-别哭鸭混合现实技术混合现实技术:通过AR及其拓展技术,实现虚实融合和交互。魔法表情:魔法表情:混合现实混合现实建筑物平面AR主站-七夕投影智能创作智能创作高级玩法高级玩法基础能力基础能力魔法表情:魔法表情:混合现实系统框架混合现实
13、系统框架位姿跟踪深度估计场景重建RGBSparse depthMulti Scale PredictionRefine Depth Labels Normal Depth Offset预积分特征提取特征跟踪位姿计算特征三角化联合优化深度估计前端线程后端线程关键帧提取混合现实技术混合现实技术:混合现实系统主要分为三大模块,包括位姿跟踪、深度估计和场景重建。除了常规算法逻辑,我们针对于快手用户的设备分布和使用情况,做了2个方向的调整:1、模块紧耦合设计,提升鲁棒性和尺度一致性2、性能分级设计最终实现MR系统覆盖80%的Android用户和99%的iOS用户。位姿跟踪(VISLAM)流程图深度估计网
14、络框架图MR整体技术框图智能创作智能创作高级玩法高级玩法基础能力基础能力智能创作即基于素材的混剪,依托MMU的多项技术,构建智能短视频混剪技术,提升制作效率,补充供给。技术领域核心能力素材库结构化NLP视觉技术音频技术知识图谱跨模态匹配精彩片段挖掘视频切分时序建模智能创作智能创作智能创作智能创作高级玩法高级玩法基础能力基础能力在快手生态下,探索在用户增长、商业化广告、海外内容供给、新玩法等多个场景的落地。广告生成海外新闻自动生成国内热点新闻生产(奥运)直播剪辑(多场次)智能创作智能创作智能创作智能创作高级玩法高级玩法基础能力基础能力看见文案节选一键成片很多人不知道漠河冬天开水泼出能成雾霜很多人
15、不知道漠河冬天开水泼出能成雾霜。很多人不知道乌苏里江大马哈鱼有多香很多人不知道乌苏里江大马哈鱼有多香。很多人不知道新疆哈密瓜地里姑娘有多漂亮很多人不知道新疆哈密瓜地里姑娘有多漂亮。很多人不知道曾母暗沙海底有无数宝藏很多人不知道曾母暗沙海底有无数宝藏。向更大的世界开始探索吧向更大的世界开始探索吧。去体验去体验去感受去感受去交流去交流去求证去求证看看古老手艺如何惊艳时光看看古老手艺如何惊艳时光。看看翩翩少年如何奋发图强看看翩翩少年如何奋发图强。看看耄耋老人如何白头偕老看看耄耋老人如何白头偕老。看看芸芸众生如何逆风飞翔看看芸芸众生如何逆风飞翔。原始版本智能创作版本智能创作智能创作智能创作智能创作高级
16、玩法高级玩法基础能力基础能力智能创作智能创作智能创作智能创作高级玩法高级玩法基础能力基础能力一键成片AIAI创作创作人工创作人工创作百万级图片百万级图片/视频素材库视频素材库跨模态语义匹配跨模态语义匹配整片合成整片合成违规素材清洗过滤相似素材去重处理标签结构化处理跨模态语义检索时序一致性优化粗排序+精排序召回策略智能配乐语音合成转场特效自研跨模态检索模型智能创作智能创作智能创作智能创作高级玩法高级玩法基础能力基础能力建立了百万级的高质量结构化素材库,通过基于互联网数亿图文数据的自研大规模预训练模型进行跨模态匹配,更好的克服了训练样本中的噪声,增强了对文本改写的鲁棒性。同时针对混剪创作需求,加入
17、了素材序列优化和多模型融合排序等策略,最终融合智能TTS和配乐技术实现整片的合成。内容生产:内容生产:在APP中提供炫酷的视觉特效、魔法表情、一键出片、自动字幕等AI工具和玩法,依赖AR引擎、人脸&手势识别、语音转译、智能创作等自助研发技术。内容理解:内容理解:基于对社区中视频、图像、音乐、语言语义、主播和创作者的理解,充分结构化解释快手的内容生态,实现了社区海量内容的分类管理、原创保护、安全审核、助力分发等诸多应用。内容分发:内容分发:推荐是用户与视频的双向匹配,将百亿视频特征和亿万用户特征输入推荐系统,实现精准、个性化的推荐。内容生产内容分发内容理解AIAI技术在快手的应用技术在快手的应用
18、AIAI在内容理解中的应用在内容理解中的应用终极目标:终极目标:让机器像人类一样理解视频内容及用户生产的各种内容通过计算机视觉、语音、自然语言处理、知识图谱、多模态等技术,准确高效地理解视频内容及用户生产的各种内容,并应用在推荐、搜索、广告、垂类运营、生态分析、内容安全等各种场景中。构建海量视频图书馆构建海量视频图书馆-河图体系河图体系海量视频结构化管理和应用,自动化完成视频分类、精细化标签输入:多模态内容输入:多模态内容输出:理解结果输出:理解结果视频质量自动解析视频质量自动解析自动化挖掘优质视频,过滤劣质视频内容安全体系内容安全体系全面建设AI智能审核,保安全,提效率,省成本评论分析和理解
19、评论分析和理解挖掘神评热评,促进社区活力,提升创作率音乐理解音乐理解识别音乐特征,AI歌手与AI音乐知识图谱知识图谱做视频百科,挖掘有用的内容商业内容理解商业内容理解挖掘视频电商意图,提升卖货效率其他其他AIAI能力能力河图体系的核心是:通过结构化的方式解释快手的视频,在结构化之前,视频的内容时纷乱复杂的。智能视频分类与标签智能视频分类与标签图书馆图书馆视频库视频库分门别类分门别类:哲学、文学、历史、计算机主题摘要:题材、人物、事件隐式特征:相似的图书在位置上比较近视频类目视频类目:影视、颜值、资讯、搞笑主题标签:形式、IP、场景、POIEmbedding:相似视频在特征空间上比较近河图体系可
20、通过三种方式表达视频内容,视频类目、视频标签、多模态向量化表征。智能视频分类与标签智能视频分类与标签通过河图结构化后,可以将视频按照多种维度归类和汇总,如萌宠、体育、美食等智能视频分类与标签智能视频分类与标签一级一级二级二级智能视频分类与标签智能视频分类与标签将数百亿量级的快手作品,浓缩到一个指定维度的特征空间。丰富多彩的快手作品多模态表征模型Embedding分布的可视化结果Multi-head Attention&FC Layer Multi-Scale Hierarchical FusionGraph ConvolutionLabel Embeddingx3NTransformerTok
21、enizationx3NTransformerTokenizationxNAudio TransformerRefinerAudio FeatureAuthor Info FeaturePhoto Text FeatureMulti-Frame FeatureThumbnail FeatureDown SamplingVisual TransformerPatch ProjectionDown SamplingVisual TransformerMulti-Frame Patch ProjectionxNxN多模态多模态EmbeddingEmbedding多模态多模态EmbeddingEmbe
22、dding检索示例检索示例视频级检索视频级检索-元素级检索元素级检索:不同粒度的视频相似检索不同粒度的视频相似检索视频级:视频主题或高层语义相似,为用户推荐更多内容相似的视频,提升短视频的推荐体验元素级:视频实体元素相似,用户对视频细粒度实体感兴趣兴趣,如明星、商品、品牌、地标、IP等问题核心:问题核心:如何判断视频主体元素、建立细粒度实体元素Embedding技术挑战:技术挑战:大规模弱监督模型训练:如何使用海量弱标注视频数据视频细粒度表征学习:如何分辨细粒度实体差异视频多模态语义表征:如何融合视觉、语音、文本信息视频主题:视频主题:长袖蕾丝拼接连衣裙黑色长袖蕾丝拼接连衣裙黑色连衣裙款式?沙
23、发款式?手包品牌?是否为明星?哪一款画作?装修风格?不同用户会产生不同兴趣点口红色号?视频万物检索与识别视频万物检索与识别 视频中海量实体元素的实时识别与检索,包括人物、商品、品牌、IP、运动、建筑、宠物、汽车等万物识别万物检索点击播放视频万物检索与识别视频万物检索与识别DemoDemo基于视频多模态方法,构建视频细粒度元素检索系统,对视频中的主体元素进行检测、识别、检索。一只穿蓝色衣服的小猫,怀里有另一只小猫。#萌宠IMGENDTokenizerPatch ProjectionMulti-Head Spatial Self-AttentionAdd&NormFeed-Forward Netw
24、orkAdd&NormxNTXTEND一只穿蓝猫TokenizerPatch ProjectionMulti-Head Self-AttentionAdd&NormFeed-Forward NetworkAdd&NormxN通用实体检测关键帧技术Video分词、预处理、清洗ASR视觉信息文本信息音频信息Patch ProjectionMulti-Head Spatial Temporal Self-AttentionAdd&NormFeed-Forward NetworkAdd&NormxNTokenizerIMG1ENDIMG0ENDVisual Language TransformerSI
25、FT based Local Feature实体级视觉表征文本表征局部视觉表征多模视频表征百万实体标签库百万实体标签库建筑建筑运动运动游戏游戏汽车汽车影视影视人物人物宠物宠物风景风景视频级视觉表征图文一致性学习万物识别万物检索Cross Entropy LossPNPNRanking LossInfo NCE Loss视频检索PNPNRanking Loss表征层表征层数据层数据层任务层任务层视频万物检索算法框架视频万物检索算法框架内容生产:内容生产:在APP中提供炫酷的视觉特效、魔法表情、一键出片、自动字幕等AI工具和玩法,依赖AR引擎、人脸&手势识别、语音转译、智能创作等自助研发技术。内容
26、理解:内容理解:基于对社区中视频、图像、音乐、语言语义、主播和创作者的理解,充分结构化解释快手的内容生态,实现了社区海量内容的分类管理、原创保护、安全审核、助力分发等诸多应用。内容分发:内容分发:推荐是用户与视频的双向匹配,将百亿视频特征和亿万用户特征输入推荐系统,实现精准、个性化的推荐。内容生产内容分发内容理解AIAI技术在快手的应用技术在快手的应用双列发现页单列精选页关注页同城页无处不在的推荐场景单列:沉浸式双列:选择权关注页:半熟人半陌生人社区,私域流量同城页:身边触手可及的生活快手推荐场景快手推荐场景业界主流模型参数量(十亿)短视频行业有其独特的挑战,诸如用户量多,视频上传量大,作品生
27、命周期短,用户兴趣变化快等等。快手的推荐团队基于Transformer和MMoE模型,落地了业内首个万亿参数精排模型,对用户的长短期兴趣进行了精确的建模。快手精排模型的参数规模达到了1.9万亿,处理了超过万级的用户历史序列以及千亿的模型特征量。在这个复杂的推荐系统落地过程中,内容理解能力发挥了不可或缺的作用。0.34B2.6B11B175B1600B1900BKUAISHOU RECO快手的推荐系统规模快手的推荐系统规模基于行为的冷启动:给每个视频分配一定流量,通过线上用户行为反馈,预估视频内容质量;短视频作品冷启阶段,行为稀疏,推荐模型预估结果不置信,导致流量浪费;基于内容理解的视频质量估计
28、:利用多模态预训练模型进行Fine-tuning;预估视频在推荐系统中的成长潜力;与视频内容质量正相关,帮助优质作品获得更多的曝光。基于内容理解的冷启动模型滑雪我不是专业的但我是认真的Video Score曝光量预估人工审核标签分类020000600001000000.40.61.00.20.8优质普通灰度劣质Image ModelFeature FusionText ModelAudio ModelKuaishou Multi-Modal Pretrain Mode视频冷启动推荐视频冷启动推荐Other featureRank ScoreUser-Index Embedding LayerT
29、ransformerDIENRank ModelQueryTop-k Similarity SearchLong Term Action List相比电商、新闻等领域,短视频的内容更丰富,玩法更多样。因此用户对于短视频内容的兴趣也更广泛。如果高效地利用好这些用户行为历史,以提升推荐效果是推荐模型长期以来难以解决的问题。在基于内容理解的推荐场景中:Embedding被用于从用户消费历史中精准检索与当前要预估作品最相关的作品;进而得出用户对要预估作品的【感兴趣】程度;通过长期兴趣的引入,结合短期行为特征,大幅提升了人均视频观看时长等核心指标。Short-time behaviors高质量的多模态Embedding为基于内容理解的推荐提供了新的可能性。推荐长期兴趣建模推荐长期兴趣建模快手AI开放平台:https:/ 彩蛋:快手虚拟人(敬请期待)彩蛋:快手虚拟人(敬请期待)THANKSTHANKS