报告预览

阿里文娱：全景揭秘阿里文娱智能算法（187页）.pdf

编号：17400

PDF 185页 35.89MB 下载积分：VIP专享

下载报告请您先登录！

阿里文娱：全景揭秘阿里文娱智能算法（187页）.pdf

1、文娱智能算法 185 目录 1 计算机视觉计算机视觉5 分区域处理的图像和视频清晰化技术6 基于人类视觉感知的视频体验评价体系17 端侧智能算法在优酷场景的应用26 大千 XR-Video 技术概述35 大千 XR-Video 技术在互动剧上的应用49 优酷视频换脸技术实践52 基于多模态内容理解的视频智能裁剪57 阿里文娱视频智能裁剪技术实践61 技术实践-精准的视频物体分割算法以及应用65 2 媒体智能引擎媒体智能引擎 SmartAI72 媒体智能平台之推理服务73 海量视频解构数据全生命周期流转80 3 内容智能内容智能87 内容全生命周期里的文娱大脑88 长安十二时辰背后的文娱大脑

2、：如何提升爆款的确定性？ 101 4 搜索搜索112 智能多轮对话式搜索技术实践113 优酷语义模态匹配模型设计与实现118 优酷多模态搜索设计与实现125 5 推荐推荐131 基于 Bi-LSTM 深度学习模型的 Term Weight 算法132 多模态视频多标签分类在优酷推荐算法中的实践137 6 增长与营销算法增长与营销算法146 本节摘要147 因果推断在用户增长中的应用149 基于 Uplift Model 的营销增益模型154 外投 DSP 自动报价算法实践161 7 搜推统一分发系统搜推统一分发系统167 本节摘要168 基于图执行引擎的算法服务框架169 面向多级多模态场景的

3、召回引擎174 基于内容图谱体系的特征与索引更新平台179 文娱智能算法 3 序阿里是一家坚信数据力量的公司，而文娱涉及的相关产业非常广泛，从线上到线下、从影剧综漫到现场娱乐以及文学小说等，其组成、形式、展现、分发的复杂性交织在一起为业务数据化带来了巨大的挑战。近三年来，阿里文娱摩酷实验室始终以助力业务发展和增长为核心驱动，形成如下四个的技术方向：内容理解是文娱相关算法技术的基石，IP、小说、剧本、视频、音乐等不同形态的内容对构建起领域知识图谱带来了很多困难，在这其中计算机视觉、自然语言处理、图谱&推理、图神经网络、多模态内容分析等技术被广泛应用于内容解构。以视频为例，影剧综视

4、频的时长很难用一些低层级的标签来抽象表达其内容，基于多模态的分析技术在这类内容上也会碰壁，因此融合内容专家及机器学习系统的半自动化微标签体系成为一种可行的出路。与短视频快速的线上反馈闭环不同，即使制作周期最短的综艺节目也需要 3 个月以上，期间还面临内容监察审核的不确定，这就导致影剧综内容制作高度的不确定性，如何基于复杂的数据分析线索以及历史的成败规律来选择评估内容是各个综合视频平台所面临的核心挑战之一，而阿里文娱北斗星系统就是用来解决这一问题的。搜索和推荐作为两种解决信息爆炸的重要手段被广泛应用于各个 APP 中，而影剧综内容的复杂性导致用户想精确描述一个内容非常困难，仅通

5、过节目名、演员名去检索给用户也造成了很大的困扰。在文娱内容的分发体系中对搜索模式、推荐模式的融合成为新的用户需求，如何更为准确的通过类强化学习的用户意图理解过程来协助他们尽快找到喜爱的内容，成为文娱搜标签化理解元素化解构内容解构引导TS提升统一价值流量分发内容宣分发智能云剪辑视频体验增强内容生产关键生产要素数据化评估核心生产资料控货辅助支撑内容评估智慧文娱阿里巴巴文娱技术探索之路 4 推体系下一阶段的首要任务。文娱作为产业互联网发展的重要行业，人工智能技术在这个领域中的应用空间广大，而我们也仅仅是迈出了一小步，期待工程师们能够创造出更大的奇迹，

6、加速文娱产业数字工业化时代的到来。阿里文娱摩酷实验室负责人王晓博 2020.02.01 文娱智能算法 5 1 计算机视觉智慧文娱阿里巴巴文娱技术探索之路 6 分区域处理的图像和视频清晰化技术作者| 阿里文娱高级算法专家出林、阿里文娱高级算法工程师文渊苍华一、UPGC 视频和图像质量面临的挑战在优酷这种综合性的视频平台，用户的观看体验永远是第一位的，而画质是影响观看体验的重要因素。对于影视剧来说，画质和拍摄年代有较强相关性，也就是说随着拍摄设备和技术的提升，画质也在提升。用户一旦习惯了更高清的内容，就“回不去了” ，进而对视频画质甚至显示设备提出更高要求。而对于目前大量

7、增加的 UPGC 视频，画质情况却不容乐观，UPGC 视频来源主要包括两种：一种是由正片切条产生的短小视频经用户上传的，这种情况下，由于用户使用的片源清晰度无法保证，又经过多次的转码、压缩、缩放，会导致画质下降，导致压缩噪声、块效应等问题；另一种是用户拍摄上传的，虽然目前手机相机成像质量越来越好，分辨率越来越高，甚至出现了 1 亿像素、30 倍变焦等黑科技，但在不受控的拍摄环境中，普通用户终究无法控制拍摄质量，从而导致噪声、模糊、光线等问题。视频的封面图也是由原始视频截帧得到的，好的封面图会提升用户的观看欲望。如果原视频画质差，即使封面图经过人工和算法的精挑细选，也是“矬子里面拔

8、将军” ，提升空间不大。更坏的情况是，截帧之后选中的图片还要进行图片压缩，进一步降低了画质。在所有画质问题中， “伪高清”问题最为突出，也就是说虽然表面上看视频分辨率很高，达到了 720p 甚至 1080p，但实际画质观感很差，甚至不如 540p。因为“伪高清”视频不能通过分辨率简单判别，所以想要解决“伪高清”问题，就要先识别它，然后再做针对性画质增强。通过影视剧切条得到的 UPGC 视频，即前面提到的第一种来源，有非常显著的特点。这种视频有很强的背景虚化，原片中人脸等重点区域细节丰富，经常出现字幕或 logo。针对这些特点设计增强方案，会有事半功倍的效果。文娱智能算法 7 二

9、、图像和视频清晰化解决方案基于对业务场景的深入理解和分析，我们设计出完整的视频和图像清晰化解决方案，该系统有几个明显的特点：画质评估和清晰化形成闭环，分区域清晰化后再进行融合。图：图像清晰化方案 1. 区域检测我们将区域划分为 logo 区域、人脸区域、前景区域、文字区域、背景区域等几个典型区域，分别利用文字和 logo 检测、人脸检测、saliency 区域检测等算法得到。后续的区域处理和融合模块对区域精度要求不高，所以出 saliency 区域有较精细的区域分割外，其余均使用检测框。 2. 分区域处理策略划分前背景分别处理，是由于我们观察到超分辨率（super res

10、olution）模型的一些特性，现有的 SR 模型会对“疑似”边缘做强烈的恢复。模型应用于背景虚化区域，某些轮廓会被增强成强边缘，而其他区域仍保持虚化的效果，这样就造成了“突兀”的效果，和人的主观认知不同。所以我们的模型对前景区域进行纹理恢复，背景区域只做简单的亮度对比度调整。对于 logo 和文字区域，由于这类图像本身就是数字化内容，模式较单一，较容易通过简单智慧文娱阿里巴巴文娱技术探索之路 8 模型达到好的效果。顺便提一下，对于动画片的处理也是类似原理，相比复杂的真实场景图片，动画片总是更容易处理。对于影视剧和短小视频，人脸是用户关心的重点，所以我们设计了人脸清晰化模型

11、对人脸和头发等区域单独处理，通过大量高清人脸图片训练 SR 模型，并适当加入 GAN loss，可以恢复出人脸五官、毛发细节和皮肤纹理，达到分毫毕现的效果。总结一下，我们多个模型对不同区域进行处理，分为 logo 和文字模型，人脸清晰化模型，和一般前景清晰化模型。其余还有一些通用的亮度对比度调整算法，对图像全局进行调整。 3. 质量评估模块优酷摩酷实验室构建了大规模的 UPGC 图片质量数据集，并提出了 multi-level 特征融合的无参考质量评价框架（见我们的另一篇文章：基于人类视觉感知的视频体验评价体系），该方法不仅输出总体质量分，还可以输出失真类型。得益于实验室良好

12、的技术沉淀，我们的线上数据都可以打上质量分和失真类型，进而和清晰化模型结合形成评估+增强的业务闭环。我们依据质量总分将数据划分为好、中、差三档，对于本来画质已经很好的图片不做处理，对于中和差的数据依据失真类型筛选出清晰化模型能处理的部分，并根据失真程度赋予清晰化模型不同的恢复参数。 4. 叠加融合模块由于分区域处理模块只负责纹理和边缘的恢复，亮度和对比度后置到全局调整模块，我们的框架对分割和融合精度的要求较低，只需要简单的 alpha blending 就可以达到好的效果。 5. 视频清晰化以上是面向图像的清晰化方案，对于视频场景我们做了适应性改进。为了保证前后帧效果的一

13、致性，我们对增强参数做了时间平滑。将图像场景的 SISR（单帧超分辨率）模型替换为 VSR（视频超分辨率）模型，增强了对视频压缩问题的处理能力。同时，我们构建了 UPGC 视频质量评价数据集，并在此基础上训练了视频适量评价模型，将视频按质量分档，并针对失真类型进行处理。文娱智能算法 9 三、重点算法原理介绍 1. 快速的融合模型提升图像和视频清晰化的方法有超分辨率、锐化、以及将超分辨率和锐化结合的形式等。对于超分辨率，在学术界早年通常采用 bicubic 降采样的方式构造图像或视频数据对，这种方式构建的数据对的输入数据分布通常跟真实低分辨率图像或视频的分布相差很大，导致应用在真实

14、低分辨率数据上，会出现各种各样的问题。比如在 bicubic 降采样方式构建的数据训练的模型应用在真实的低分辨率图像上后，会出现网格状的 artifacts。近几年，在构造数据和模型框架上，学术界做了一些新的尝试。比如阿里巴巴达摩院的研究人员在构造数据集时采用了 realSR 的方式，通过搜集同一场景下不同分辨率相机的图像，然后通过图像匹配的方式构建训练数据对，这种方式虽然一定程度上能够让获得的低分辨率图像更加接近真实的低分辨率图像，但也存在着对齐的问题。比如由于存在非严格对齐问题，造成光晕的现象。另外在模型框架下，近几年也涌现了一些采用非监督方式训练超分辨率。但非监督方式跟监督

15、方式相比，在效果方面还有一定的差异，需要研究人员进一步提升模型的效果。对于锐化而言，通常是采用传统算法，但传统算法也存在着一定的问题。比如传统的经典锐化算法 DOG，会存在噪声的放大和锐化过渡导致光晕的问题。另外一些锐化算法，采用经典的保边滤波算法，提取图像的低频，进而获得图像的高频信号，但这一类算法由于采用了较复杂的保边滤波算法，通常速度比较慢，很难达到工业界对于速度的要求。另外一类锐化算法借鉴近几年大热的深度学习算法，将保边滤波提取低频这一步骤采用深度学习来做，一定程度上缓解了速度的瓶颈，但对噪声放大问题并没有得到很好的解决。另外一种是采用超分辨率和锐化相结合的方式，常见的

16、做法是采用深度学习进行超分辨率，然后结合传统的 DOG 算法进行锐化。通常而言采用深度学习对低分辨率图像处理后的图像距离 GT 图像还有一定的距离，因此需要采用锐化进一步提升清晰度。但由于采用了先进行超分辨率，然后锐化的方式，而超分辨率采用深度学习算法，通常是在 GPU 上运行，而锐化通常是采用传统算法，是在 CPU 上运行，中间涉及到 GPU 和 CPU 的相互切换等，因此对于视频而言速度并不快，也很难达到实时处理的要求。为了解决这个问题，我们采用快速融合模型的方式，即采用单个深度学习网络，同时学习超分辨率和锐化，可以在基本不损失效果的基础上，速度得到很大程度的提升。智慧文

17、娱阿里巴巴文娱技术探索之路 10 2. 人脸清晰化线上的大量素材和长短视频大部分以人像为主体，人像的清晰程度是影响用户视觉体验的主要因素。针对人脸清晰化我们设计了如下算法流程：流程： 1）原始图像通过人脸检测器，检测平均人脸大小：为了提升不同尺度下人脸增强的效果，我们对比了单模型和多个尺度模型效果，多个尺度模型的还原效果优于单模型结果； 2）通过模糊检测预测降尺度系数，缩放图像以降低模糊程度：实际素材存在不同类型和程度的模糊退化问题，模糊程度较高时还原结果会存在较多失真纹理，因此单独训练了一个模糊检测器预测降尺度系数，通过图像降尺度，减小模糊因素产生的失真问题； 3）判断原图平均人

18、脸尺度，缩放图像至三种尺度中心； 4）选取相应尺度增强模型，通过人脸增强模块，得到高清人脸。我们的主要工作是针对人脸增强模块，设计了基于 gan-loss 的超分网络，结构如下：文娱智能算法 11 LR 为低清图像， SR 为超分图像， HR 为高清图像。人脸增强模块的训练由生成器（Generator）和判别器（Discriminator）两部分组成，生成网络使用了稠密连接的 Residual-in-Residual Dense Block（RRDB）结构，有利于提取层级较深的图像特征，判别器参考 RaGAN 判别 SR 和当前批次 HR 图像特征差距来判别 SR 的真实度是否超过

19、批次 HR。判别器为：其中为低清图像特征，为当前 mini-batch 高清图像特征的期望训练过程的损失函数包含三部分：其中，为感知损失函数，判别器损失函数如下：针对素材图场景，为了提升人脸细节清晰度，我们使用 Pixel shuffle 作为上采样方式， SSIM 指标提升。在线上测试过程中，发现增强结果中有 5%左右的样例存在失真现象，后通过实验对比，发现 gan-loss 权重过大、原图模糊程度较高是导致失真现象的主要因素，通过降低 gan-loss 权重，且仅在中间训练阶段采用 gan-loss，引入模糊检测模块对原图降尺度，最终有效减少了失真纹理的产生。为了解决大尺度

20、人脸清晰度还原不足问题，使用特征金字塔结构融合多尺度信息以提升增强稳定性。针对短视频场景，使用轻量化模型提升模块速度，达到 50ms/帧，并对人脸区域边缘作平滑以减弱过渡纹理不自然的现象。 3. VSR 模型深度学习视频超分辨率技术通常分为两种，一种是单帧超分辨率，另外一种是多帧超分辨率技术。单帧超分辨率速度通常较快，但很难解决前后帧连续性的问题，从而导致画面的闪烁，导致人的主观感受较差。多帧超分辨率算法，一方面可以很好的解决前后帧连续性的问题，另外一方面由于利用了多帧的信息进行处理，在主观效果上要明显好于单帧算法。多帧超分辨率技术的主要问题是速度相对比较慢。目前 state

21、of art 的算法是商汤的 EDVR，借鉴传统视频处理算法，包括帧对齐模块、帧间融合模块等。优酷视频场景下，一方面面临着分辨率不足的问题，另外一方面面临着压缩、噪声等问题。智慧文娱阿里巴巴文娱技术探索之路 12 因此对于优酷场景，需要在对视频进行分辨率提升的同时，能够有效的解决压缩、噪声等视频画质退化问题。为此，我们进行了大量的尝试和方案验证，从而找到了贴合优酷视频场景的相关解决方案。在数据处理方面，一方面，我们采用 GAN 网络等设计了视频降质工具包，可以一定程度上模拟优酷场景下的视频降质过程。另外一方面我们从优酷有版权视频库中获取同一视频的不同分辨率视频，并对视

22、频进行匹配和清洗，从而构建贴合优酷业务场景的训练数据集。在模型结构设计上，为了解决分辨率不足的问题，我们借鉴了主流 VSR 模型的 PixelShuffle 模块，与此同时为了解决尺度连续性问题，我们采用了多尺度金字塔融合的方式。为了解决帧间连续性问题，我们借鉴传统视频多帧算法，引入了多帧对齐模块，并在此基础上融合了 attention 模块，对视频进行了分区域处理。为了解决噪声问题，我们借鉴传统的频谱分解方式，在网络结构中加入了小波分解和重建模块。为了解决去压缩问题，我们引入了 ResBlock 模块。最终融合了上述模块的网络结构，在优酷业务数据集上训练后，对优酷场景下视频面

23、临的噪声、压缩、低分辨率等问题得到了很好的解决。四、处理效果和业务收益 1. 去除压缩导致的噪声问题（建议放大观看）左图为原图右图为处理后图文娱智能算法 13 原图处理后为便于观察，局部做了提亮处理，可见处理后更细腻，条带/阶梯效应大幅减少。 2. 算法采用分区处理，重点优化文字、人脸等区域, 提升画面清晰度原图处理后智慧文娱阿里巴巴文娱技术探索之路 14 原图处理后原图处理后原图处理后人脸部分可见明显提升，五官细节得到恢复。文娱智能算法 15 原图处理后 Logo 和文字部分清晰度明显提升。 3. 用于素材海报图的清晰度提升原图. 处理后人脸部分截图

24、处理后图智慧文娱阿里巴巴文娱技术探索之路 16 五、总结以上详细描述了优酷 UPGC 场景视频和图像清晰化解决方案，并介绍了关键算法的原理和改进思路。采取分区域处理的策略，对不同的区域分别处理，对文字、logo、人脸等区域效果尤其明显，人脸达到了分毫毕现，毛发和纹理细节得到了恢复。我们提出了自己的质量评价模型，结合视频和图像清晰化模型，构建了完整的质量评价+增强解决方案。算法的进步是永无止境的，当前各种算法技术也是层出不穷，如何把算法融会贯通并加以改进，应用于我们的业务场景，让算法发挥最大价值，是我们长期研究的问题。文娱智能算法 17 基于人类视觉感知的视频体验评价体系作者|

25、阿里文娱资深算法专家镜一一、背景视频质量评价技术是指基于视觉生理学心理学特性，例如人眼的多通道、多方向分解特性，视觉对比敏感度函数（Contrast Sensitive Function, CSF）和恰可失真门限（Just Noticeable Difference, JND），视觉注意（Visual Attention, VA）机制等对用户观看体验进行定量分析，包括主观评测以及客观建模。视频体验的终极受体是人眼，因此视频质量的评价可以与 4K/8K 极高清，HDR，AR/VR 等视频处理技术形成闭环，指导其优化最终达到增强用户观看体验的目的。起初在大家还只是把电视/电脑

26、显示器作为观看视频的主要手段的时候，由于人眼是视频的最终受体，视觉质量也因此称为 visual perceptual quality，即，只是视觉上的画面质量感受。随着多媒体和硬件技术的发展，3D 立体电视电影（需佩戴 3D 眼镜观看，裸眼 3D 技术尚不成熟效果极差这里不做讨论）的兴起导致行业内必须重新对视觉质量进行定义。在立体视频中，除了画面本身的质量这个维度外，又多了两个维度：深度（depth）和视觉疲劳（visual discomfort/ fatigue）。在 2012 年，欧盟 Qualinet（European Network on Quality of Experie

27、nce in Multimedia Systems and Services）发布了关于视频体验质量的白皮书，里面建议把这种多维度的感知体验用 Quality of Experience （QoE）来表示。其具体定义为 “Quality of Experience is the degree of delight or annoyance of the user of an application or service. It results from the fulfillment of his or her expectations with respect to the utili

28、ty and /or enjoyment of the application or service in the light of the users personality and current state”. 也就是说，感知质量与具体应用和服务相关，基于用户对于设备或者服务在可用行上或享用性上是否达到期望的满足程度。期望因人而不同（受职业，性别，年龄，教育背景，个性等的影响），即便针对于特定的某个人，他/她的期望也会因他/她本人当前的状态（例如，情绪，生理状态）而有所改变。智慧文娱阿里巴巴文娱技术探索之路 18 随着4K电视， HDR技术， multi-view, fre

29、e-viewpoint video, 360视频，虚拟现实Virtual Reality，增强现实 Augmented Reality 以及混合现实 Mixed Reality 的发展， Qualinet 定义的 QoE 的概念可以无差别的直接应用于这些多媒体载体上，所以在业界被广泛采用并认定其为标准定义。为什么要做质量评价？因为用户的观看体验永远是第一位。而在整个视频从获取，处理，压缩，传输到最后解码，增强，播放的 pipeline 中，每一个阶段视频质量的评估可以指导和优化相对应的算法实现，进而实现每一个阶段算法效果的提升，最终导致用户观看体验的提升。这是我们的终极目标。图

30、：摩酷实验室视频质量评价体系图二、摩酷实验室主观测试平台显而易见，QoE 是一个主观的感受。要去评价/测量（evaluate or measure）这个主观上的感受，需要让人去给视频打分。与 Computer vision 领域的数据标注不同，一段视频的质量不同的人给出的分不一样，在不同环境下看给的分不一样，放到电视上去看或者放到手机、平板上看质量不一样。甚至，离远了近了去看质量也不一样。为了解决这个多影响因素的问题，视频质量专家小组（VQEG）与国际电信联盟 ITU 联合致力于视频质量的标准化。在 ITU-R BT.500 等一系列的标准中，规定了测试视频质量的标准实验流程，包

31、括人员筛选，实验环境，实验方法等（详情请参考 ITU-R BT500 文献）。摩酷实验室依据 ITU 国际标准，也搭建了自己的主观测试平台。文娱智能算法 19 图：摩酷实验室主观测试流程 1. 标准测试环境摩酷实验室搭建了符合 ITU-R BT.500 所规定的标准测试环境，如下所示：测试环境亮度低背景色度 Chromaticity D65 亮度峰值 70-250 cd/m2 显示器对比度 0.76。 FEELVOS5、 siamMask7等算法理论上有很好，实用中却存在多种问题。交互式视频物体分割更是没有开源代码。所以，优酷认知实验室从2019年3月底开始从事半监督和交

32、互式视频物体分割算法的研究。 2019 年 5 月，我们完成一版基础的半监督视频物体分割算法和交互式视频物体分割解决方案，并以此参加了 DAVIS Challenge on Video Object Segmentation 2019，在交互式视频物体分割赛道获得第四名。我们提出的 VOS with robust tracking 策略8，可以较大幅度的提高基础算法的鲁棒性。在智慧文娱阿里巴巴文娱技术探索之路 70 Davis 2017 验证集上，我们交互式视频物体分割算法 J&F60s 准确率从 3 月底的 0.353 提高到 5 月初的 0.761。现在，我们的半监督视频物体分割

33、算法也达到了 J&F=0.763。可以说，在这个集合上我们的结果已经接近业界一流水准。一些分割结果示例如下：视频 2. 我们的交互式视频物体分割结果示例五、优酷认知实验室的后续计划目前，我们在继续探索复杂场景下的算法应用，这些复杂场景包括小物体、前景背景高度相似、物体运动速度很快或表观变化很快、物体遮挡严重等。后续，我们计划在 online learning、 space-time network、region proposal and verification 等策略上发力，以提高视频物体分割算法在复杂场景下的分割精度。另外，图像物体分割算法、多目标物体跟踪算法也是视频

34、物体分割算法的重要基础，我们也将在这些方面持续提升精度。 Reference 1 The 2019 DAVIS Challenge on VOS: Unsupervised Multi-Object Segmentation. S. Caelles, J. Pont-Tuset, F. Perazzi, A. Montes, K.-K. Maninis, and L. Van Gool .arXiv:1905.00737, 2019 2 A. Khoreva, R. Benenson, E. Ilg, T. Brox, and B. Schiele. Lucid data dreaming

35、for object tracking. In arXiv preprint arXiv: 1703.09554, 2017. 2 3 S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taixe,D. Cremers, and L. Van Gool. One-shot video object segmentation. CVPR, 2017 文娱智能算法 71 4 J. Luiten, P. Voigtlaender, and B. Leibe. PReMVOS: Proposal-generation, refinement and m

36、erging for video object segmentation. arXiv preprint arXiv:1807.09190, 2018. 5 Paul Voigtlaender, Yuning Chai, Florian Schroff, Hartwig Adam, Bastian Leibe, Liang-Chieh Chen. FEELVOS: Fast End-to-End Embedding Learning for Video Object Segmentation. CVPR 2019 6 Seoung Wug Oh, Joon-Young Lee, Ning Xu

37、, Seon Joo Kim.Fast User-Guided Video Object Segmentation by Interaction-and-Propagation Networks. CVPR2019 7 Wang, Qiang，Zhang, Li，Luca Bertinetto, Weiming Hu, Philip H.S. Torr.Fast Online Object Tracking and Segmentation: A Unifying Approach. CVPR2019 8 H. Ren, Y. Yang, X. Liu. Robust Multiple Obj

38、ect Mask Propagation with Efficient Object Tracking. The 2019 DAVIS Challenge on Video Object Segmentation - CVPR Workshops, 2019 智慧文娱阿里巴巴文娱技术探索之路 72 2 媒体智能引擎 SmartAI 文娱智能算法 73 媒体智能平台之推理服务作者| 阿里文娱开发专家欢朋一、背景随着人工智能算法领域的快速发展，机器学习在智能内容生产、安全审核、体育直播分析、视频内容结构化等领域的应用需求越来越多。算法开发工程师们面临以下挑战：算法迭代频繁业务发展

39、快速，业务需求多变且变更频繁；需要快速交付业务驱动，需要快速给出结果；系统环境复杂依赖不同的计算底层，例如 GPU 或 CPU 等，同时也要保证算法服务的整体稳定性。二、行业对比目前业界有很多视频推理平台，如国外的 Deep Video Analytics ()，实现了从视频标注到推理服务的链路；阿里云的视频云平台提供了具有很多能力的推理服务；优酷 smart 平台基于业务需求，整合了链路上的所有节点，串联了从标注到模型，再到推理，最后沉淀数据反哺标注的完整系统，实现了对模型迭代提升的一个正向循环；优酷业务复杂多变，算法开发模型也随着业务不断迭代，新需求新算法不断部署

40、，smart 的产生就是为了解决这些问题，提供一个稳定又能促进算法提升的目的而生。参考了国内外平台，在此基础上，smart 实现了以下特性：完整系统：实现从标注-数据-模型-推理-标注的循环；智能标注：实现了以算法能力为基础的智能标注；存储：实现了灵活高扩展的海量数据存储；调度：根据算法能力自适应调度, 多维负载均衡； DAG：算法能力实现图形化串联。智慧文娱阿里巴巴文娱技术探索之路 74 三、架构设计 1. smart 致力打造一个正向循环的数据算法服务平台一站式的算法开发服务平台，集成了 Tron 算法开发平台、Smart 算法在线服务平台、标注系统、数据集等多个子系统来

41、解决实际算法开发、生产发布与在线服务的各种痛点。通过 smart 平台，能够赋能算法开发与业务应用，算法能够快速响应业务变化，驱动业务创新应用。 2. smart 逻辑架构文娱智能算法 75 smart 整体由上到下分为 5 个部分： 1）API 网关层：实现统一外部接口，包括 qps 限流、请求参数签名验证、防止重放验证。并统计算法执行情况：每个业务方的算法调用量、当日总调用量等； 2）任务系统：监控报表、任务报表、qps 报表、任务执行统计； 3）算法调度层：算法的蓝绿部署与流量分配、算法的负责均衡、算法机器的健康管理、算法机器发布管理、以及第三方算法的接入与适配； 4）算法计算

42、层：包括弹内的 CPU，GPU 计算容器；以及弹外的 EAS 算法容器； 5）管理及监控：算法的配置、算法模板的配置、业务调用方的配置、限流配置、业务大盘、监控报警等内容。四、技术细节 1. 任务调度策略 Smart 任务调度使用 MySQL 数据库作为任务数据的存储。Smart 任务调度引擎可以随时调整处于队列中的任务优先级，来灵活干预队列的执行，调度计算资源的分配。 1）smart 的任务调度支持优先级调度，可以根据不同的业务来源方设置不同的优先级。优先级 priority 的值越高代表任务的优先级越高； 2）开始执行的任务先进先出：进入到执行中的任务也会优先完成，避免

43、被后续优先级高的智慧文娱阿里巴巴文娱技术探索之路 76 任务占领导致已触发的任务一直无法完成； 3）qps_limit 的任务优先重试：由于算法执行引擎繁忙导致 qps_limit 失败的任务，也会优先进行重试，保证已经开始执行的任务尽快完成； 4）通过数据库乐观锁确保每个任务同一时刻只被某个 task-consumer 处理，但处于运行状态的任务经过指定时间没有返回成功，会被放置回任务队列进行重试； 5）不同算法间调度的负载均衡：任务调度系统会根据不同算法在队列中等待个数以及相应算法执行引擎的饱和情况，来动态调整算法的权重，进行不同算法间的负载均衡。 2. 算法能力编排算法模板是在

44、单个算法能力的基础上，根据业务需求把一系列算法组装成一个完整的业务处理流程。通过算法模板，能够将灵活的进行算法能力编排定制，快速响应业务需求，而不需要手工重新编码开发。算法编排能力在满足特定业务需求的同时，也沉淀了优酷素材内容的各种解决方案。图像质量分的算法模板文娱智能算法 77 图像质量模板对应的 json 配置算法模板的内容包括： 1）算法节点的任务处理内容：包括算法的名称、算法节点 id； 2）算法节点的依赖关系：一个算法节点可能依赖多个上一层级的算法节点的任务完成，并把上一层级的算法节点的输出结果作为下一层级算法的输入参数； 3）整个模板的最终输出节点：通过配置算法输出

45、节点，来灵活定义整个处理流程的返回结果，可以定义为多个算法节点的返回结果； 4）算法节点的预置元数据：通过预置元素材实现调用算法时的参数干预； 5）算法节点的结果保存方式：是否复用 smart 系统中已有算法处理结果。 3. 灵活拓展的海量数据存储为了满足不断日益增长的算法分析需求、与视频内容结构化算法结果复用，需要针对视频图像的每一秒一帧的图像算法分析结果进行存储。存储的数据量级达到了 70 亿+。基于上述需求，选用了阿里云的表格存储（Table Store）作为 smart 的算法结果存储。表格存储（Table Store）是阿里云自研的 NoSQL 多模型数据库，提供海量结构化

46、数据存储智慧文娱阿里巴巴文娱技术探索之路 78 以及快速的查询和分析服务。表格存储的分布式存储和强大的索引引擎能够提供 PB 级存储、千万 TPS 以及毫秒级延迟的服务能力。 4. 通过列拓展满足动态算法存储需求如上图所示，这是某个视频图片的算法结果存储行。 Table Store 支持多列拓展，一行中除主键列外，其余都是属性列。属性列会对应多个值，不同值对应不同的版本，一行可存储不限个数个属性列。通过灵活的拓展属性列，来保存不同算法的算法结果。在每个列的值可以对应不同的版本，版本的值是一个时间戳，可以用来保存算法不同版本的处理结果。 5. ots 主键的生成规则主键使用 a.

47、b.c.d 的规则 a 位，b 位的 hash 前 5 位，用于随机分布 b 位，最常用的查询条件。比如 site_videoId，taskId 等 c 位，任务类型 d 位，范围，比如 startTime_endTime，或者随机 uuid 的前 5 位 hash 例如：md5（key）#videoId#site#task_type#begin#end 以 md5(key)的前 5 位作为主键的第一部分，可以把数据散列，让数据存储整体负载均衡，避免热点问题。 6. 算法的行级结果复用能力假设一个视频以每秒 1 张的频率截图，总共有 1000 张图片，在算法执行分析的过程中有 999 张都

48、分析成功了，剩下 1 张由于意外原因导致分析失败。在下一次进行任务失败重跑的时候，还可以复用已有的 999 张，只需要再增量去跑失败的那 1 张图片，减少了不必须的重复计算损耗。如上图所示，随着同步算法 qps 的提升，系统会优先分配更多的资源给同步算法请求，同文娱智能算法 79 时也会给异步算法保留一台机器。当同步请求减少时，异步机器可以获取更多的计算资源。统一同异步计算资源，有效地提升了系统的资源利用率，也优先了保障了在线算法服务请求的响应时间。 7. 动态自适应的算法队列处理策略挑战：由于机器学习算法很多都需要独占 GPU 进行运算，在每个 GPU 上同时只能处理一个任务。如何保证 GPU 算法能够达到最大的吞吐量，并且每个算法的执行 RT 也不能太久。不同算法模型的处理耗时也不相同，无法设置统一的队列长度或等待时间。针对每个算法运行时的 RT 来动态计算 1 秒内所能处理的请求 qps( 1 秒/ 最近 100 次平均的算法耗时），初始的队列长度为 1，根据算法的 RT 耗时进行自动拓展，超

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（阿里文娱：全景揭秘阿里文娱智能算法（187页）.pdf）为本站（LuxuS）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。

上海品茶

阿里文娱：全景揭秘阿里文娱智能算法（187页）.pdf

阿里文娱：全景揭秘阿里文娱智能算法（187页）.pdf