上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2022年数字虚拟人应用市场及商业模式发展研究报告(60页).pdf

编号:63990 PDF 60页 6.69MB 下载积分:VIP专享
下载报告请您先登录!

2022年数字虚拟人应用市场及商业模式发展研究报告(60页).pdf

1、2022 年深度行业分析研究报告 目录6目录目录1 1、虚拟人概览、虚拟人概览7虚拟人定义7虚拟人分类9虚拟人发展历史102 2、虚拟人技术、虚拟人技术12视觉制作技术12真人驱动与计算机驱动20技术发展趋势233 3、虚拟人应用市场及商业模式、虚拟人应用市场及商业模式26市场规模26演进27虚拟偶像28虚拟分身42虚拟助手47多模态助手484 4、产业链及相关公司、产业链及相关公司49定义:数字虚拟人是拥有数字化外形的虚拟人物定义:数字虚拟人是拥有数字化外形的虚拟人物7 数字虚拟人的广义定义为数字化外形的虚拟人物数字虚拟人的广义定义为数字化外形的虚拟人物,具有“虚拟”(存在于非物理世界中)+

2、“数字”(由计算机图形学、图形染、动作捕捉、深度学习、语音合成等计算机手段创造及使用)+“人”(具有多重人类特征,如外貌、人类表演/交互能力等)的综合产物。打破物理界限提供拟人服务与体验是其核心价值。 实现场景角度,目前以图片、视频、直播等为主,未来VR设备/全息投影有望为数字虚拟人在现实世界的投射提供更丰富的道具和软硬件基础。由于各场景时延(如直播等实时场景要求低时延,但内容生成场景无该要求)、驱动方式(计算驱动对模型的深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。 技术角度,数字虚拟人近年的发展来源于CG、语音识别、图像识别、动捕等相关技术的共同成熟,除CG建模+真人驱动的类

3、别外,多模态技术与深度学习成为未来核心点。 我们认为“人”是其中核心的因素,高度拟人化(外貌形象、行为表情、交互的拟人程度)为用户带来的亲切感、参与感、互动感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,是数字虚拟人在各个场景中取代真人重要标准。虚拟虚拟 存在于非物理世存在于非物理世界中界中不同场景实现难度不同不同场景实现难度不同目前以图片、视频、实时直播、实时动画等方式存在于电子屏中,如目前以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APPAPP、小程序、软硬一体显示设备、小程序、软硬一体显示设备外表和交互已成为核心发展路线外表和交互已成为核心发展路线未来未

4、来VRVR设备与全息投影成为重要趋势设备与全息投影成为重要趋势数字数字 依托多项技术存依托多项技术存在多技术综合产在多技术综合产物物相关技术成熟成为重要推动力相关技术成熟成为重要推动力多模态技术与深度学习为未来技术发展核心点多模态技术与深度学习为未来技术发展核心点CGCG、语音识别、图像识别、动捕(真人驱动)等相关技术相对成熟、语音识别、图像识别、动捕(真人驱动)等相关技术相对成熟人人面部长相和整体形象。会受到数字虚拟人类别(如真人形象、高保真建模、风格化)、制作细节(汗毛等细节建面部长相和整体形象。会受到数字虚拟人类别(如真人形象、高保真建模、风格化)、制作细节(汗毛等细节建模)、渲染水平、

5、设计审美等影响模)、渲染水平、设计审美等影响面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精细肌肉驱动等)、训练数据、驱动模型精度等影响细肌肉驱动等)、训练数据、驱动模型精度等影响数字虚拟人与现实世界的交互水平,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识数字虚拟人与现实世界的交互水平,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识库等影响库等影响图表:广义数字虚拟人核心要素图表:广义数字虚拟人核心要素 多

6、方面高度拟人多方面高度拟人化化外表外表行为行为交互交互CG世界、2020年数字虚拟人发展白皮书,国海证券研究所8类别类别定义定义存在形式存在形式形象特征形象特征身份设定身份设定人格设定人格设定代表形象代表形象存在于非物理空间拟人化人物虚构可以与现实人类进行交互数字形象数字形象计算机等技术制作,以非物理空间计算机等技术制作,以非物理空间展现展现数字人(广义数字虚拟数字人(广义数字虚拟人)人)强调形象拟人化,身份设定可以有强调形象拟人化,身份设定可以有现实人物对照,也可以纯虚构;对现实人物对照,也可以纯虚构;对交互能力无严格要求交互能力无严格要求虚拟人虚拟人强调身份虚构,在现实社会中无人强调身份虚

7、构,在现实社会中无人物直接映射,对交互能力无严格要物直接映射,对交互能力无严格要求求数字虚拟人(狭义)数字虚拟人(狭义)强调人类交互:一是人的外观,特强调人类交互:一是人的外观,特定的相貌、性别和性格等;二是人定的相貌、性别和性格等;二是人的行为,语言、表情和肢体动作表的行为,语言、表情和肢体动作表达能力;三是人的思想,具有识别达能力;三是人的思想,具有识别外界环境、并能与人互动的能力外界环境、并能与人互动的能力皮卡丘(任天堂,皮卡丘(任天堂,90S90S)游戏游戏/ /动画形象动画形象二次元形象,无人类外观,拟人化程度低二次元形象,无人类外观,拟人化程度低迪丽冷巴(嘉行迪丽冷巴(嘉行/ /次

8、世文化,次世文化,20182018)漫画形式漫画形式人类外观,人物身份真实,无法交互人类外观,人物身份真实,无法交互AYAYIAYAYI(燃麦科技,(燃麦科技,20212021)社交账号,以静态图片为主社交账号,以静态图片为主人类外观,人物身份虚构,无法交互人类外观,人物身份虚构,无法交互Digi DougDigi Doug(数字王国,(数字王国,20192019)实时捕捉等技术,第一位登上实时捕捉等技术,第一位登上TEDTED演讲台的演讲台的虚拟人虚拟人人类外观,人物身份真实,可交互人类外观,人物身份真实,可交互图表:数字人图表:数字人、虚拟人虚拟人、数字虚拟人释义数字虚拟人释义定义:广义与

9、狭义数字虚拟人核心差别在对“交互”的要求定义:广义与狭义数字虚拟人核心差别在对“交互”的要求CG世界,金融界等,国海证券研究所备注:下文所讨论“数字虚拟人”均指代广义数字虚拟人9分类:类别多样分类:类别多样外观外观形态展现形态展现外形拟人程度外形拟人程度图形资源维度图形资源维度2D 2D 3D 3D 静态静态动态动态交互交互超写实超写实风格风格/ /卡通卡通写实写实/ /拟人拟人技术技术应用应用有人格:身份型有人格:身份型计算机驱动计算机驱动无人格:服务型无人格:服务型真人驱动真人驱动虚拟分身虚拟分身简单交互:替代简单交互:替代真人标准服务真人标准服务深度交互:多模深度交互:多模态个性化服务态

10、个性化服务AYAYI 2021AYAYI 2021柳夜熙柳夜熙央视小央视小C 2021C 2021初音未来初音未来 20072007miquelamiquela20162016洛天依洛天依 20122012迪丽冷巴迪丽冷巴 20182018SKSK- -II YumiII Yumi 20192019新小微新小微 20202020非交互非交互嘉然嘉然 20202020ShuduShuduZEPETO 2018ZEPETO 2018微软小冰微软小冰 20142014虚拟“邓丽君”虚拟“邓丽君”20202020IMMA 2019IMMA 2019虚拟虚拟IPIP、虚拟偶、虚拟偶像像/ /直播直播PG

11、CPGC生产生产动捕等基础动捕等基础2 0 1 02 0 1 12 0 0 7 2 0 0 2 2 0 0 11 9 9 8 1 9 8 41 9 8 22 0 1 2发展历史发展历史10图表:发展历史图表:发展历史形象阶段技术诞生人物事件影响2020年数字虚拟人发展白皮书等,国海证券研究所萌芽阶段(萌芽阶段(1980S1980S- -1990S1990S)探索阶段(探索阶段(20002000- -20162016)开始尝试将虚拟人物引入到现实世界,技术以手绘为主开始尝试将虚拟人物引入到现实世界,技术以手绘为主传统手绘正逐渐被传统手绘正逐渐被CGCG、动作捕捉等计算机技术取代,语音合成技术得以

12、发展。、动作捕捉等计算机技术取代,语音合成技术得以发展。手绘真人特效化妆+手绘2D动画,2002年现场表演为播放提前录好的录像带;2017年采用AR技术接受媒体采访,拥有Twitter账号CG 技术、动作捕捉技术全数字、3D动画、动捕技术。人物形象:CG技术合成;人物声音:VOCALOID1系列合成2.5D半全息透明屏播放3D影像(需在黑暗中实现,只能特定角度观看)3D全息投影技术(观众看到是立体形象)VOCALOID3语音合成,声源是山新,形象由MOTH投稿设计,经ideolo改编整合后完成动画超时空要塞女主角,被制作方包装成为歌手,并制作音乐专辑由George Stone创作而生由 Blu

13、r 乐队主唱Damon Albarn 和英国漫画家 Jamie Hewlett 共同创立电影指环王中的角色我国首部全数字电影短片青娜的主人公由 Crypton 以雅马哈Vocaloid 系列语音合成程序为基础开发的音源库初音未来成为了第一个使用全息投影技术举办演唱会的虚拟偶像第一VOCALOID中文声库和虚拟形象世界首位虚拟歌姬“林明美”诞生世界首位虚拟电影演员”Max Headroom“诞生英国虚拟乐队“Gorillaz”诞生世界首个虚拟电影角色”咕噜“诞生。中国首位虚拟少女“青娜”二次元虚拟偶像”初音未来“诞生。“初音未来”举行第二场演唱会“初音未来”举行第四场演唱会中国内地虚拟女歌手“洛

14、天依”诞生专辑成功打入当时日本知名音乐排行榜Oricon出演一部电影,拍摄数支广告,在英国家喻户晓发布7张专辑,10年获英国GQ年度人物年度乐队技术被加勒比海盗、猩球崛起等电影采用体现中国数字制作水平,但因商业效益不尽如人意全球大火,活跃至今,多次举办演唱会、接广告代言等2500张门票短时间售罄,演唱日当晚有超过3万关注付费网络直播观看北美第一场巡演。预售票2周内售罄,到场人数达6000人推出后大火,进行广告代言、MV、演出等活动2 0 2 02 0 2 12 0 1 92 0 1 82 0 1 82 0 1 62 0 1 62 0 2 22 0 1 82 0 1 82 0 1 92 0 2

15、1高速发展阶段(2016-2018)井喷式发展阶段(2019至今)深度学习算法和AI技术取得突破,数字人制作过程得以简化。朝着智能化、便捷化、精细化、多样化发展,技术全面提升与突破3D 模型,直播等技术CG、面部捕捉等XR、全息投影技术360全息影像技术高精度的实时动作捕捉与渲染,可实时交互的高保真数字人物语音合成、唇形合成、表情合成、深度学习等惯性运动捕捉套装、机器学习、实时渲染(由NVIDIA RTX和虚拟引擎完成)自然语言处理、语音识别、计算机视觉等人工智能技术Core R3技术超写实虚拟人,不以2D存在而是制作出短视频高效人脸制作管线xFaceBuilder,将建模、绑定、动画三个环节

16、纳入一体虚拟人技术,机器学习加持下的高阶渲染系统Mystique Live发布第一个自我介绍视频而出现拥有12人设计师、软件工程师团队2018年英雄联盟S8仁川总决赛闭幕式会场上以虚拟女团身份首次亮相腾讯游戏旗下NExT Studios历时一年打造高保真数字虚拟人。其原型演员为姜冰洁。新华社与搜狗联合发布的“AI合成主播”数字王国软件研发部负责人Doug Roble在TED 演讲时展示了自己的数字虚拟人DigiDoug浦发银行和百度联合开发。STAR Labs(三星)制作,由人工智能所驱动创壹视频的特效公司发布首个视频而进入大众视野由新华社和腾讯联合打造超写实数字虚拟人世界首位Virtual

17、YouTuber”绊爱“诞生vmodel“Lilmiquela”诞生K/DA英雄联盟衍生虚拟女团迈克尔杰克逊全息演唱会Siren(塞壬)世界首位全仿真智能AI主持人”新小浩“诞生由数字王国制作的数字虚拟人”DigiDoug“诞生浦发银行数字员工“小浦”“NEON”诞生创壹视频的特效公司发布柳夜熙首个视频全球首位数字航天员、数字记者“小诤”由数字王国制作的虚拟邓丽君在江苏卫视跨年演唱会登台献唱正式确立了虚拟主播Vtuber的概念和文化开端客串电影、大量代言,累计ins数百万粉丝出道一个月,首支单曲POP/STARSMV在Youtube上,播放量超1亿。票房过10亿美金高还原度媲美真人的形象以及可

18、实时驱动的表情动作,激发了人们对虚拟人技术的无限想象用户输入文本后,屏幕展现数字虚拟人形象并进行新闻播报,且唇形动作与播报声音同步可在照片写实级逼真程度的前提下,进行实时的表情动作捕捉及展现拥有近似真人的形象、表情和动作,具备表达情感和沟通交流的能力仿真虚拟人在短视频上首次尝试,首个视频发布不到30小时,粉丝数涨至130万在没有原型演员的前提下,创造出角色形象。为游戏快速人脸生产提供基础与周深同台演绎漫步人生路、小城故事和大鱼发展历史发展历史112020年数字虚拟人发展白皮书,国海证券研究所形象阶段技术诞生人物事件影响图表:发展历史图表:发展历史技术:视觉制作层面建模、动技术:视觉制作层面建模

19、、动/面捕捉、渲染为核心制作技术环节面捕捉、渲染为核心制作技术环节 数字虚拟人的制作涉及众多技术领域,且制作方式尚未完全定型,2020年数字虚拟人发展白皮书总结出在“数字虚拟人通用系统框架”,包含任务形象、语音生成模块、动画生成模块、音视频合成显示模块以及交互模块。 在此基础上提炼出五横两纵的技术架构。“五横五横”是指用于数字人制作、交互的五大技术模块,即人物生成、人物表达、合成显示、识别感知、分析决策等模块。其中,人物表达包括语音生成和动画生成,动画生成则包含驱动(动作生成)和渲染两大部分。“两纵两纵”是指 2D、3D 数字人,3D 数字人需要额外使用三维建模技术生成数字形象,信息维度增加,

20、所需的计算量更大。 数字虚拟人视觉制作部分的工业化流程,涵盖了建模、骨骼绑定、动捕、面捕、渲染、材质解算等各个环节。2020年数字虚拟人发展白皮书,国海证券研究所图表:数字虚拟人技术框架图表:数字虚拟人技术框架通用框架通用框架2D2D数字人数字人3D3D数字人数字人人物生成人物生成人物表达人物表达合成显示合成显示识别感知识别感知分析决策分析决策语音生成、动画生成(驱动、渲语音生成、动画生成(驱动、渲染)等染)等终端显示技术终端显示技术语音语义识别、人脸识别、动作语音语义识别、人脸识别、动作识别等识别等知识库、对话管理等知识库、对话管理等无无人物建模绑定等人物建模绑定等人物形象人物形象动画生成模

21、块动画生成模块语言生成模块语言生成模块音视频合成显示模块音视频合成显示模块交互模块交互模块通通用用框框架架图表:数字虚拟人核心视觉制作核心制作技术类别图表:数字虚拟人核心视觉制作核心制作技术类别光场成像结构光扫描重建技术核技术核心心渲染渲染建模建模动捕动捕动态建模静态建模计算机视觉动捕惯性动捕光学动捕实时渲染离线渲染人体动态三维重建相机阵列扫描重建1213技术层面技术层面建模:相机阵列扫描静态重建为主流,动态光场重建为发展重点建模:相机阵列扫描静态重建为主流,动态光场重建为发展重点图表:主要建模技术概况图表:主要建模技术概况项目项目具体技术名称具体技术名称技术特点技术特点优缺点优缺点国外相关技

22、术应用及公司国外相关技术应用及公司国内相关技术应用及公司国内相关技术应用及公司静态重建技术静态重建技术结构光扫描重建结构光扫描重建可以实现0.1毫米级的扫描重建精度, 但其扫描时间长,一般在1秒以上, 甚至达到分钟级在友好度和适应性方面差强人意,更多的应用于工业生产、检测领域国际上IR、Ten24等公司已经将静态重建技术完全商业化, 服务于好莱坞大型影视数字人制作凌云光等公司制作的拍照式人体扫描系统也已经在电影、游戏、虚拟主播项目中成功应用相机阵列扫描重建相机阵列扫描重建目前可实现毫秒级高速拍照扫描(高性能的相机阵列精度可达到亚毫米级)可满足虚拟人扫描重建需求,当前人物建模主流方式动态光场重建

23、动态光场重建人体动态三维重建人体动态三维重建应用计算机视觉/图形学技术,采用摄像机阵列采集动态数据,可重建高低频几何、纹理、材质、三维运动人体三维动态数据进行采集,实时渲染出真实的动态表演者模型近年来 Microsoft、Google、Intel、Facebook 等公司都在积极展开相关研究, 其中Microsoft的108摄像机MR studio已经在全球各大洲均有建设;Google Relightable系统集合模型重建、动作重建、光照重建的全部功能。国内清华大学、商汤科技、华为等光场成像光场成像应用计算机摄像学技术,可以存储空间中所有光线的方向和角度,从而产出场景中所有表面的反射和阴影可

24、忽略材质,直接采集三维世界的光线,为人体三维重建提供了更加丰富的图像信息 数字虚拟人建立的第一步需要进行前期的形象设计以及建模。2D数字虚拟人需要原画等形象设计,而3D数字虚拟人需要额外使用三维建模技术生成数字形象,信息维度增加,所需的计算量更大,无论是基于IP或者真人设计,都需要进行面捕以及身体的建模。 3 3D D建模技术目前主要包含静态扫描建模以及动态建模两类:建模技术目前主要包含静态扫描建模以及动态建模两类: 静态扫描建模仍为主流,其中相机阵列扫描重建快速发展,目前可实现毫秒级高速拍照扫描(高性能的相机阵列精度可达到亚毫米级) , 满足数字人扫描重建需求,替代结构光扫描重建成为当前人物

25、建模主流方式。 相比静态重建技术,动态光场重建不仅可以重建人物的几何模型, 还可一次性获取动态的人物模型数据, 并高品质重现不同视角下观看人体的光影效果, 成为数字人建模重点发展方向。 海外Microsoft、Google、Intel、Facebook 等巨头公司都在积极展开相关研究,国内清华大学、商汤科技、华为等也展开了相关研究, 并取得国际水平的同步进展。2020年数字虚拟人发展白皮书、头豹,国海证券研究所14 相机阵列扫描重建:相机阵列扫描重建:USCUSC LightLight StageStage1 1/ /2 2/ /3 3/ /5 5/ /6 6:由美国南加州大学:由美国南加州大

26、学ICTICT GraphicGraphic LabLab的的PaulPaul DebevecDebevec所领导开发的高保真的三维采集重建平台系统所领导开发的高保真的三维采集重建平台系统(20002000诞生诞生)。该系统以高逼真度的该系统以高逼真度的3 3D D人脸重建为主人脸重建为主,并已经应用于好莱坞电影渲染并已经应用于好莱坞电影渲染(LightLight StageStage5 5本杰明巴顿奇事本杰明巴顿奇事蜘蛛侠蜘蛛侠3 3阿凡达阿凡达)中中。 动态光场重建示意:动态光场重建示意:GoogleGoogle RelightableRelightable系统将结构光系统将结构光、动态建

27、模动态建模、重光照技术集成到一起重光照技术集成到一起,在一套系统中包含模型重建在一套系统中包含模型重建、动作重建动作重建、光光照重建的全部功能照重建的全部功能。 可捕捉了人体自由视点可捕捉了人体自由视点,重建出几何模型和反射率图重建出几何模型和反射率图,并最终实现了并最终实现了能在任意场景中进行合成的视觉效果能在任意场景中进行合成的视觉效果。图表:主要建模技术概况图表:主要建模技术概况3D视觉工坊、将门创投,国海证券研究所技术层面技术层面形象设计与建模技术:相机阵列扫描重建技术快速发展形象设计与建模技术:相机阵列扫描重建技术快速发展 2018年,腾讯游戏旗下NExT Studios高保真数字虚

28、拟人Siren(塞壬)亮相GDC,其高还原度媲美真人的形象,以及可实时驱动的表情动作;制作中“绑定技术“环节就耗费了大半年时间。 2021年6月,由新华社、腾讯联合打造的全球首位数字航天员、数字记者“小诤”首次出现新华社数字视频中,带领用户漫游三大空间站;小诤项目的绑定流程较Siren(塞壬)项目缩短了一半,依靠的就是创作团队创新沉淀出的高效人脸制作管线xFaceBuilder。图表:绑定环节的技术革新图表:绑定环节的技术革新技术层面技术层面建模绑定技术:技术突破不断建模绑定技术:技术突破不断人物建模等人物建模等无无绑定控件修形变形器软件交互速度下降动画制作环节效率降低大数据分析面部网格形变数

29、据深度神经网络学习神经网络结构轻便神经网络实时推理被神经网络定制节点所取代绑定节点图多且复杂场景负载过重底层技术操作流程优势神经网络结构精简,可实现实时推理神经网络结构精简,可实现实时推理云端训练云端训练本地绑定节点本地绑定节点连续关系图连续关系图神经网络定制节点神经网络定制节点控制参数控制参数用户调节控制参数用户调节控制参数面部实时变形效果面部实时变形效果自动随机生成海量训练数据自动随机生成海量训练数据原有绑定结构原有绑定结构分析场景绑定相关控制器分析场景绑定相关控制器传传统统方方法法新新式式方方法法创创新新方方法法绑定速度提升绑定速度提升1516技术层面技术层面驱动技术:智能合成、驱动技术

30、:智能合成、 动作捕捉为虚拟人主流动作生产方式动作捕捉为虚拟人主流动作生产方式项目项目分类分类技术技术优缺点优缺点国外相关技术及公司国外相关技术及公司国内相关技术及公司国内相关技术及公司智能合成智能合成嘴型动作嘴型动作建立输入文本到输出音频与输出视觉信息的关联映射,主要是对已采集到的文本到语音和嘴型视频(2D)/嘴型动画(3D)的数据进行模型训练,得到输入任意文本都可以驱动嘴型的模型, 通过模型智能合成已实现智能合成Reallusion公司研究的利用语音生成面部表情Craytalk技术已在动画制作中被成功商用搜狗相芯科技等公司也有部分项目落地应用嘴型之外其他动作嘴型之外其他动作眨眼、微点头、挑

31、眉等动画目前都是通过采用一种随机策略或某个脚本策略将预录好的视频/3D动作进行循环播放来实现,触发策略是通过人手动配置得到的尚未实现智能合成,未来希望通过智能分析文本,学习人类的表达,实现自动配置动作动作/ /面部捕捉面部捕捉光学动捕光学动捕通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务造价高昂,捕捉精度高英国的Vicon,美国的OptiTrack(NP)和魔神Nokov、uSens、青瞳视觉等惯性动捕惯性动捕基于惯性测量单元IMU来完成对人体动作捕捉,即把集成了加速度计、陀螺仪和磁力计的IMU绑在人体的特定骨骼节点上,通过算法对测量数值进行计算,从而完成动作捕捉价格相对低廉,精度较低,

32、会随着连续使用时间的增加产生累积误差,发生位置漂移,抗遮挡力强荷兰的Xsens诺亦腾(Noitom)、幻境、国承万通等。计算机视觉动捕计算机视觉动捕由多个高速相机从不同角度对目标进行监视和跟踪简单、易用、硬件成本较低Leap Motion、微软Kinect图表:主要驱动技术概况图表:主要驱动技术概况项目项目精度精度抗遮挡抗遮挡对环境要求对环境要求硬件成本硬件成本算法开发难度算法开发难度光学动捕光学动捕高低高高中惯性动捕惯性动捕低高低中低计算机视觉动捕计算机视觉动捕低低低低高图表:主要捕捉技术特性对比图表:主要捕捉技术特性对比2020年数字虚拟人发展白皮书,国海证券研究所 驱动动作技术包括手动调

33、节关键帧驱动动作技术包括手动调节关键帧、预制动作预制动作、动作捕捉动作捕捉、智能合成智能合成(文文字字/ /语音驱动语音驱动)等等。手动调整动画关键帧与预制动作手动调整动画关键帧与预制动作(类似类似MMDMMD)无法实无法实现实时互动现实时互动。 智能合成:智能合成:其中2D、3D数字人均已实现嘴型动作的智能合成,其他面部/身体部位的动作智能合成未能完全实现。 动捕:通过将捕捉采集的动作迁移至动捕:通过将捕捉采集的动作迁移至数字虚拟人数字虚拟人是目前动作生成主要方式是目前动作生成主要方式,核心技术是动作捕捉核心技术是动作捕捉。可分为光学式、惯性式及计算机视觉动捕等。现阶段光学式和惯性式动捕占据

34、主导。计算机视觉动捕虽然相对开发难度大,目前精度较低,但就成本/对环境要求低,可移动范围大,使用场景想象力较大,目前已有消费级应用(部分VR设备采用),成为聚焦热点。17技术层面技术层面驱动技术:计算机视觉动捕成热点驱动技术:计算机视觉动捕成热点计算机视觉动捕技术示意计算机视觉动捕技术示意(1 1)计算机视觉动捕技术示意计算机视觉动捕技术示意(2 2)LeapLeap motionmotion(体感控制器体感控制器)20132013年上市年上市售价售价500500元元惯性动捕技术示意惯性动捕技术示意光学动捕技术示意光学动捕技术示意图表:各类动捕技术示意图表:各类动捕技术示意18技术层面技术层面

35、渲染技术:硬件与算法突破,渲染真实与实时性大幅提升渲染技术:硬件与算法突破,渲染真实与实时性大幅提升项目项目定义定义优缺点优缺点渲染时间渲染时间计算资源计算资源渲染质量渲染质量软件代表软件代表主要应用场景主要应用场景离线渲染离线渲染在计算出画面时并不显示画面,计算机根据预先定义好的光线、轨迹渲染图片,渲染完成后再将图片连续播放,实现动画效果。强调“美学和视觉效果”主要优点是渲染时可以不考虑时间对渲染效果的影响缺点是渲染画面播放时用户不能实时控制物体和场景。长(数小时甚至更长时间)多(全部调用本地资源)高Autodesk Maya、3D Studio Max主要用于电影、广告等预先设计好的模式的

36、演示实时渲染实时渲染计算机边计算画面边将其输出显示强调“交互性和实时性”,优点是可以实时操控,缺点是要受系统的负荷能力的限制,必要时要牺牲画面效果(模型的精细、光影的应用、贴图的精细程度)来满足实时系统的要求。短((每秒至少渲染30帧)少欠佳Unreal Engine 、Unity Engine主要用于无预定脚本的视景仿真,例如飞行训练、3D游戏、军事仿真、灾难模拟、交互式建筑演示等图表:主要渲染技术概况图表:主要渲染技术概况 渲染技术渲染技术,是指把模型在视点是指把模型在视点、光线光线、运动轨迹等因素作用下的视觉画面计算出来运动轨迹等因素作用下的视觉画面计算出来的过程的过程。主要由离线与实时

37、渲染两种类型主要由离线与实时渲染两种类型。 离线渲染离线渲染,就是在计算出画面时并不显示画面,计算机根据预先定义好的光线、轨迹渲染图片,渲染完成后再将图片连续播放,实现动画效果。优点是渲染质量相对好,美学和视觉效果好,缺点是无法实时控制,主要应用于影视等方面,代表性软件包括Maya、3DMax等。 实时渲染实时渲染,是指计算机边计算画面边将其输出显示,优点是可以实时操控,缺点是要受系统的负荷能力的限制,必要时要牺牲画面效果,主要应用于游戏等方面,代表引擎包括Unreal Engine(虚幻)、Unity Engine等。 随着硬件能力的提升和算法的突破, 渲染速度、效果真实度、画面分辨率均大幅

38、提升,在虚拟人物实时渲染方面,已经能做到以假乱真。2016年,EpicGames(虚幻引擎开发商)联合 3Lateral、Cubic Motion等公司联合开发的可实时驱动的虚拟人物在当年的Siggraph会议中做了演示,成功在消费级的硬件环境下实时渲染了高质量的虚拟角色。2018年5月,腾讯发布虚拟人Siren,也一个支持实时渲染的虚拟人物。图表:腾讯虚拟人塞任图表:腾讯虚拟人塞任(SirenSiren)实时渲染示意实时渲染示意2020年数字虚拟人发展白皮书,CSDN等,国海证券研究所备注:塞任由腾讯互娱事业群NEXT Studio 与Epic Games、Cubic Motion和3Lat

39、eral等业内各领域顶尖公司联合团队开发而成。19技术层面技术层面渲染技术:实时渲染速度、真实度、画面分辨率大幅提升渲染技术:实时渲染速度、真实度、画面分辨率大幅提升虚幻虚幻2 2:游戏:游戏虚幻竞技场虚幻竞技场2004200420042004年推出年推出虚幻虚幻3 3:游戏:游戏战争机器战争机器20062006年推出年推出虚幻虚幻5 5:预览视频截图:预览视频截图,预计预计20222022年初发布完整版年初发布完整版虚幻虚幻4 4:游戏:游戏堡垒之夜堡垒之夜20182018年年图表:历代虚幻引擎制作游戏示意图表:历代虚幻引擎制作游戏示意EPIC等,国海证券研究所20技术层面:交互式数字虚拟人

40、可分为真人技术层面:交互式数字虚拟人可分为真人/计算机驱动两种计算机驱动两种 从驱动技术角度来看从驱动技术角度来看,交互型数字虚拟人交互型数字虚拟人可分为真人和计算可分为真人和计算机机驱动两种类型驱动两种类型。 真人驱动型数字虚拟人真人驱动型数字虚拟人,以真人为核心,用户可以通过3D建模、动作捕捉技术、渲染等技术,在网络上形成真人的虚拟化身,在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助数字虚拟人完成大型直播、现场路演等互动性、碎片化活动。 计算机驱动型数字虚拟人计算机

41、驱动型数字虚拟人,以深度学习技术为主,本质上还是算法,但会拥有一个定制化的虚拟外表。计算驱动的数字虚拟人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)、NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。图表:真人驱动型和计算机驱动型数字虚拟人差别图表:真人驱动型和计算机驱动型数字虚拟人差别项目项目真人驱动型真人驱动型计算驱动型计算驱动型主要特点主要特点真人驱动,在动

42、作灵活度、互动效果等方面有明显优势语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动技术流程技术流程原画设计建模绑定动捕设备或摄像头将基于真人的动作/表情等驱动数字虚拟人实时渲染完成内容录制或现场互动设计形象或对真人形象进行打点扫描,采集模型建模绑定训练各类驱动的深度模型,学习模特语音、唇形、表情参数间的潜在映射关系内容制作,基于输入的语音(或由输入文本转化的语音),预测唇动、表情等参数,推理图片并与时间戳结合渲染并生成内容技术突破技术突破动作捕捉环节语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯

43、性或光学动捕设备不再是驱动的必备工具。NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)语音识别(能否准确识别使用者需求)适用场景适用场景降低影视行业门槛,推动消费级转化虚拟人内容生成虚拟偶像、大型直播等虚拟客服、虚拟助手计算机驱动:多模态技术与深度学习技术集大成者计算机驱动:多模态技术与深度学习技术集大成者 计算驱动型数字虚拟人技术是近年来多模态技术和深度学习发展的技术计算驱动型数字虚拟人技术是近年来多模态技术和深度学习发展的技术集大成者集大成者。 在计算机驱动型计算机驱动型中,可通过智能系统自动读取并解析识别外界输入信息,根据解析结果决策数字人后续的输出文本,然后驱动人物模型

44、生成相应的语音与动作来使数字人跟用户互动。数字虚拟人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。 制作过程中最重要的步骤在于对各类驱动模型的训练制作过程中最重要的步骤在于对各类驱动模型的训练,充足的驱动关键点配合以精度较高的驱动模型,能够高还原度的复原人脸骨骼和肌肉的细微变化,得到逼真的表情驱动模型。2020年数字虚拟人发展白皮书,国海证券研究所图表:计算机驱动型数字虚拟人制作技术流程图表:计算机驱动型数字虚拟人制作技术流程无无人物建模等人物建模等 利用深度学习,学习模特语音,唇形,表情参数间的潜在映射关系,形成各自的驱动模型与驱动方式。

45、 目前为止,大多厂商的驱动模型大多是语音-唇形,语音-驱动,动作、手势等驱动大多依靠人为现场指令或预设置驱动。 核心技术流程是基于输入的语音,或首先基于TTS技术(Text-to-speech,语音合成技术)、将输入的本文转化为语音。 基于语音,结合上一步得到的驱动模型,并利用生成对抗模型GAN选出最符合现实的图片,推理得到每帧数字人的图片。 通过时间戳,将语音和每帧的数字人图片进行结合。 为保证在特定场景下能够实现实时低延迟渲染,计算框架的大小、算力供给等技术问题同样会影响到数字虚拟人的最终生成效果。 设计模型,或基于特定真人进行高还原度建模,进行关键点绑定。 当需要基于真人照片生成虚拟内容

46、时,一类做法是将通用人脸模型迁移至该照片上,形成虚拟形象;另一类先将真人照片中的眼型、发型等元素进行分类,再与预先设置的动漫元素进行匹配,最终生成动漫式的虚拟形象。 利用多方位摄像头,对通用/特定模特进行打点扫描,视最终需求可进行全身或局部扫描。 采集其说话时的唇动、表情、面部肌肉变化细节、姿态等数据。 针对需要进行交互的数字虚拟人,生产商会预先设置有问答库、知识图谱等,并承接入数字虚拟人的对话系统。训练各类驱动模型训练各类驱动模型( (核心步骤核心步骤) )形象建模形象建模& &进行绑定进行绑定形象设计形象设计& &扫描真人扫描真人& &采集驱动数据采集驱动数据内容制作内容制作: :基于输入

47、基于输入的语音的语音/ /文本文本预测唇预测唇动、表情等参数动、表情等参数生成最终内容生成最终内容直播时实时渲染直播时实时渲染附加步骤附加步骤终终端端用用户户音视音视频合频合成展成展示示人物语言生成人物语言生成人物动画生成人物动画生成识别感知识别感知智能分析与决策智能分析与决策图表:计算机驱动型数字虚拟人运作流程示意图表:计算机驱动型数字虚拟人运作流程示意TTSATTSA人物模型人物模型文本文本21真人驱动:成本逐渐降低,有消费级应用,技术突破重点在于动捕真人驱动:成本逐渐降低,有消费级应用,技术突破重点在于动捕 在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表

48、情等驱动数字虚拟人。 由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助数字虚拟人完成大型直播、现场路演等互动性、碎片化活动。 事实上,这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone12摄像头已可支持

49、简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。2020年数字虚拟人发展白皮书,国海证券研究所图表:真人驱动型数字虚拟人制作技术流程图表:真人驱动型数字虚拟人制作技术流程 利用动作捕捉或特定摄像头+图像识别,捕捉在形体、表情、眼神、手势等方面的关键点变化。 真人演员实时驱动数字虚拟人。 在较为精良的制作中,会根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。必要时进行语音合成,形成特定设置语音。 进行直播,或录制其动作生成内容。 将识别关键点映射至模型上,进行绑定。 关键点绑定的数量及位置影响最佳效果。 基于IP设计或真人偶像绘制原画 进行面部及身体3D建模,选

50、择关键点。表情捕捉建模绑定形象设计&建模驱动&渲染生成内容进行互动图表:真人驱动型数字虚拟人图表:真人驱动型数字虚拟人CodeMikoCodeMiko2223技术趋势技术趋势拟人化:基础是视觉层面的高保真拟人化:基础是视觉层面的高保真+实时实时 “拟人化拟人化”这需要数字虚拟人在形象或交互上具有技术优势这需要数字虚拟人在形象或交互上具有技术优势。基础就是视觉层面实现高保真基础就是视觉层面实现高保真(接近真人接近真人)+ +实时渲染实时渲染。 虚拟人外观风格选择的两极:高保真虚拟人外观风格选择的两极:高保真+ +风格化风格化。由于恐怖谷效应的存在,人类视觉对同类的形象、特别是对面部高度敏感,在似

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2022年数字虚拟人应用市场及商业模式发展研究报告(60页).pdf)为本站 (爱喝奶茶的猫) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部