4-1 数字人技术革命：动捕、重建、生成与智能.pdf

编号：102512

PDF 46页 7.05MB 下载积分：VIP专享

下载报告请您先登录！

4-1 数字人技术革命：动捕、重建、生成与智能.pdf

1、刘烨斌清华大学自动化系2022年8月13日3D数字人：动捕、重建、生成与智能-2-研究背景全息交互/AR/VR/元宇宙以人为目标的三维感知、重建与生成是新一代信息科技不可或缺的核心技术-3-数字人制作技术迈向智能时代真人驱动型智能算法生成型手工设计型借助AI，算法生成型数字人制作方案极大降低人工和时间成本需要专业设备和经验，耗时几周甚至几个月无需经验，耗时不到一天智能技术研究背景数字人技术变革-4-生成重建动捕人的行为人的思想人的外观人的外观重建实现沉浸性（Immersion）人的行为感知实现交互性（Interaction）赋予人的思想实现创作性（Imagination）研究背景动捕、重建、

2、生成与智能-5-数字人革命解构现实世界将现实映射到虚拟创造虚拟内容动捕人的行为交互性重建人的外观沉浸性生成人的思想创作性研究背景动捕、重建、生成与智能对人的动捕、重建、生成是迈向智能数字人的三部曲-6-主要工作一、无标记运动捕捉多视点无标记动捕：交互方式的变革，赋能虚拟现实等行业影视动画人机交互单视角姿态估计密集视点光场重建稠密视点系统运算繁重，场景受限单视点方法无法分辨深度歧义性实时性能轻量部署高精重建紧密交互视点数量矛盾核心问题：如何充分挖掘各视点信息，优化匹配策略，减少视角冗余-7-主要工作一、无标记运动捕捉难点：时间(1D)-空间(2D)-角度(1D)4维时空对象特征解耦难题单视

3、角分配多视角匹配时域跟踪序贯式的策略导致误差累积，误分配在优化过程中持续传递，使得问题逐步病态单视角划分错误导致重建质量差-8-主要工作一、无标记运动捕捉提出了4D多视时空聚类解耦模型单视角分配多视角匹配时域跟踪协同优化提升性能多维度关联图序贯式：孤立逐维进行匹配搜索协同式：闭环联合优化各维信息 =+,+单视角划分错误导致重建质量差Zhang et al.4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras,CVPR Oral 2020提出4D多视时空聚类解耦模型，克

4、服了2D图像人体特征解耦的模糊不确定性-9-主要工作一、无标记运动捕捉提出了4D多视时空聚类解耦模型（稀疏RGB相机）Zhang et al.4D Association Graph for Realtime Multi-person Motion Capture Using Multiple Video Cameras,CVPR Oral 2020,首个实时的多人体骨架捕捉系统-10-主要工作一、无标记运动捕捉提出了4D多视时空聚类解耦模型（稀疏RGB相机）Light-weight Multi-person Total Capture Using Sparse Multi-view Came

5、ras,IEEE ICCV 2021.首个实时的多人体全身动捕系统（包括人手、人脸）-11-Li et al.Interacting Attention Graph for Single Image Two-Hand Reconstruction,CVPR Oral 2022,首个单RGB相机的紧密交互人手实时运动捕捉主要工作一、无标记运动捕捉提出了4D多视时空聚类解耦模型（单RGB相机）-12-主要工作二、便捷实时高精动态三维重建电报语音电话视频会议全息通讯邮件公元前15001830年1860年2000年当前到未来实时动态三维重建用于未来全息交互，是媒体通信技术的革新研究背景-13-研究背

6、景：基于深度相机的动态融合重建核心问题：不完整融合表面之间的实时、精准非线性映射问题映射精度帧间映射融合更新帧间映射融合更新第帧第(+1)帧33毫秒矛盾输入序列重建管线非线性帧间映射为主要瓶颈和难点表面形变复杂非线性映射策略复杂度映射效率已有方法(DynamicFusion)CVPR2015最佳论文融合更新崩溃帧间映射融合更新主要工作二、便捷实时高精动态三维重建-14-提出了双表面三维重建方法，引入虽低精度但完整的内层模板表面，支撑实时精准帧间非线性映射(+)时刻观测KinectFusion(2011,引用量3873)Fusion4D(2016，微软)3DPortraint(CVPR 2020

7、 Oral)已有国际前沿：单表面重建本人突破：双表面重建DynamicFusion(2015，CVPR最佳论文)Motion2Fusion(2016，谷歌)PoseFusion(CVPR 2021 Oral)Function4D(CVPR 2021 Oral)HybridFusion(ECCV 2018)DoubleFusion(CVPR 2018 Oral)BodyFusion(ICCV 2017)时刻外层表面：高精度，不完整时刻内层表面：低精度，完整时刻外层表面：高精度，不完整错误帧间映射提出了双表面三维重建方法(+)时刻观测主要工作二、便捷实时高精动态三维重建-15-Yu et al.

8、DoubleFusion:Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor,IEEE TPAMI,2020利用内层表面完整性和语义性，建立基于双表面的帧间实时非线性映射，同时实现双表面的高精度动态三维重建实际表面模型参数化模板双层表面运动描述方式内层外层耦合内层骨架运动外层非刚性运动内层表面外层表面辅助优化提出了双表面三维重建方法主要工作二、便捷实时高精动态三维重建-16-Yu et al.DoubleFusion:Real-time Capture of Hum

9、an Performances with Inner Body Shapes from a Single Depth Sensor,CVPR Oral,2018Yu et al.DoubleFusion:Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor,TPAMI 2021单深度相机的实时人体动态三维重建方法，被国内外多家知名媒体报道，可提供全息AR远程教学、人体体型测量等应用提出了双表面三维重建方法主要工作二、便捷实时高精动态三维重建-17-主要工作一、深度相机

10、动态三维重建Yu et al.Function4D:Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors,CVPR Oral,2021构建高精度三维人体开源数据库，含500个高精度模型，建立双表面深度学习模型，支持宽松服饰、人-物交互等场景动态三维重建三维卷积网络参数化内表面语义分割人体重建人物交互重建深度输入128相机系统实现高精度人体模型采集基于双表面的深度学习三维重建算法流程提出了双表面的深度学习三维重建方法-18-Yu et al.Function4D:Real-time Human Vol

11、umetric Capture from Very Sparse Consumer RGBD Sensors,CVPR Oral,2021实现高质量实时动态三维重建，系统成本从100万降低到5万元以内8微软Holopotation 20168组共24个相机，成本逾百万提出了双表面的深度学习三维重建方法主要工作二、便捷实时高精动态三维重建-19-Yu et al.Function4D:Real-time Human Volumetric Capture from Very Sparse Consumer RGBD Sensors,CVPR Oral,2021实时动态三维重建支撑消费级增强现实和

12、互动内容生成提出了双表面的深度学习三维重建方法主要工作二、便捷实时高精动态三维重建-20-主要工作二、便捷实时高精动态三维重建Zheng et al.DeepMultiCap:Performance Capture of Multiple Characters Using Sparse Multiview Cameras.ICCV 2021，复杂场景的稀疏RGB视点动态三维重建多RGB重建：提出了基于注意力机制的多视点融合方法-21-仅需5个RGB相机，对任意服饰人体动态场景的高质量实时重建和渲染DoubleField:Bridging the Neural Surface and Rad

13、iance Fields for High-fidelity Human Reconstruction and Rendering,CVPR 2022 主要工作二、便捷实时高精动态三维重建隐式距离场和神经辐射场融合表征：高质量三维重建-22-进一步提出扩散生成的方法提高三维表面重建精度Shao et al.DiffuStereo:High Quality Human Reconstruction via Diffusion-based Stereo Using Sparse Cameras,ECCV 2022(Oral)仅使用8个相机，达到甚至突破以往上百个相机的重建精度主要工作二、便捷实时

14、高精动态三维重建-23-提出表面流模型实时生成新视点Shao et al.FloRen:Real-time High-quality Human Performance Rendering viaAppearance Flow Using Sparse RGB Cameras,Conditionally accepted by SIGGRAPH Asia 2022仅使用6个相机，实现高质量自由视点绘制主要工作二、便捷实时高精动态三维重建-24-基于深度神经网络的三维表征是实现单一图像三维重建的关键单一图像三维重建：信息极为欠定密集光场相机，1998稀疏相机阵列，2008单一图像，2018主要

15、工作二、便捷实时高精动态三维重建-25-提出了模板驱动的单一图像隐表面三维重建方法Zheng et al.DeepHuman:3D Human Reconstruction from a Single Image,ICCV Oral 2019Zheng et al.PaMIR:Parametric Model-Conditioned for Image-based Human Reconstruction,IEEE TPAMI 2021，提出了模板驱动的隐表面单图像人体三维重建，兼具精准和鲁棒性主要工作二、便捷实时高精动态三维重建语义表征无细节几何表征无语义表征自由度矛盾-26-提出了模板驱动

16、的单一图像隐表面三维重建方法Zheng et al.DeepHuman:3D Human Reconstruction from a Single Image,ICCV Oral 2019；Zheng et al.PaMIR:Parametric Model-Conditioned Implicit Representation for Image-based Human Reconstruction,IEEE TPAMI 2021提出单图像模板驱动的隐表面重建算法，实现互联网人体图像高质量三维重建主要工作二、便捷实时高精动态三维重建-27-神经表示的隐表面 =sdf:3 提出了隐模板从隐表面

17、中自动建立模板的自监督学习方法模板隐表面端到端约束自监督学习预定义三维模板复杂的手工设计表征和泛化能力弱同类物体的不同对象嵌入得到统一的结构表示模板模板与实例之间的相互映射Zheng et al.Deep Implicit Templates for 3D Shape Representation,CVPR Oral 2021直接从隐表面中学习类别物体模板，自动获得三维语义和和细节表征能力主要工作二、便捷实时高精动态三维重建-28-单一图像汽车场景三维重建Zheng et al.Deep Implicit Templates for 3D Shape Representation,CVPR O

18、ral 2021三维几何和语义的联合表征与自动提取，应用于单一图像三维重建提出了隐模板从隐表面中自动建立模板的自监督学习方法主要工作二、便捷实时高精动态三维重建-29-十万数据级别三维人脸表征百万级别三维人脸数据（覆盖中国各地域、年龄层）同拓扑三维配准与单图像拟合（支持大量实际应用场景）同拓扑三维人脸表征语义化三维建模，强泛化能力Wang et al.FaceVerse:a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset,CVPR 2022，与蚂蚁金服合作，实现了十万数据级别

19、的中国人脸三维表征主要工作二、便捷实时高精动态三维重建-30-30输入图片叠加展示高精度三维重建结果在现有人脸模板工作中取得了最高的拟合精度基于单图像的高精度重建在模板类工作中取得了最高的拟合精度主要工作二、便捷实时高精动态三维重建在基于模板的单图像重建方案中取得了国际领先的效果Wang et al.FaceVerse:a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset,CVPR 2022，与蚂蚁金服合作，实现了十万数据级别的中国人脸三维表征-31-单RGB相机面部姿态+形状+

20、表情动捕Wang et al.FaceVerse:a Fine-grained and Detail-controllable 3D Face Morphable Model from a Hybrid Dataset,CVPR 2022,实时单RGB相机下的人脸表情捕捉与重建主要工作二、便捷实时高精动态三维重建-32-银翼杀手2049合成人类无法分辨真伪的数字人语言、动作、手势、服装、表情、声音、情感的生成主要工作三、高真实感化身生成研究背景：数字人体化身生成-33-基于多视点数据库驱动的人体化身生成首个基于多视点视频数据库的人体Avatar生成，F.Xu,et al.,Video-bas

21、ed Characters-Creating New Human Performances from a Multi-view Video Database,SIGGRAPH 2011主要工作三、高真实感化身生成新动作多视点生成新动作映射多人体基本动作库-34-提出了局部结构化神经辐射场的人体化身生成实现宽松服饰下的高真实感人体Avatar生成，Zheng,et al.,Structured Local Radiance Fields for Human Avatar Modeling,CVPR 2022主要工作三、高真实感化身生成控制节点采样衣物局部非刚性变形建模骨架驱动结构化神经辐射场 (

22、,)节点残差偏移人体姿态神经体渲染渲染结果动态表观细节编码衣物形变的层次化、自监督学习-35-提出了局部结构化神经辐射场的人体化身生成主要工作三、高真实感化身生成实现宽松服饰下的高真实感人体Avatar生成，Zheng,et al.,Structured Local Radiance Fields for Human Avatar Modeling,CVPR 2022-36-主要工作三、高真实感化身生成实现宽松服饰下的高真实感人体Avatar生成，Zheng,et al.,Structured Local Radiance Fields for Human Avatar Modeling,CV

23、PR 2022-37-主要工作三、高真实感化身生成可编辑的头部3D图像生成结合2D对抗图像生成及3D神经辐射场，生成实时可编辑高真实3D人脸图像Sun et al.IDE-3D:Interactive Disentangled Editing for High-Resolution 3D-aware Portrait Synthesis,Conditionally accepted by SIGGRAPH Asia 2022-38-主要工作三、高真实感化身生成提出了基于StyleGan的高真实头部化身生成基于视频驱动的头部化身生成，Wang et al.StyleAvatar:Real-t

24、ime Photo-realistic Neural Portrait Avatar from a Single Video,Submitted to TPAMI 202223分钟的输入视频PoseExpressionLightingTextureShapeParametersDiscriminatorT/FRealFakeDifferentiableRendererPoseExpressionPoseLightingTextureShapeExpressionLightingTextureShapeParametric Model Tracking训练阶段三维人脸模板渲染图DecoderNo

25、ise能够生成高清图像的网络结构StyleUnetEncoder网络生成的输出图片DecoderLatent Mapping NetworkNoise训练完毕的StyleUnetEncoder应用阶段DifferentiableRenderer用于驱动的输入视频将表情与姿态映射到被驱动者模板上被驱动者模板渲染图网络生成的输出视频Latent Mapping Network-39-主要工作三、高真实感化身生成提出了基于StyleGan的高真实头部化身生成：数据采集利用手机拍摄23分钟的面部视频，视频中包含尽可能多的头部姿态和面部表情基于视频驱动的头部化身生成，Wang et al.StyleA

26、vatar:Real-time Photo-realistic Neural Portrait Avatar from a Single Video,Submitted to TPAMI 2022-40-主要工作三、高真实感化身生成提出了基于StyleGan的高真实头部化身生成：驱动生成基于视频驱动的头部化身生成，Wang et al.StyleAvatar:Real-time Photo-realistic Neural Portrait Avatar from a Single Video,Submitted to TPAMI 2022-41-驱动视频生成视频主要工作三、高真实感化身生成

27、提出了基于StyleGan的高真实头部化身生成基于视频驱动的头部化身生成，Wang et al.StyleAvatar:Real-time Photo-realistic Neural Portrait Avatar from a Single Video,Submitted to TPAMI 2022-42-驱动视频主要工作三、高真实感化身生成基于神经辐射场的高真实头部3D化身生成-43-驱动视频主要工作三、高真实感化身生成基于神经辐射场的高真实头部3D化身生成-44-位姿手势表情声音+文字个人助理输入:人类大规模行为数据输出:AI数字人多模态AI动作未来研究工作：多模态AI数字人运动

28、捕捉输出运动、表情、情感等化身生成三维重建情感陪伴元宇宙智能体 AI数字人：技术路线便捷的运动捕捉技术用于捕获大规模人体交互行为与表情逼真的化身生成技术用于最终输出形象高精三维重建技术用于获得高质量三维信息辅助化身绘制1 12 23 34 4-45-未来研究工作AI数字人的战略意义数字经济新战场AI数字人将成为人类与数字世界连接的入口，是未来虚实融合世界的基本要素科学研究新范式数字化人类与世界将开启智能体仿真新时代，促进人工智能多模态协同发展与应用数字生命新形态个性化AI数字人融合数基生命系统，表观-器官-基因-细胞的多尺度数字生命建模人类文明新世界AI数字人应用于情感与心理陪护，针对老年化或精神疾病问题，构筑美好精神世界-46-谢谢谢！谢！2022/8/17

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（4-1 数字人技术革命：动捕、重建、生成与智能.pdf）为本站（云闲）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。