上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

5-1 数字人系统基础能力评测观察.pdf

编号:102530 PDF 16页 4.46MB 下载积分:VIP专享
下载报告请您先登录!

5-1 数字人系统基础能力评测观察.pdf

1、2022数字人系统基础能力评测观察颜媚 中国信息通信研究院 云计算与大数据研究所 内容科技部|2n 2021年以来,在元宇宙概念的刺激下,数字人技术应用呈现蓬勃发展态势。然而在实际工程落地中,却面临着诸多问题。安全方面需要提前预判数字人可能出现的安全伦理问题,提升治理能力技术方面需要满足包括从2D到3D,从展示到交互等更多需求应用方面如何满足用户需求,做到由“能用”到“好用”再到“用好”数字人相关产品不断涌现评测背景|3序号标准组织标准类型标准名称1ITU国际标准ITU-T F.748.15Framework and metrics for digital human application

2、system2ITU国际标准ITU-T F.748.14Requirements and evaluation methods of non-interactive 2D real-person digital human application system3CCSA行业标准虚拟数字人指标要求和评估方法 第1部分 参考框架4CCSA行业标准虚拟数字人指标要求和评估方法 第2部分 2D真人形象类合成技术评测背景n 前期,中国信通院云大所联合多家企事业单位开展数字人技术标准研究,旨在凝聚产业共识,整合优质资源,推动数字人产业健康发展。截至目前,中国信通院云大所已牵头在ITU和CCSA完成多项全球

3、范围内首创的数字人国际标准及行业标准的研制,旨在明确数字人的概念和逻辑框架。|n 为进一步推动产业界对数字人概念达成共识,提升数字人工程化落地能力,解决供需双方的信任问题,中国信通院依托CCSA TC602及内容科技产业推进方阵开展数字人系统基础能力要求及评估方法规范文件的制定工作。2022年1月该规范正式定稿,并依据其启动首批数字人系统基础能力评测。数字人系统基础能力要求及评估方法评测背景规范编制过程共吸引了30余家单位参与|评测内容介绍数字人系统基础能力评测模型n 评测分别从基础技术能力、基础工程化能力、基础安全保障能力三大维度评估数字人系统是否能满足用户普遍的使用需求、支持业务规模化应用

4、落地和现有的合规要求。总共 48项 测试用例(27必选+21项可选)基础技术能力从形象版权保障、内容追溯能力、内容风险控制等方面,考察数字人系统是否能够满足现有合规要求。基础安全保障能力包括形象技术能力、语音技术能力、驱动技术能力、交互技术能力、内容供给能力、人设定制能力等方面,考察数字人系统的基础功能是否能够满足用户普遍的使用需求。从标准资源配置、可移植性、易用性、可扩展性、兼容性、时效性、可靠性等方面,考察数字人系统的非功能性能力是否能够支撑业务规模化应用落地。基础工程化能力|评测模型介绍|形象类型形象精细度形象生成方式形象装扮更换位移支持情况形象技术能力语音合成能力语音编辑能力语音转换能

5、力语音定制能力语音技术能力驱动方式驱动范围驱动技术能力交互方式语音识别能力交互自主性情感化表现富媒体展示交互技术能力唤醒能力内容构建方式内容供给能力人设定制能力风格一致性人设定制能力基础技术能力肖像权著作权形象版权保障基础安全保障能力客户端环境服务端配置标准网络环境标准资源配置易操作性界面舒适性易学性易用性成熟性易恢复性可靠性渲染方案多渠道接入云端渲染SDK终端渲染SDK与AI能力集成兼容性业务系统集成适应性可移植性生产周期实时响应速度时效性基础工程化能力适配软硬件人工接管支持功能扩展性能扩展个性化扩展可扩展性交互质检功能数字水印支持内容回溯能力风险控制机制内容风险控制显著标识支持显著标识评测

6、概况n 2022年4月,中国信通院组成评测组通过进入企业应用现场或线上接入的方式,采取人员访谈、系统操作演示和材料审查相结合的评测方法,陆续对腾讯等10家企业开展测试工作。腾讯火山引擎百度科大讯飞蔚领京东阿里华为|评测结果总览序号企业参评产品评测结果1腾讯云计算(北京)有限责任公司云小微数智人平台V1.6.3通过2北京火山引擎科技有限公司火山引擎虚拟数字人平台V1.2.15通过3北京百度网讯科技有限公司百度智能云-曦灵数字人平台v1.0通过4科大讯飞股份有限公司讯飞AI虚拟人交互系统V1.0通过5北京蔚领时代科技有限公司蔚领无界数字人平台V1.0.0通过6京东科技信息技术有限公司京东科技多模态

7、数字人V2.0通过7阿里云计算有限公司达摩院AI数字人产品V1.0.0通过8华为云计算技术有限公司MetaStudio V1.0通过n 2022年5月30日召开专家评审会,形成最终检验结果。数字人系统基础能力评测共10家企业参评,通过9家,具体评测结果如下(其中两家选择不公布结果),排名不分先后。|评测结果分析-各测试项通过情况总览0123456789语音合成能力语音编辑能力语音定制能力支持的交互方式语音识别能力支持的交互能力类型情感化表现富媒体展示能力云端渲染SDK支持情况与已有AI能力集成能力与已有业务系统集成能力人工接管支持情况语音转换能力交互自主性唤醒能力个性化扩展交互质检功能终端渲染

8、SDK支持情况肖像权、著作权等数字水印支持情况内容风险控制机制可选项通过企业数量n 所有参测产品测试项目平均通过率为96.61%,可选项平均通过率为92.26%。终端渲染SDK支持情况、肖像权及著作权等、数字水印支持情况、内容风险控制机制等可选指标项通过率相对较低。|观察1:精细化视频录制生成和CG生成分别是2D、3D数字人形象生成的主流方法,基于少量照片生成数字人仍处于探索阶段0123456789基于单张照片生成3D卡通数字人连续调节面部参数生成3D写实数字人模块化捏脸生成3D卡通数字人基于微量视频生成2D真人形象数字人基于单张照片生成2D真人形象数字人视频录制生成2D真人形象数字人CG生成

9、3D数字人数字人形象生成方式统计n 100%的参评企业支持CG生成3D数字人;75%的参评企业支持精细化视频录制生成2D数字人。37.5%的参评企业支持基于单张照片生成2D真人形象数字人;12.5%的参评企业支持基于单张照片生成3D卡通数字人。|观察2:语音交互成为数字人主流的交互方式,视觉交互和多模态交互初见端倪视觉交互类型支持率手语识别12.5(内测阶段)肢体(手指、头部、四肢)动作识别12.5人脸检测识别50%面部动作识别(表情、口唇动作)0视线追踪00123456789多模态交互视觉交互点触交互语音交互交互方式统计n 语音交互、点触交互(比较基础)、视觉交互、多模态交互的支持率分别为1

10、00%、62.5%、62.5%、25%。视觉交互主要集中于人脸检测识别;多模态交互则主要通过对输入的多维信息设置响应策略实现。视觉交互主要集中于人脸检测识别p 企业2支持在和人交互的过程中同时采集视频和音频,并对嘴型和声波不匹配的情况进行提示p 企业3支持对多信息同时输入,响应优先级策略部分企业已支持多模态交互策略|基础技术能力基础工程化能力基础安全保障能力首批评测总体结果企业1企业2企业3企业4企业5企业6企业7企业8测试模块测试指项数量测试通过率基础技术能力2198.214%基础工程化能力2397.826%基础安全保障能力481.250%n 基础技术能力、基础工程化能力通过率分别为98.2

11、14%、97.826%;基础安全保障能力通过率为81.25%,相对较低,相应能力仍需完善。观察3:相比于基础技术能力及基础工程化能力,基础安全保障能力亟待加强|观察4:各家对于各测试项完成度各异,整体均有较大提升空间n 根据对参评企业测试数据的不完全统计及调研发现,由于技术实力、入局时间早晚、业务方向各有侧重等原因,各家对于各测试项的支持程度各不相同。触发策略和视频驱动是目前实现情感化表达的主要方式,与智能合成的情感化表达尚有距离p 87.5%的参评企业支持语音的情感化表达p 37.5%的参评企业支持真人通过视频驱动的情感化表达 p 25%的参评企业支持通过触发策略实现3D写实形象表情的情感化

12、表达p 12.5%的参评企业支持通过触发策略实现3D卡通形象表情的情感化表达p 12.5%的参评企业支持通过触发策略实现3D卡通形象的音色、表情、肢体动作的情感化表达大部分企业具备数字水印能力,但还未将其集成进系统0123456789手指面部表情 肢体背景内容 口型 驱动范围统计目前还有部分企业未实现对背景、肢体、面部表情、手指的驱动75%的参评企业支持数字水印能力,支持从技术上提供不影响数字内容效果的不直接可见的安全水印,实现数字内容输出的可回溯性、版权安全保护要求,但目前都未集成进数字人系统。部分企业均表示一项能力是否集成入系统取决于这项能力对于目标场景是否有价值。|观察5:数字人商业价值

13、不断被挖掘和释放部分参评系统已实现在多个领域落地,涉及金融、商业、传媒、电信、娱乐、移动互联网、能源等领域,其中金融和商业是变现较多的领域。数据来源:对数字人系统基础能力首批评测数据的不完全统计数字人应用领域不断扩围n 根据对参评企业测试数据的不完全统计及调研发现,数字人应用范围不断拓宽,商业化进程不断加快,表现为应用领域不断扩围、应用场景不断拓展、接入渠道不断丰富。所有参评系统均已实现在多个场景的应用,涉及客服、助手、主播、员工、偶像、主持人、引导员、讲解员、记者等场景,其中客服、助手、主播是数字人应用较多的场景。数字人应用场景不断拓展所有参评系统均已实现多渠道接入,涉及Web/H5、APP

14、、大屏、小程序、VoLTE、VTM、VR、AR等,其中Web、APP、大屏设备是接入较多的渠道。数字人接入渠道不断丰富|下一步重点工作产业研究标准研制评估测试在现有基础上继续完善和研制数字人、沉浸式视觉内容等相关标准规范,依托CCSA、ITU等标准组织平台,向上推行业标准和国际标准打造全国领先的数字内容生成检验检测能力,支撑相关前沿技术验证和评估测试,并完成第二轮数字人系统基础能力和性能分级评测围绕数字人、沉浸式视觉内容等方向,持续探索数字内容生成相关政策、技术、应用及产业研究,编撰并发布相关产业报告n 依托内容科技产业推进方阵和CCSA TC602等平台,进一步聚焦数字内容生成相关产、学、研、用资源,开展产业研究、标准研制、评估测试等工作。欢迎共同探讨、共同完善、共建生态!欢迎共同探讨、共同完善、共建生态!|非常感谢您的观看|个人微信

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(5-1 数字人系统基础能力评测观察.pdf)为本站 (云闲) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部