上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

2024AI+3D行业发展前景及海外AI+3D探索进展分析报告(30页).pdf

编号:156007 PDF 30页 2.04MB 下载积分:VIP专享
下载报告请您先登录!

2024AI+3D行业发展前景及海外AI+3D探索进展分析报告(30页).pdf

1、2 0 2 3 年深度行业分析研究报告多模态成为共识,3D将是下一个重点突破方向AI+3D:前景广阔,仍面临诸多技术挑战当前海外AI+3D探索进展123CONTENTS目录CCONTENTS专 业 领 先 深 度 诚 信专 业 领 先 深 度 诚 信中 泰 证 券 研 究 所中 泰 证 券 研 究 所1多模态成为共识,3D将是下一个重点突破方向5不同模态对应的人工智能技术与应用展望不同模态对应的人工智能技术与应用展望图表:生成式AI达到人类创作者水平的时间资料来源:红杉汇,中泰证券研究所61.1 文生文(文生文(Text to Text)文生文(Text to Text)是AIGC行业最先实现

2、的功能,也是ChatGPT等一系列大模型诞生以来被大家体验最多的功能。目前,文生文模型中被应用较多的是OpenAI的GPT系列大模型。ChatGPT率先支持以更连贯自然的语法对输入的问题进行回答。率先支持以更连贯自然的语法对输入的问题进行回答。GPT系列基于Transformer 架构对序列数据中的长距离依赖进行建模,同时OpenAI使用了来自互联网的大量文本数据,包括书籍、文章和网站,来对GPT模型进行无监督学习训练。目前,GPT系列已被用于广泛的自然语言处理任务,包括语言翻译、文本补全和文本生成。GPT-1:发布于2018年6月,参数量1.17亿;GPT-2:发布于2019年2月,参数量1

3、5亿;GPT-3:发布于2022年5月,参数量1750亿;ChatGPT:发布于2022年11月,参数量15亿,专门为会话任务而设计和训练。图表:ChatGPT中文对话示例资料来源:腾讯新闻,中泰证券研究所图表:ChatGPT英文对话示例资料来源:腾讯新闻,中泰证券研究所71.2 文生代码(文生代码(Text to Code)ChatGPT的出现,不仅让人机对话更为连贯、自然、有条理,且ChatGPT本身即具备丰富的代码知识积累,可根据人类语言提示自动生成代码,也可为用户回答一般编程问题、代码测试与改进、代码翻译等功能。不过,ChatGPT的诞生并不专门针对代码,并且可能无法无缝集成到用户的工

4、作流程中。除ChatGPT外,目前市面上已有很多专业AI工具在文生代码方面具备相当的水平。具有代表性的工具如GitHub Copilot、Codex等。GitHub Copilot:Github与与OpenAI共同开发的共同开发的AI驱动的编程助手。驱动的编程助手。它能够直接在用户的编辑器中提供代码片段或者整个函数的建议,以帮助用户更快地编写和完成代码。这一工具可以被看作是一个自动的代码完成工具,它能理解自然语言,也能理解代码本身的上下文。Copilot 在 GitHub 上可用的公共存储库上接受过训练,能够处理各种编程语言和框架。Codex:OpenAI公司推出的公司推出的 GPT-3 的多

5、个派生模型之一。的多个派生模型之一。它是基于GPT语言模型、使用代码数据进行 Fine-Tune而训练出的专门用于代码生成与文档生成的模型。Codex 能够帮助程序员自动补全代码、直接生成代码、自动补充测试样例,并支持多种编程语言。图表:ChatGPT生成代码示例资料来源:腾讯云开发者社区,中泰证券研究所图表:GitHub Copilot生成代码示例资料来源:少数派,中泰证券研究所81.3 文生图像(文生图像(Text to Image)2022 年前,文生图的模型以生成性对抗网络(GANs)为主。但因为在实践中存在明显不足,甚至还不如用Photoshop 等工具直接创作,无法用于商业化。从2

6、021年OpenAI提出DALL E模型和CLIP(Contrastive Language-lmage Pre-training,对比图文预训练)开始,各大公司开始不断推出新的文生图模型,从生成效果和效率上相对于以前的文生图方法都提升了一大截。特别是2022年8月Stable Diffusion正式面世引领AIGC的行业发展,其作为一个迅速火出圈的AI技术,以极快的速度吸引了大量关注。同时,这也奠定了Diffusion 模型在文本生成图像领域的核心方法地位。图表:AI文生图模型阵营及简史资料来源:中国AIGC 文生图产业白皮书 2023,中泰证券研究所91.3 文生图像(文生图像(Text

7、to Image)代表公司)代表公司Midjourney 目前,通用文生图主要公司及产品工具包括Midjourney、Stability.AI、Disco Diffusion、DALL E模型等,垂直文生图主要公司及产品工具则包括looka(Logo 与网站设计)、NovelAI(二次元形象生成),Scenario(游戏资产生成),以及Lensa(头像生成)。Midjourney:Midjourney 是一款由Midjourney研究实验室开发的人工智能程序,可根据文本生成图像,于 2022年3年正式面世,用户通过与 Midjourney bot 进行对话式交互,提交 Prompt(文本提示词

8、)来快速获得想要的图片。Midjourney 参考了 CLIP 及 Diffusion,构建了自己的闭源模型,抓取公开数据进行训练,并构建了 Discord 中的Midjourney bot 应用。作为应用层公司,Midjourney 收集用户反馈数据,迭加技术的进步,不断迭代模型。Midjourney 采取 SaaS 订阅制模式。最初使用时,用户可以免费生成 25 张照片。之后按照订阅制收费。月付制为 10、30、60 美元,或者使用年付制,价格为 8、24、48 美元/月。2022 年 3 月,Midjourney 启动邀请制 Beta 版本。因为文生图本身具有极强的吸引力,且 Midjo

9、urney 创作的图片质量很高,所以很快就吸引了大量用户。后续经多次迭代后,目前Midjourney已迭代至v6版。图表:Midjourney Discord 社群界面资料来源:36Kr,中泰证券研究所图表:Midjourney生成图片效果示例资料来源:36Kr,中泰证券研究所101.4 文生视频(文生视频(Text to Video)相较文生图像,受制于文生视频技术难度、计算难度、数据要求、多领域融合技术挑战等因素,文生视频领域的进展则较为缓慢。直到2023年2月Runway发布首个AI编辑模型Gen-1,文生视频领域才迎来属于自己的iPhone时刻,自此之后一年内,文生视频技术飞速发展,生

10、成的视频从时长、连续性、视频质量、视频合理性均有大幅提升。文生视频的文生视频的iPhone时刻:时刻:Runway先后发布先后发布Gen-1、Gen-2。1)2023年2月,之前参与开发Stable Diffusion最初版本的Runway提出了首个AI编辑模型Gen-1,Gen-1可以在原视频的基础上,编辑出用户想要的视频。2)2023年3月,Runway很快又推出了Gen-2的内测版本,并于6月份正式对外发布。Gen-2刚开始发布时还只能生成4秒钟的视频,每个用户的免费试用额度为105秒,到了8月份,生成视频的最大长度便从4s提升到了18s;9月,新增导演模式,可以控制镜头的位置和移动速度

11、。3)2023年11月3日,Runway的Gen-2发布里程碑式更新,支持4K超逼真的清晰度作品,并于11月21日上线“涂哪动哪”的运动笔刷新功能。2023年年11月月16日,日,Meta发布生成式视频模型发布生成式视频模型Emu Video。该模型既支持灵活的图像编辑,也支持根据文本和图像生成高分辨率视频。根据展示的demo,Emu VIDEO 已经可以支持 4 秒的视频生成。2023年年11月月18日,字节发布日,字节发布PixelDance。PixelDance给出了两种不同的视频生成模式。1)基础模式()基础模式(Basic Mode),),用户只需要提供一张指导图片+文本描述,Pix

12、elDance 就可以生成有高度一致性且有丰富动态性的视频,其中指导图片可以是真实图片,也可以利用现有的文生图模型生成。2)高级魔法模式()高级魔法模式(Magic Mode),),在这种模式下,用户需要提供两张指导图片+文本描述,可以更好地生成更有难度的各种炫酷特效镜头。2023年年11月月21日,日,Stability AI发布了自家的生成式视频模型发布了自家的生成式视频模型Stable Video Diffusion(SVD),),该模型支持文本到视频、图像到视频生成,并且还支持物体从单一视角到多视角的转化(即3D合成)。2023年年11月月29日,日,Pika结束测试版运行,正式发布结

13、束测试版运行,正式发布Pika 1.0。Pika 1.0可支持对于视频的实时编辑和修改,可根据已有的素材直接扩展视频,生成不同高宽比的内容,亦可直接在视频中添加想要的素材。userid:93117,docid:155931,date:2024-03-07,111.4 文生视频的重大突破:文生视频的重大突破:OpenAI发布发布Sora 2024年2月16日,OpenAI正式发布文生视频大模型Sora。该模型被视为文生视频领域的革命性突破。Sora的能力:的能力:Sora 是一种基于扩散模型和 Transformer 架构的 Al 视频生成模型,它可以根据用户提供的文本指令生成最高长达一分钟的复

14、杂视频内容。与传统的视频生成工具相比,Sora 能够细致地理解用户提示中的内容,并生成具有视觉品质和连贯性的视频,展现出了对现实世界的深刻理解。图表:Sora生成视频案例:东京街头漫步的女子(时长一分钟)资料来源:OpenAI,CSDN,中泰证券研究所图表:Sora生成视频案例:野外雪地与狗玩耍(时长4秒)资料来源:OpenAI,CSDN,中泰证券研究所121.4 文生视频的重大突破:文生视频的重大突破:OpenAI发布发布Sora 图表:Sora生成“两艘海盗船在一个咖啡杯中航行、互相战斗的逼真特写视频”归纳而言,Sora的突破之处主要体现在三点:生成视频时长实现突破,可达一分钟。生成视频时

15、长实现突破,可达一分钟。之前的较多文生视频模型都只支持生成4秒的短视频,而Sora可支持长达生成一分钟的视频,且视频质量始终保持较高水准。生成视频可保持三维空间的连贯性。生成视频可保持三维空间的连贯性。Sora 能生成带有动态视角变化的视频。当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间连贯移动,而且即使人物、动物或物体被遮挡或移出画面,Sora 也能保持长时间视频的连续性。同样,它能在同一视频样本中多次展示同一角色,并确保外观一致。具备初步的物理规则理解能力,具备初步的物理规则理解能力,不过当前理解复杂场景和规律有难度,且对事物发生的因果、时序和空间关系理解不不过当前理解复杂

16、场景和规律有难度,且对事物发生的因果、时序和空间关系理解不足。足。OpenAI 将 Sora 视为“能够理解和模拟现实世界的模型的基础”,英伟达高级科学家 Jim Fan也认为“Sora 实际实际上是一款基于数据的物理模拟引擎,上是一款基于数据的物理模拟引擎,它能够模拟出真实或虚构的世界。”不过,就已生成的案例来看,Sora在深刻理解物理规律上仍然存在可提升的地方,例如不能准确模拟许多基本交互的物理现象,如玻璃碎裂。其他一些形式的交互,如吃食物,也并不总能产生正确的物体状态变化。图表:Sora生成“玻璃杯打碎溢出红酒”时产生bug131.4 SORA之后的下一步:文生之后的下一步:文生3D S

17、ora之后的新方向:之后的新方向:AI赋能文生赋能文生3D建模或成为新发展趋势。建模或成为新发展趋势。除了视频时长、多角度拍摄连贯性上之外,Sora最大的突破在于其对物理规律开始有了真正意义上的理解,但也可以看到,Sora对物理规律的理解仍然有较大的提升空间,而这一步的提升或对应相应的产业潜在机会。未来随着数字化的持续发展,3D资产数量的快速增长,3D建模的自动化生成或成为新的发展风口,而以各种大模型为代表的AIGC生产能力赋能3D建模,以及文生3D需求持续增长,都将促进AI赋能3D建模的快速发展。14CONTENTS目录CCONTENTS专 业 领 先 深 度 诚 信专 业 领 先 深 度

18、诚 信中 泰 证 券 研 究 所中 泰 证 券 研 究 所2AI+3D:前景广阔,仍面临诸多技术挑战152.1 何为何为3D建模建模图表:3D建模与应用资料来源:头豹研究院,中泰证券研究所 什么是什么是3D建模:建模:3D建模指的是使用软件来创建三维对象或形状的数学表示形式的过程。建模指的是使用软件来创建三维对象或形状的数学表示形式的过程。3D建模技术和3D模型广泛应用于医疗、传媒娱乐、建筑工程、科学研究等多个行业领域。162.1 3D建模的两种技术方式建模的两种技术方式 曲面建模和多边形建模是曲面建模和多边形建模是3D建模两大流行的建模方式。建模两大流行的建模方式。曲面建模使用数学语言精确描

19、述各种曲面形体,用于工业制造曲面建模使用数学语言精确描述各种曲面形体,用于工业制造行业;多边形建模使用网格单元拟合集合体,多用于娱乐影视行业行业;多边形建模使用网格单元拟合集合体,多用于娱乐影视行业。图表:曲面建模(NURBS建模)的特点与步骤资料来源:头豹研究院,中泰证券研究所 曲面建模,也叫做曲面建模,也叫做NURBS建模,是一种基于几何基本体建模,是一种基于几何基本体和绘制曲线的和绘制曲线的3D建模方式,建模方式,其建模底层逻辑是用数学语其建模底层逻辑是用数学语言精确描述各种曲面形体。言精确描述各种曲面形体。曲面建模的模型产品是由曲线构建曲面组合而来,由于曲线具有平滑和最小特性,使得曲面

20、建模对于构建各种有机 3D 形状十分有用。使用曲面建模能够制作出任何形状的、精度非常高的三维模型,这一优势使得ISO颁布的STEP中把NURBS作为定义工业产品几何形状的唯一数学方法。曲面建模常用于参数化的造型设计中,用于支持高精度曲面建模常用于参数化的造型设计中,用于支持高精度的数字化制造产业,但其高精度的特点也使得曲面建模的数字化制造产业,但其高精度的特点也使得曲面建模算法复杂,难度较高,模型计算时间较长。算法复杂,难度较高,模型计算时间较长。多边形建模,是将一个完整的模型由无数个多边形面组多边形建模,是将一个完整的模型由无数个多边形面组合而成,合而成,其建模底层逻辑是用网格单元去拟合几何

21、形体。其建模底层逻辑是用网格单元去拟合几何形体。建模过程中,三角形数量越多,模型精度越高,建模速建模过程中,三角形数量越多,模型精度越高,建模速度越慢。度越慢。多边形建模通过合并三角形来减少三角形数量,从而提高计算性能,加快计算速度,但也使得模型产品精度不足,难以用于对追求精确的工程软件中。早期,多边形建模主要用于游戏,到现在,多边形建模多边形建模已经广泛应用于各种对计算速度要求较高、而精确性要已经广泛应用于各种对计算速度要求较高、而精确性要求不高的场合,求不高的场合,包括视觉渲染、影视特效等场景。图表:多边形建模的特点与步骤资料来源:头豹研究院,中泰证券研究所172.1 3D建模市场现状与预

22、测建模市场现状与预测2021年,中国年,中国3D建模软件市场空间达到建模软件市场空间达到103.4亿元,娱乐是当前市场增长主要推动力。未来,随着元宇宙等新概念赋亿元,娱乐是当前市场增长主要推动力。未来,随着元宇宙等新概念赋能,市场空间将持续扩张,预计到能,市场空间将持续扩张,预计到2026年,市场规模将达到年,市场规模将达到195.7亿元亿元。在中国,在中国,3D建模软件当前主要用于工业行业、建筑行业、动漫影视行业和游戏行业。建模软件当前主要用于工业行业、建筑行业、动漫影视行业和游戏行业。2022年中国3D建模软件市场中,游戏市场应用占比34.3%位列第一,3DCAD 和BIM分别以31.3%

23、、30.5%位列二三位。图表:中国3D建模软件市场规模及预测(单位:亿元)资料来源:头豹研究院,中泰证券研究所103.4195.7050020212026中国3D建模软件市场CAGR=13.6%图表:2022年中国3D建模软件市场规模占比资料来源:共研产业咨询,中泰证券研究所34.3%31.3%30.5%3.9%游戏3DCADBIM动漫影视182.2 AI赋能赋能3D建模:创意与技术的结合建模:创意与技术的结合 什么是什么是AI+3D建模:建模:AI+3D建模是利用人工智能技术,自动化地生成高质量的 3D 模型的过程。传统的 3D 建模需要用户花费大量时间和精力进行手工创

24、作,而 AI+3D建模则通过训练机器学习算法,使计算机能够自动学习和生成建模则通过训练机器学习算法,使计算机能够自动学习和生成 3D 模模型,型,极大地提高了效率和准确性。AI+3D建模特点与功能:建模特点与功能:高效快速:高效快速:AI赋能3D建模能够在短时间内完成大量的 3D 模型生成任务,省去了人工制作的繁琐过程,大大提高了生产效率。高精度准确:高精度准确:借助机器学习和深度学习算法,AI赋能3D建模能够分析海量的 3D 数据,并根据学习到的规律生成高度准确的 3D 模型,减少了人为误差。多领域适用:多领域适用:无论是游戏、影视、建筑、产品设计还是虚拟现实等领域,AI赋能3D建模都能够提

25、供可定制化的解决方案,满足各行各业的需求。AI赋能赋能3D建模的意义:建模的意义:3D建模是未来内容创作者工作中的一个环节,但未来的建模是未来内容创作者工作中的一个环节,但未来的3D世界需要足够庞大的世界需要足够庞大的3D资产作为其资产作为其中的“基建”,其建设效能提高有着重要的意义。中的“基建”,其建设效能提高有着重要的意义。192.2 AI赋能赋能3D建模有望提升相关研发设计软件市场规模建模有望提升相关研发设计软件市场规模 在工业设计领域,在工业设计领域,AI+3D建模主要可以应用于建模主要可以应用于CAD、BIM、EDA三大设计工具三大设计工具。对于CAD而言,AI赋能CAD可以加快三维

26、模型的设计过程;对于BIM,AI赋能BIM可以帮助BIM软件优化工程设计如管线排布方案,提升工程项目的生产效率、提高建筑质量、缩短工期、降低建造成本。对于EDA,随着2.5D/3D IC设计的加速发展,AI赋能EDA有望快速实现系统级全流程3D设计。综上,AI赋能3D建模进一步提升了CAD、BIM、EDA三类研发设计类工具的价值量,从而有望扩大其当前市场规模。图表:全球BIM市场规模及预测(单位:亿美元)资料来源:Transparency Market Research,中泰证券研究所图表:全球CAD市场规模(单位:亿美元)资料来源:CIMdata,e-works,中泰证券研究所图表:全球ED

27、A市场规模及预测(单位:亿美元)资料来源:CIMdata,e-works,中泰证券研究所55606570758085200202021全球CAD市场规模15.9%15.6%15.9%15.9%15.9%14.6%15.2%15.8%14.8%15.8%15.4%14%14%15%15%16%16%17%0204060800全球BIM行业市场规模增速9.0%11.1%2.1%9.6%17.4%0%2%4%6%8%10%12%14%16%18%20%02040608001920202021全球EDA市场空间增速

28、20AI+3D建模的挑战点建模的挑战点 AI+3D建模发展前景远大,但当前也面临较多挑战:建模发展前景远大,但当前也面临较多挑战:目前来看,AI主要被用于辅助3D建模,例如自动化和简化流程、智能化几何形状生成、纹理映射、材质匹配等。长远来看,AI在3D建模中从辅助变为主导力量是发展的大趋势,但这一趋势也面临较多的挑战,主要包括以下几方面:3D数据与资产缺乏:数据与资产缺乏:AI创作对于数据,算法等有着极高的要求。3D内容因其发展历史短、覆盖行业少、公开传播内容少,导致3D数据具有天然稀缺性,目前比较大的3D数据集基本在百万级别,相比于十亿级别的图像数据集有三个数量级的差距,并且数据质量和一致性

29、较差,制约了模型的“想象力”,比如没有见过的物品或者组合。这些因素限制下,目前3D数据集难以训练出高质量的3D模型。AI训练难度高:训练难度高:三维模型的数据量、复杂度远高于2D的文字和图片,直接计算学习的难度和成本远高于2D数据,AI如果直接使用2D扩展成3D模型,即使拥有足够的数据,但极大的计算量会导致速度的劣势。同时,撰写脚本使其创作符合要求的作品也是一个巨大的难题。AI实时渲染技术有限:实时渲染技术有限:目前AI渲染能力暂时无法满足真正的使用需求,多次输入相同关键词的情况下,渲染的图会逐渐变得模糊甚至走形。商业化落地难度大:商业化落地难度大:目前一些较火的建模工具都尚未开源,AI的3D

30、创作在落地场景、可行性的商业化路径、技术风险等方面都尚无法达到工业化的生产标准,更多仍处于前期探索阶段。21CONTENTS目录CCONTENTS专 业 领 先 深 度 诚 信专 业 领 先 深 度 诚 信中 泰 证 券 研 究 所中 泰 证 券 研 究 所3当前海外AI+3D探索进展223.1 非工业场景、生成式非工业场景、生成式AI+3D建模的两大路线建模的两大路线 从实现路径上,生成式从实现路径上,生成式3D可以粗略划分为“原生可以粗略划分为“原生3D”和“和“2D升维”两种不同技术路线。升维”两种不同技术路线。核心区别在于是直接文字到核心区别在于是直接文字到3D,还是先到,还是先到2D

31、图像再进一步通过扩散模型或者图像再进一步通过扩散模型或者NeRF生成生成3D。两种路径的选择对于模型的生成质量、速度和丰富两种路径的选择对于模型的生成质量、速度和丰富性有决定性的影响。性有决定性的影响。图表:3D生成技术路线及典型模型资料来源:读树一帜,腾讯网,中泰证券研究所233.1 非工业场景、生成式非工业场景、生成式AI+3D建模的两大路线各有优缺点建模的两大路线各有优缺点 原生原生3D派:派:原生原生3D 路线主要特点是使用路线主要特点是使用3D数据集进行训练,从训练到推理都基于数据集进行训练,从训练到推理都基于 3D 数据,通常也是基于数据,通常也是基于diffusion模型和模型和

32、transformer模型的方法进行训练,实现从文字模型的方法进行训练,实现从文字/图片输入直接到图片输入直接到3D资产的生成。资产的生成。优势:优势:1)生成速度快:)生成速度快:2D升维通常利用 2D 扩散生成模型来指导 3D 表示(如 NeRF)的优化,需要很多步迭代导致非常耗时,而3D原生的生成通常可以在1min以内完成,类似2D的文生图;2)生成质量高:)生成质量高:在特定范围内能够生成质量较高的3D资产,比如通过高质量的3D人脸数据可以训练出4k以上高质量的3D人脸,同时避免了2D升维的多面等问题;3)兼容性好:)兼容性好:通常有几何和纹理的分别生成,可以直接在标准图形引擎中进行后

33、续编辑。劣势:劣势:丰富性不足,丰富性不足,原生3D生成的问题在于缺乏高质量、大规模的3D数据集。代表模型:代表模型:Get3D(Nvidia)、Shap-E(OpenAI)、Dreamface(影眸科技)2D升维派:升维派:通过通过 2D 生成模型(如生成模型(如 Imagen、diffusion model)生成多个视角的)生成多个视角的 3D 视图,然后用视图,然后用 NeRF 重建。重建。背后背后核心逻辑是核心逻辑是3D数据集的匮乏难以满足丰富的数据集的匮乏难以满足丰富的3D生成需求,生成需求,在2D的文生图红红火火的背景下开始越来越多的研究者试图基于海量的2D图像数据来实现3D的生成

34、,并取得了飞速的进展。优势:优势:可以利用大量的2D图像数据进行预训练,数据的丰富性使生成的3D模型复杂度提高,富有“想象力”。劣势:劣势:1)生成速度慢:)生成速度慢:NeRF的训练和推理过程都需要大量的计算资源。因为需要对3D空间进行密集的采样,这也导致了生成速度较慢;2)生成质量较低)生成质量较低:NeRF更擅长合成视角而非精确重建,受限于采样数量、视角数量及计算资源的平衡,目前2D升维生成3D在分辨率、纹理细节都还比较粗糙,以及2D升维3D过程中的一些非理想效应的存在,导致整体的生成质量还有较大提升空间;3)兼容性问题:)兼容性问题:NeRF格式无法直接在Unity等3D引擎中进行后续

35、的编辑,需要经过一定的转换处理才能编辑。代表模型:代表模型:Dreamfield、Dreamfusion(Google)、Point-E(OpenAI)、Magic3D(Nvidia)、ProlificDreamer(生数科技)、One-2345。243.1.1 3D原生派:原生派:OpenAI的的Shap-E 2023年5月,继文本生成图片模型 DALLE 之后,OpenAI 再次发布了 ShapE 模型。用户可以直接输入文本,用于创建逼真且多样化的 3D 模型。ShapE 并不仅只是一个3D 模型生成器,而且可以直接生成隐式函数(implicit functions)的参数,而这些参数可以

36、渲染纹理网格(textured meshes)和神经辐射场(NeRF)。这意味着 ShapE 和当前仅输出点云(point clouds)或体素(voxels)的模型不同,可以生成具有细粒度纹理和复杂形状的高质量可以生成具有细粒度纹理和复杂形状的高质量 3D 资产,这使得生成的模型可以轻松资产,这使得生成的模型可以轻松导入到导入到3D软件中进行后续处理。软件中进行后续处理。ShapE的具体训练过程如下:训练一个3D编码器,将3D资源确定性地映射为隐含函数的参数;在编码器的输出上训练一个条件扩散模型。在大量成对的3D和文本数据集上训练后,Shap E能够在短短几秒钟内生成复杂且多样化的3D资源。

37、较上一代3D生成模型Point-E而言,Shap-E收敛速收敛速度更快,生成质量更好。度更快,生成质量更好。OpenAI 展示了 ShapE 的一些实操结果,例如一碗食物,一只企鹅,一只体素化的狗,一个篝火,一把鳄梨形的椅子等,结果显示整个图片可以在几秒内完成渲染。图表:Shap-E一些生成3D模型的示例资料来源:IT之家,中泰证券研究所253.1.2 2D升维派:升维派:Google的的DreamFusion 2022年9月29日,Google发布了文生3D的技术DreamFusion。DreamFusion利用预训练的 2D 文本到图像扩散模型,首次在无需 3D 数据的情况下完成开放域的文

38、本到 3D 的合成。DreamFusion的工作原理:通过的工作原理:通过 2D 生成模型(如生成模型(如 Imagen)生成多个视角的)生成多个视角的 3D 视图,然后用视图,然后用NeRF(神经辐射场)(神经辐射场)重建,合成得到物体的重建,合成得到物体的3D模型。模型。具体如下:文本转文本转2D:利用Imagen模型,将文本提示生成为对应二维图像;DreamFusion的优化迭代:的优化迭代:1)随机采样摄像头和光线,2)渲染来自该摄像头的NeRF图像,并使用光线着色,3)计算SDS(分数蒸馏采样,Score Distillation Sampling)损失相对于NeRF参数的梯度,4)

39、用优化器更新NeRF参数。DreamFusion的优势与不足:的优势与不足:优势:无需3D数据即可完成文本到3D的生成;不足:1)受限于Imagen分辨率,3D 合成模型往往缺乏精细细节,而使用更高分辨率的的扩散模型和更大的 NeRF则会产生多层迭代带来的生成效率问题;2)不同摄像头视角间的一致性较难以保证。图表:DreamFusion的优化迭代步骤图示资料来源:AI-Scholar,中泰证券研究所图表:NeRF工作原理图解资料来源:AI-Scholar,中泰证券研究所263.1.2 2D升维派:升维派:NVIDIA的的Magic3D 2022年年11月,英伟达推出了月,英伟达推出了AI工具工

40、具 Magic3D,可以基于文本描述自动生成,可以基于文本描述自动生成 3D 模型,对标谷歌的模型,对标谷歌的 DreamFusion。与 DreamFusion 使用文本到图像模型生成 2D 图像,然后优化为体积 NeRF(神经辐射场)数据的方式类似,Magic3D 的渲染过程也分为两个步骤,将低分辨率生成的粗略模型优化为高分辨率,最终生成高保真的 3D 内容,并且很容易在标准图形软件中导入和可视化。第一阶段,Magic3D 优化了类似于 DreamFusion 的粗略神经场表征,以实现具有基于哈希网格(hash grid)的内存和计算的高效场景表征。第二阶段,该方法切换到优化网格表征。这一

41、步骤在高达 512 512 的分辨率下利用扩散先验。由于 3D 网格适用于快速图形渲染,可以实时渲染高分辨率图像,因此该方法利用基于光栅化的高效微分渲染器和相机特写来恢复几何纹理中的高频细节。图表:Magic3D技术pipeline图示资料来源:NVIDIA,将门创投,中泰证券研究所273.1.2 2D升维派:升维派:NVIDIA的的Magic3D Magic3D 还可以执行基于提示的 3D 网格编辑:给定低分辨率 3D 模型和基本提示,可以更改文本从而修改生成的模型内容。此外,作者还展示了保持画风,以及将 2D 图像样式应用于 3D 模型的能力。Magic3D生成效果对比:生成效果对比:为了

42、对比实际应用效果,英伟达的研究人员把 Magic3D 和谷歌的 DreamFusion 在 397 个文本提示生成的内容上进行了比较。平均而言,粗略模型生成阶段花费 15 分钟,精细阶段则训练 25 分钟,所有运行时间均在 8 块英伟达 A100 GPU 上测得。无论是DreamFusion还是Magic3D,目前而言他们更多的可能用途可能均集中于给游戏和元宇宙世界提供制作海量 3D 模型,而且让所有人都可以上手使用。图表:Magic3D生成图片示例资料来源:NVIDIA,将门创投,中泰证券研究所图表:Magic3D可修改提示词来修改生成的模型资料来源:NVIDIA,将门创投,中泰证券研究所2

43、83.2 AI+3D之于工业场景:衍生式设计(生成式设计之于工业场景:衍生式设计(生成式设计/创成式设计)创成式设计)和非工业场景有所区别的是,由于工业生产制造场景对准确度、精度的要求较高,目前由于工业生产制造场景对准确度、精度的要求较高,目前AI赋能赋能3D建模在工业制造领域建模在工业制造领域主要集中于研发设计阶段,且目前仍以辅助式手段的角色存在。主要集中于研发设计阶段,且目前仍以辅助式手段的角色存在。在工业生产制造领域内,AI+3D主要以衍生式设计(又称生成式设计/创成式设计)的形式存在。衍生式设计是模仿自然的进化设计方法。衍生式设计是模仿自然的进化设计方法。设计师或工程师将设计目标输入到

44、生成设计软件中,以及材料,制造方法和成本限制等参数。软件会探索解决方案的所有可能排列,快速生成设计备选方案,然后软件自己测试并从每次迭代中学习哪些有效,哪些无效。具体步骤如下:设计师根据重量,成本,材料,体积和强度等约束条件输入要求。计算机使用算法和AI生成数千种设计,同时对每种设计进行性能分析。设计师研究选项,并允许改变设计目标,允许人类进入设计迭代循环。计算机还使用其AI来创建预先验证的解决方案。该文件已导出,可以生成原型。如果设计师和工程师对结果不满意,或者希望探索其他选项,可以根据需要重复步骤3。图表:椅子的Autodesk Dreamcatcher示例设计资料来源:埃森哲,中泰证券研

45、究所图表:当前衍生式设计的主要应用领域资料来源:工业设计小朱,中泰证券研究所293.2.1 PTC:Creo的创成式设计功能的创成式设计功能 PTC的Creo产品集成了创成式设计及与其密切相关的拓扑优化工具。Creo 创成式设计利用云的强大功能优化产品设计。同时探索众多创新设计选项,并自动突出显示选项。创成式设计可在 Creo 设计环境中提供高质量、低成本、可制造的设计。借助 Creo 创成式设计,在更短的时间内交付最佳设计。Creo把创成式设计分为两个版本,单机可用的称为创成式拓扑优化(创成式拓扑优化(Generative Topology Optimization,GTO),),另外一种通

46、过云,称为创成式设计扩展(创成式设计扩展(Generative Design Extension,GDX)。GDX利用云的力量同时生成多个设计,自动识别出最佳选项以供用户审核。在GDX中生成的设计可以返回Creo进行进一步细化和分析。某种程度上,GDX强化了GTO的功能,以进一步节省时间和材料成本、减少浪费并最终生成具有更高性能的设计。图表:PTC的Creo具备创成式设计功能资料来源:PTC官网,中泰证券研究所303.2.2 Autodesk:面向制造业和:面向制造业和AEC提供衍生式设计能力提供衍生式设计能力 Fushion 360提供面向制造业的衍生式设计能力。提供面向制造业的衍生式设计能

47、力。Autodesk在Fushion 360中添加了衍生式设计能力,使得其可以为制造业用户提供衍生式设计选项,从而加快其产品开发流程。Fushion 360可生成 CAD 就绪的可编辑几何形体,以立即在 Fusion 360 中进行编辑或导出到用户所选的 CAD 软件,设计出来的衍生式设计几何形体与 Inventor 无缝集成,可最大限度地提高效率和改进协作。具体而言,Fushion 360的衍生式设计能力在制造业中的优势主要体现在以下几方面:轻量化:轻量化:快速确定解决方案以最大限度减少重量和材料使用量,同时保持性能标准、满足设计目标并遵循工程约束。性能影响:性能影响:使用衍生式设计评估多种

48、制造方法,并找到解决方案来提高和优化产品耐用性并消除薄弱区域。零件整合:零件整合:探索一系列设计解决方案,使用户能够将多个零部件整合为实体零件,从而降低装配成本并简化供应链。可持续性:可持续性:利用衍生式设计来减轻产品重量、减少生产浪费并帮助选择更具可持续性的材料,从而实现可持续性目标。图表:Fushion 360为制造业提供衍生式设计能力资料来源:PTC官网,中泰证券研究所313.2.3 Zuken:发布由人工智能驱动的:发布由人工智能驱动的PCB Layout工具工具 在2023年9月份的研讨会上,Zuken宣布即将推出一种革命性的人工智能辅助PCB设计方法。这项名为AIPR(Autono

49、mous Intelligent Place and Route)的新技术将作为Zuken现有的CR-8000平台的一部分,预计于2024年第一季度提供,通过利用机器学习,使 PCB 设计的效率和准确性达到新的水平。这种AIPR技术包括一款名为智能布线器(Smart Autorouter)的新型布线引擎,该引擎基于一种名为“Brain(大脑)”的创新技术进行机器学习。Brain 将分为三个能力阶段,从基础Brain开始,然后是未来的扩展动态Brain,以及最高级别的自主学习Brain。图表:Zuken即将发布的人工智能驱动的PCB Layout工作机理图示资料来源:吴川斌的博客,中泰证券研究所第一阶段,第一阶段,基础Brain 通过学习 Zuken 的设计实例库和现有的设计专业知识,在基础阶段彻即可底改变传统的PCB 设计体验。第二阶段,第二阶段,Zuken的“动态Brain”将从新创建的PCB设计中学习,利用过去的设计示例并将其集成到人工智能算法中。将客户的最佳实践与人工智能见解相结合将加速设计迭代并显着提高整体生产力。第三阶段,第三阶段,对应的是自主Brain,这是一个人工智能驱动的持续学习模式动力源,突破了创造力的界限。自主Brain 在每个项目中自我改进的能力将预示着人工智能驱动创新的新时代,并且仅在 Zuken 的 CR-8000 平台中提供。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(2024AI+3D行业发展前景及海外AI+3D探索进展分析报告(30页).pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
相关报告
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部