《2023AIGC在内容行业的应用及产业链重点企业梳理报告.pdf》由会员分享,可在线阅读,更多相关《2023AIGC在内容行业的应用及产业链重点企业梳理报告.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、2023 年深度行业分析研究报告 目录目录 人工智能应用已经进入高速发展阶段人工智能应用已经进入高速发展阶段.5 AI 能力迭代速度加快.5 AIGC 多模态交互能力持续进化.6 AIGC 领域历经多种技术路线演化领域历经多种技术路线演化.12 大语言模型的主要技术路径均基于 TRANSFORMER.12“涌现能力”令人惊艳,但原理仍是谜团.13 其他模态 AIGC 基于各自领域小模型发展.16 国内发展大语言模型面临的挑战国内发展大语言模型面临的挑战.18 数据成本:海量的优质数据以及处理数据的经验方法.18 算法开发成本:富有经验的工程师人才.21 算力成本:超大规模的计算资源与资本投入.
2、22 AIGC 颠覆人机交互模式,创造全新内容形态颠覆人机交互模式,创造全新内容形态.26 人机交互形式正在发生颠覆式变化.26 内容生产效率提升,创新的内容形态正在酝酿.29 AIGC 产业链和推荐关注标的产业链和推荐关注标的.34 图表目录图表目录 图表图表 1.人工智能技术的发展历程人工智能技术的发展历程.5 图表图表 2.感知型感知型 AI 和决策型和决策型 AI 常常融合在一个系统中执行任务常常融合在一个系统中执行任务.6 图表图表 3.分析型分析型 AI 常用作智能推荐常用作智能推荐.7 图表图表 4.生成式生成式 AI 通常以模态进行划分通常以模态进行划分.7 图表图表 5.AI
3、GC 发展历程发展历程.8 图表图表 6.生成式生成式 AI 有多种多样的算法模型有多种多样的算法模型.8 图表图表 7.Transformer 由编码器(由编码器(Encoder)和解码器(和解码器(Decoder)两部分组成)两部分组成.9 图表图表 8.Stable Diffusion Reimagine,Midjourney,DALL-E2 生成图生成图.10 图表图表 9.Make-A-Video,Imagen,NETFLIX 生成视频生成视频.10 图表图表 10.OneNote 语音听写语音听写.11 图表图表 11.MusicLM.11 图表图表 12.语言模型的演进过程语言模
4、型的演进过程.12 图表图表 13.ChatGPT 训练过程训练过程.13 图表图表 14.“涌现能力涌现能力”广泛存在于自然界以及物理学、经济学等领域广泛存在于自然界以及物理学、经济学等领域.13 图表图表 15.“涌现能力涌现能力”通常出现在由多步骤构成的复杂任务中通常出现在由多步骤构成的复杂任务中.14 图表图表 16.上下文学习能力(上下文学习能力(in-context learning)是涌现效应的部分证明)是涌现效应的部分证明.14 图表图表 17.涌现现象原理的涌现现象原理的猜想之一是任务的评价指标不够平滑猜想之一是任务的评价指标不够平滑.15 图表图表 18.涌现现象原理的涌现
5、现象原理的猜想之二是复杂任务之内有不同层次之间的信息交互整猜想之二是复杂任务之内有不同层次之间的信息交互整合合.16 图表图表 19.主流图像主流图像 AIGC 对对比比.17 图表图表 20.TTS 中的技术步骤中的技术步骤.17 图表图表 21.GPT-3 的研发成本拆分的研发成本拆分.18 图表图表 22.GPT-3 所采用的训练数据集所采用的训练数据集.18 图表图表 23.Common Crawl 中各种语言的比例中各种语言的比例.19 图表图表 24.全球主要地区数据规模变化全球主要地区数据规模变化.19 图表图表 25.现实世界充满了大量低频但重要的长尾数据现实世界充满了大量低频
6、但重要的长尾数据.20 图表图表 26.消费级应用消费级应用 1 亿用户达成时长亿用户达成时长.20 图表图表 27.ChatGPT 团队中的华人学者团队中的华人学者.21 图表图表 28.算法开发成本算法开发成本.21 图表图表 29.目前国内富有经验的工程师人才目前国内富有经验的工程师人才.22 图表图表 30.云服务下云服务下 GPT-3 算力成本拆分算力成本拆分.23 图表图表 31.基于自建算力的硬件购置成本基于自建算力的硬件购置成本-训练阶段训练阶段.23 图表图表 32.规模化应用主要的降本环节规模化应用主要的降本环节.24 图表图表 33.目前国内主要的大模型目前国内主要的大模
7、型.24 续图表续图表 33.目前国内主要的大模型目前国内主要的大模型.25 图表图表 34.AI-智能家居解决方案智能家居解决方案.26 图表图表 35.New Bing 带来全新的搜索体验带来全新的搜索体验.26 图表图表 36.通用大语言模型赋能后人机交互全环节对比通用大语言模型赋能后人机交互全环节对比.27 图表图表 37.ChatGPT 交互模型交互模型.27 图表图表 38.ChatGPT 插件功能插件功能.28 图表图表 39.New Bing 的编程能力的编程能力.28 图表图表 40.New Bing 的绘画能力的绘画能力.28 图表图表 41.365Copilot 应用应用
8、.29 图表图表 42.Auto-GPT.29 图表图表 43.Auto-GPT 的评价及缺陷的评价及缺陷.29 图表图表 44.AIGC 与传统内容生产对比与传统内容生产对比.30 图表图表 45.AIGC 助力内容生产助力内容生产.30 图表图表 46.AIGC 现有美术应用现有美术应用.31 图表图表 47.NVIDIA Research 的的 AI 模型模型.31 图表图表 48.AI 语音应用方向及案例语音应用方向及案例.32 图表图表 49.AI 语音生成未来市场规模语音生成未来市场规模.32 图表图表 50.ChatGPT 的编程能力的编程能力.32 图表图表 51.国内国内 a
9、iXcoder XL 智能编程大模型智能编程大模型.32 图表图表 52.使用使用 New Bing 总结文献总结文献.33 图表图表 53.Research GPT.33 图表图表 54.AIGC 产业链图谱及代表企业产业链图谱及代表企业.34 图表图表 55.AIGC 上游相关标的上游相关标的.35 图表图表 56.AIGC 产业链中游相关标的产业链中游相关标的.36 续图表续图表 56.AIGC 产业链中游相关标的产业链中游相关标的.37 图表图表 57.AIGC 产业链下游应用相关标的(产业链下游应用相关标的(1).38 续图表续图表 57.AIGC 产业链下游应用相关标的(产业链下游
10、应用相关标的(1).39 图表图表 58.AIGC 产业链下游应用相关标的(产业链下游应用相关标的(2).40 图表图表 59.AIGC 产业链下游应用相关标的(产业链下游应用相关标的(3).41 续图表续图表 60.AIGC 产业链下游应用相关标的(产业链下游应用相关标的(3).42 人工智能人工智能应用应用已经已经进入进入高速高速发展阶段发展阶段 AI 能力迭代速度加快能力迭代速度加快 人工智能的研究目的人工智能的研究目的是是使机器能够模拟人类的智能行为,从而扩展人类的能力。使机器能够模拟人类的智能行为,从而扩展人类的能力。于是研究者通过赋予智能主体听觉(语音识别、机器翻译等)、视觉(图像
11、识别、文字识别等)、自然语言能力(语音合成、人机对话等)、思考(人机对弈、专家系统等)、学习(知识表示,机器学习等)和行动(机器人、自动驾驶汽车等)的能力来实现。AI 技术自诞生以来,经历了多个技术研究以及应用方向,目前已经进入了飞速发展阶段,智慧能力愈发强大且迭代速度加快。图表图表 1.人工智能技术的发展历程人工智能技术的发展历程 资料来源:CSDN,搜狐网,腾讯云等,中银证券整理 AI 诞生诞生以及规则驱动时期以及规则驱动时期(1943-1980s):1950 年,艾伦 麦席森 图灵(Alan Mathison Turing)提出了“图灵测试”,其目的是检验机器是否可以表现出与人类难以区分
12、的智能,这一想法引发了机器产生智能的探讨。1956 年的达特茅斯会议首次提出了“人工智能”概念和理论。随后,人工智能领域出现了符号主义、联结主义(神经网络)等不同的研究方向,也取得了许多重要成果,如机器定理证明、跳棋程序和人机对话等。在 1957 年,Frank Rosenblatt 设计了第一个计算机神经网络,被称为感知机,它被认为是第一个成功应用神经网络原理解决实际问题的算法。随后的 1958 年,赫伯特 西蒙和艾伦 纽厄尔演示了第一个人工智能程序,名为逻辑理论家(LT-Logic Theorist)。早期的早期的 AI 研研究重点在于利用规则系统来模拟人类思维,采用一系列预先设定的规则来
13、完成推理、分类等任务究重点在于利用规则系统来模拟人类思维,采用一系列预先设定的规则来完成推理、分类等任务。知识系统时期知识系统时期(1980s):从 1970 年代开始,学术界开始接受了一种新的思路:人工智能不仅需要人工智能不仅需要研究解决问题的方法,还需要引入知识。研究解决问题的方法,还需要引入知识。1977 年的世界人工智能大会上,提出了“知识工程”的概念。专家系统应运而生,它们模拟人类专家的知识和经验,用于解决特定领域的问题,这标志着人工智这标志着人工智能从理论研究转向了实际应用能从理论研究转向了实际应用。日本的第五代计算机计划和英国的阿尔维计划等一系列计划推动了专家系统的高速发展。在这
14、个时期,卡内基梅隆大学的 XCON 系统和 Stanford 医学专家系统等重要成果的出现使得专家系统在医疗、工业、金融等领域得到广泛应用。人工智能的研究方法也从逻辑推理、搜索算法等领域扩展到了知识表示、推理和学习等多个方面。机器学习机器学习时期时期(1990s-2010 年年):在这一时期,机器学习成为了机器学习成为了 AI 发展的焦点,发展的焦点,这种学习方式是通过算法根据给定的输入数据和对应的输出数据进行学习,从而发现规律和模式,并且能够对新的样本做出判断、识别或预测。机器学习方法包括支持向量机、决策树、朴素贝叶斯等。IBM 成为了彼时 AI 领域的领导者:1997 年,由 IBM 开发
15、的超级电脑“深蓝”战胜了国际象棋世界冠军卡斯帕罗夫,这是人工智能在智力运动方面的一次重大胜利。2006 年,企业开始引领 AI 发展,谷歌的塞巴斯蒂安 特龙领导了自动驾驶汽车项目,企业对人工智能的投资也为其发展注入了强劲动力。深度深度神经网络神经网络时期时期(2011 年至今年至今):2010 年代以来,AI 在以深度神经网络为代表的发展过程中,取得了在感知方面的重要进展,例如语音处理、图像分类、视频处理、知识问答、人机对弈、无人在感知方面的重要进展,例如语音处理、图像分类、视频处理、知识问答、人机对弈、无人驾驶等。驾驶等。2011 年,IBM 的沃森(Watson)在一档美国电视智力竞赛节目
16、危险边缘(Jeopardy!)中战胜人类选手获得冠军;同年,苹果推出了自然语言问答工具 Siri。谷歌于 2012 年正式发布谷歌知识图谱(Google Knowledge Graph)。2015 年,马斯克等人共同创建 OpenAI,其发布的热门产品包括 OpenAI Gym 和 GPT 等。2016 年,谷歌旗下 DeepMind 公司推出的阿尔法围棋(AlphaGo)战胜围棋世界冠军李世石。2018 年,谷歌发布了自然语言生成模型 BERT,成为 NLP 领域的重要进展。同时,DeepMind 发布的新版本阿尔法围棋(AlphaGo Zero)在没有人类知识的情况下自我学习并战胜前一版阿
17、尔法围棋(AlphaGo)。2019 年,OpenAI 发布了语言生成模型 GPT-2;2022 和 2023 年先后发布了 GPT-3.5 和 GPT-4.0。自主学习时期(未来方向):自主学习时期(未来方向):这个阶段是指未来的发展趋势,AI 系统能够自己收集、整理和分析数据,并根据这些数据进行自我学习和优化,不断改进自己的性能,具备更高的智能水平具备更高的智能水平,并逐渐适应更加复杂和多变的环境和任务,甚至可能出现自我意识甚至可能出现自我意识。AIGC 多模态交互能力持续进化多模态交互能力持续进化 从应用类型来看,从应用类型来看,AI 可以分为四类,但这四种类型不是可以分为四类,但这四种
18、类型不是完全独立的,完全独立的,实际中的实际中的 AI 应用应用可以涵盖多可以涵盖多种类型的技术。种类型的技术。本篇报告主要讨论的是生成式本篇报告主要讨论的是生成式 AI 应用(应用(AIGC)。)。1)感知型感知型 AI:基于计算机视觉、语音识别等感知技术的 AI 应用,应用于人脸识别、目标行为识别、工业场景视觉识别、全屋智能家居等。这类 AI 通常是通过对输入数据进行分类、聚类等简单处理来实现对环境的理解,而且通常不需要进行复杂的推理和决策。2)决策型决策型 AI:通过与外界的交互,自主学习并不断优化策略,以实现最优的决策和行动,应用于棋类策略游戏、无人驾驶、铁路调度系统、投资决策系统等等
19、。图表图表 2.感知型感知型 AI 和决策型和决策型 AI 常常融合在一个系统中执行任务常常融合在一个系统中执行任务 资料来源:创新奇智官网,中银证券整理 3)分析型分析型 AI:基于数据挖掘、机器学习等数据分析技术的 AI 应用,主要通过对大量数据的分析和挖掘,构建模型和算法来预测未来趋势、发现隐藏规律、优化决策等。应用于内容推荐、金融保险风控、商业分析、拦截垃圾邮件等场景。以字节跳动的推荐算法“灵驹”为例,该算法通过对平台用户的基本特征、行为数据进行归纳分析,打上专属标签,实现内容和广告的精准推送。Instagram、YouTube 等社交媒体巨头使用的核心推荐算法有 Reels、Feed
20、 等,亚马逊则通过 FBT 算法(Frequently Bought Together)推荐用户搜索过的类似商品。图表图表 3.分析型分析型 AI 常用作智能推荐常用作智能推荐 资料来源:界面新闻,中银证券 4)生成式生成式 AI:即 AIGC,是指利用生成式 AI 技术,例如深度学习、自然语言处理等,让机器能够自动地创造文本、图像、音频、视频等多媒体内容。其工作方式是基于学习和推理,通过大量数据训练来学习规律并创造新的内容,而非仅仅分析现有的数据。生成式 AI 可以通过输入一些参数或者文本,生成出符合语义的自然语言或者图像,应用场景包括自然语言生成、机器翻译、图像生成、音频合成等。图表图表
21、4.生成式生成式 AI 通常以模态进行划分通常以模态进行划分 资料来源:36氪,中银证券 AIGC 的发展与整体人工智能技术的发展历程基本相同,但在机器学习和深度神经网络发展阶段获的发展与整体人工智能技术的发展历程基本相同,但在机器学习和深度神经网络发展阶段获得了加速进步。得了加速进步。小范围探索应用小范围探索应用(1950s-1960s):早在 1957 年,第一支由计算机创作的弦乐四重奏依利亚克组就已经出现。随后,第一款可与人进行对话的机器人“Eliza”于 1966 年问世。80 年代中期,IBM 创造的语音控制打字机 Tangora 也出现在市场上。然而,由于高昂的成本以及难以商业化的
22、原因,从80 年代末到 90 年代中期,AIGC 仅能进行小范围的实验和应用,资本投入也因此受到了限制。自主化生成能力尚弱自主化生成能力尚弱(1990s-2010s):AIGC 正逐渐从实验性向实用性转变,开始探索利用人工智能技术生成新闻、音乐、诗歌等内容。其中包括世界上第一部完全由人工智能创作的小说 1 The Road。然而,在这一阶段,AIGC 仍然受限于算法瓶颈和模板的缺陷,只能通过预先设置的规则和算法来生成内容,缺乏个性化和创意性。因此,AIGC 尚未达到真正的自主化水平。深度学习促进深度学习促进快速发展快速发展(2010s-至今至今):AIGC 的发展得到了深度学习算法不断迭代更新
23、的助力,例如生成对抗网络(GAN)、变分自编码器(VAE)和语言模型等。AIGC 内容变得百花齐放,往往能在短时间内快速生成,在一定程度上达到人类难以分辨的效果。这引起了许多知名机构和公司的关注和投入,他们开始大量研发和应用 AIGC 技术:2017 年微软人工智能产品“小冰”推出世界首部 100%由人工智能写作的诗集阳光失了玻璃窗;NVIDIA(英伟达)2018 年发布 StyleGAN 模型可自动生成图片;DeepMind 于 2019 年发布 DVD-GAN 模型可生成连续视频。2022 年,OpenAI 推出了人工智能聊天原型 ChatGPT,这种文本生成模态应用模型能理解并生成文字;
24、同年,Diffusion 扩散化模型出现,直接推动了 AIGC 技术在图像生成领域的突破性发展。图表图表 5.AIGC 发展历程发展历程 资料来源:36kr,CSDN,中银证券整理 由于文本生成由于文本生成 AI 模型研究模型研究较早较早、应用较多,因此本篇、应用较多,因此本篇报告报告将主要围绕以将主要围绕以 GPT 模型为代表的文本生模型为代表的文本生成成 AI 进行探讨。进行探讨。经过多年的发展,自然语言生成 AI 经历了从早期的简单语义匹配到如今交互式生成文本的演变。早期的客服机器人通过简单的语音关键词识别,仅能提供固定的答案,无法真正理解用户的意图。随着神经网络的发展,端到端的深度学习
25、算法逐渐被应用到各个领域,以 DSSM 为典型代表的神经网络匹配模型被提出,可以更灵活地进行文本相似度匹配运算。2018 年,OpenAI 提出了第一代 GPT模型,将自然语言处理带入大规模预训练语言模型时代,使得交互式文本生成成为可能,可以生成高质量的自然语言文本,包括新闻、对话、小说等。图表图表 6.生成式生成式 AI 有多种多样的算法模型有多种多样的算法模型 资料来源:OpenAI、Meta等公司官网,中银证券整理 在自然语言生成在自然语言生成 AI 领域,领域,GPT 和和 BERT 是最具代表性的是最具代表性的两个两个语言模型。语言模型。它们都基于 Transformer架构演变而来
26、,但是分别对应 Transformer 架构的不同部分:Transformer 模型由编码器和解码器两部分组成,编码器用于将输入序列编码成抽象的表示,解码器用于将这个抽象表示解码成输出序列。GPT 模型主要是基于 Transformer 的解码器(Decoder)部分,主要用于文本生成任务,如文本自动完成、对话生成、文章摘要等;而 BERT 模型主要是基于 Transformer 的编码器(Encoder)部分,主要用于自然语言理解任务,如问答系统、文本分类、相似度比较等。这两种模型的不同特点,使得它们在不同的自然语言处理任务中发挥着重要的作用,对于 AI 技术的发展也有着重要的推动作用。同时
27、,它们的成功也为更多的 AI 模型和应用提供了借鉴和启示。图表图表 7.Transformer 由编码器(由编码器(Encoder)和解码器(和解码器(Decoder)两部分组)两部分组成成 资料来源:Kikaben,中银证券 图像生成图像生成 AI 通过分析转换用户输入的文字,生成符合客户需求的图像。通过分析转换用户输入的文字,生成符合客户需求的图像。代表性的图片生成模型包括 Stability AI 的 Stable Diffusion Reimagine、OpenAI 的 DALL-E 2 和 Midjourney,三款应用各有所长。Stable Diffusion Reimagine
28、是一种基于扩散化模型的深度学习模型,它采用了先进的概率推理算法,用户只需要上传一张图片,该平台会自动生成 3 张联想图片,并且支持更细致化的编辑;与传统的生成式 AI 相比,Stable Diffusion Reimagine 在生成内容时可以更好地控制输出结果的多样性和一致性。基于开源的 Stable diffusion,清华大学在自研大模型 Chat GLM 中组合了 FlagStudio 功能,支持中英文双语、多种风格艺术的图片生成,包括国画、摄影、油画、水彩等。Midjourney 是一家人工智能生成艺术内容平台,使用深度学习技术和生成对抗网络(GAN)来生成图片。技术路径主要涉及两个
29、阶段:第一阶段是使用 GAN 生成一系列随机噪声图像,然后在第二阶段中,使用一个预训练的图像分类器来筛选出最优图像。这种方法可以帮助生成具有高度复杂性和多样性的图像,并且可以根据所需的风格和主题进行调整和优化。DALL-E 2 是 OpenAI 推出的一款文本到图像的生成模型,它可以根据给定的文字描述自动生成对应的图片。DALL-E 2 基于 GPT 系列模型和 GAN 系列模型进行训练,具有较高的生成质量和可控性。图表图表 8.Stable Diffusion Reimagine,Midjourney,DALL-E2 生成图生成图 资料来源:Stability AI,Midjourney,O
30、pen AI,中银证券 视频生成式视频生成式 AI:目前视频生成技术成熟度尚不及文字和图片,生成的视频时长较短,清晰度和连续性有待提高。此外,为了生成高质量的视频,需要使用大量的计算资源和大量的数据进行训练。有部分科技公司已经开始了尝试:Meta 于 2022 年 9 月发布 Make-A-Video,通过生成 1 张连续的 64X64像素的 RGB 图片,再提升 768 768 像素,生成高分辨率和帧率的视频。谷歌 2022 年 10 月发布的Imagen Video 可以生成一个每秒三帧,分辨率为 24 x 48 像素的 16 帧电影。Adobe 于 2022 年发布了名为 Project
31、 Clover 的视频生成工具,该工具使用了深度学习技术,可以自动生成视频素材和场景,并将它们组合成完整的视频。在实际运用上,Netflix 与微软小冰、日本制作室 WIT STUDIO 共同创作的首支 AIGC 动画短片 犬与少年,于 2021 年 3 月 4 日首次发布,AI 负责部分动画场景的绘制,以人与 AI 协同创作的模式提升动画创作的效率。图表图表 9.Make-A-Video,Imagen,NETFLIX 生成视频生成视频 资料来源:Make-A-Video,Imagen,NETFLIX,中银证券 音频生成式音频生成式 AI:目前音频生成 AI 的应用主要涵盖两个方面:音频转文字
32、和音乐生成。Microsoft 的OneNote 提供的“人工智能支持”语音听写技术支持超过 50 种语言和多种命令,用户无需使用鼠标或键盘即可将音频转换成文字。而 Google 的音乐生成 AI MusicLM 可以根据输入的文字、图片和标题的组合,生成相应风格的音乐。为了提升音频生成 AI 的质量,Google 在 FMA(Free Music Archive)数据集上训练了 SoundStream 和 w2v-BERT 模型。相比于其他基于文本生成音乐的基线方法(如Mubert、Riffusion 等),MusicLM 所生成的音频质量更高。然而,由于可能涉及盗用创意内容的潜在风险,目前
33、 MusicLM 尚不能发布。图表图表 10.OneNote 语音听写语音听写 图表图表 11.MusicLM 资料来源:Microsoft官网,中银证券 图片来源:Google官网,中银证券 AIGC 领域历经领域历经多种多种技术路线演化技术路线演化 大语大语言模型的言模型的主要主要技术技术路径路径均基于均基于 Transformer 目前,在文本类 AIGC 领域,预训练大语言模型(LLM,如 GPT、BERT 等)是表现最为突出的技术。语言模型是自然语言处理(NLP)的重要组成部分。早期的语言模型以 n-gram 模型为代表,主要基于统计方法。但这类方法在捕捉长距离依赖(句子中相隔较远的
34、词汇之间存在语法或语义关系)和复杂的语言结构等方面存在局限性。随后,NNLM 开创了神经网络在自然语言处理领域的应用,Word2Vec、ELMo 等神经网络模型引入了新的方法并推动了预训练模型的发展。2017 年,Transformer架构摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),完全基于自注意力机制来处理序列数据,从而开启了 NLP 的 Transformer 时代。2018 年,基于年,基于 Transformer 架构的三大主要产品问世,它们是架构的三大主要产品问世,它们是 GPT、BERT 和和 T5。GPT 是一种自回归模型,只使用了 Transformer 的 D
35、ecoder 部分,训练时只考虑了给定词汇前的上下文信息,输出词汇依赖于先前生成的词汇,因此理论上具备更强的生成能力。BERT 则是一种双向语言模型,使用了 Transformer 的 Encoder 部分,在训练中随机对输入序列中的部分词汇进行遮蔽后尝试预测,因此有能力同时捕捉上下文词汇的双向信息。而 T5 模型则采用了完整的 Transformer 架构,其中的Encoder 部分负责理解输入文本,而 Decoder 部分则生成目标文本。随着计算资源的增加,GPT 系列的参数量和语料库规模不断提高。在 2020 年,GPT-3 诞生,它拥有1750 亿个参数,是空前规模的超大模型,开启了超
36、大模型时代。在后续的优化中,在后续的优化中,OpenAI 引入了引入了基于人类反馈的强化学习方法,并借助涌现能力的加持,推出了具有惊人能力的基于人类反馈的强化学习方法,并借助涌现能力的加持,推出了具有惊人能力的 ChatGPT。图表图表 12.语言模型的演进过程语言模型的演进过程 资料来源:CSDN资讯,中银证券 要获得类似 ChatGPT 的产品,首先我们需要具备优质架构下的大规模预训练模型。预训练可以采用自监督学习方法,例如掩码语言模型或自回归模型。在这一阶段,需要使用大量无标签文本数据对模型进行预训练,从而使模型学习文本的潜在结构、语法、语义等信息。具备预训练模型后,还需要进行大量微调、
37、优化和针对性的调整,以满足具体应用的需求。由于语言模型本身致力于预测可由于语言模型本身致力于预测可能性较高的下一个词汇,而非满足人类需求的答案,因此在解决能性较高的下一个词汇,而非满足人类需求的答案,因此在解决该不一致性时,基于人类反馈的强该不一致性时,基于人类反馈的强化学习(化学习(RLHF)起到了重要的作用。)起到了重要的作用。RLHF 的主要步骤如下:第一步是训练监督策略模型:第一步是训练监督策略模型:在数据集中随机抽取问题,由专业标注人员给出高质量答案,形成问答对(QAG)。然后,使用这些人工标注好的数据以回答正确为目标来微调预训练模型,使得模型能够根据输入数据预测相应的输出标签,从而
38、学习两者之间的关系。第二步是训练奖励模型(第二步是训练奖励模型(RM):):这个阶段主要通过人工标注训练数据来训练奖励模型。在数据集中随机抽取问题,使用第一阶段训练得到的模型,对于每个问题,生成多个不同的回答。人类标注者对这些结果综合考虑给出排名顺序,并使用这个排序结果数据来训练奖励模型,以建立人类反馈模型。第三步是使用反馈模型进行强化学习第三步是使用反馈模型进行强化学习:利用第二阶段训练好的奖励模型,通过给微调后 GPT 模型输出的结果打分来持续训练,形成模型与纯自然语言数据的反馈闭环。通过 RLHF,在提升回答质量、适应用户需求、减少不良内容、提高泛化能力等方面,ChatGPT 具备了比前
39、几代模型更好的表现。图表图表 13.ChatGPT 训练过程训练过程 资料来源:CSDN资讯,中银证券 “涌现能力涌现能力”令人惊艳,但原理仍是谜团令人惊艳,但原理仍是谜团 对于对于 ChatGPT 表现出的惊艳效果,模型规模和海量数据带来的涌现能力(表现出的惊艳效果,模型规模和海量数据带来的涌现能力(Emergent Capabilities)功不可没。功不可没。涌现能力是一种不可预测的广泛存在于如物理学、经济学等领域的现象,当一个复杂系统由很多微小个体构成,这些微小个体凑到一起,相互作用,当数量足够多时,在宏观层面上展现出不同于其部分的行为,就可以称之为“涌现现象”。例如,自然界中雪花、气
40、流漩涡的形成,金属中电子的超导性,宏观经济展现出不同于微观经济简单集合之后的特征等。图表图表 14.“涌现能力涌现能力”广广泛存在于自然界以及物理学、经济学等领域泛存在于自然界以及物理学、经济学等领域 资料来源:CSDN资讯,中银证券 在大语言模型领域,涌现能力指的是当模型规模超过一定阈值后,模型可以完成更加复杂的任务并在大语言模型领域,涌现能力指的是当模型规模超过一定阈值后,模型可以完成更加复杂的任务并大大提高精度,甚至具有未经过明确训练的能力。大大提高精度,甚至具有未经过明确训练的能力。研究者发现,“涌现能力”通常出现在由多步骤构成的复杂任务解决中,而在知识密集型的任务中,模型表现仍然保持
41、较为线性的“伸缩法则”(Scaling Law),即随着模型规模的不断增长,任务效果也持续增长。图表图表 15.“涌现能力涌现能力”通常出现在由多步骤构成的复通常出现在由多步骤构成的复杂任务中杂任务中 资料来源:CSDN资讯,中银证券 目前目前 GPT 等大语言模型表现出来的惊人的等大语言模型表现出来的惊人的上下文学习能力(上下文学习能力(in-context learning)就是涌现效应的)就是涌现效应的部分证明。部分证明。上下文学习能力(in-context learning)是指不对模型参数进行调整,而是给大模型几个示例,AI 就可以从类比中学习,但是这种能力需要超过但是这种能力需要超
42、过 40B 的参数数量才能够达到。的参数数量才能够达到。在 GPT 模型表现出的 ICL 之前,很多语言模型都需要针对下游任务进行微调(fine-tuning),但微调过程需要大量的样本参数,否则效果很差,然而标注数据的成本高昂、标注量有限,并且如果数据较少的话,容易导致过拟合,致使模型的泛化能力下降。ICL 不需要 fine-tuning,既节省时间与算力资源,还提升了模型性能。图表图表 16.上下文学习能力(上下文学习能力(in-context learning)是涌现效应的部分证明)是涌现效应的部分证明 资料来源:CSDN资讯,中银证券 业内对大模型涌现能力背后的原理有很多研究和探讨,但
43、目前尚未形成公认的研究结果,包括上文所说的上下文学习能力(in-context learning)也仍是未解之谜。总体来说,涌现能力可总体来说,涌现能力可能源自于大模能源自于大模型内部神经网络之间的相互作用。型内部神经网络之间的相互作用。1)大语言模型内部产生自组织,自组织是指在无中心化的情况下,系统中的个体或部件可以根据相互作用的规则自行组织形成一种结构、模式或行为。在人工智能领域,自组织就是神经网络的节点神经网络的节点(或神经元)之间可以通过反向传播算法进行联合学习和自适应调整,网络内部的节点和连接逐渐(或神经元)之间可以通过反向传播算法进行联合学习和自适应调整,网络内部的节点和连接逐渐形
44、成了一种高度优化的结构,以最大限度地适应训练数据和任务需求形成了一种高度优化的结构,以最大限度地适应训练数据和任务需求。这在任务指标不够平滑时可能尤其凸显。例如,某个任务的评价指标要求很严格,要求一字不错才能通过,那么涌现现象就会出现;但是如果把问题形式换成多选题,给出几个候选答案让模型选择,那么随着模型不断增大,任务效果在持续稳定变好,涌现现象却消失了。相关猜想是,如果评价指标不够平滑,那么在大模型内部,可能存在一些相互作用的神经元或神经网络,它们之间的相互作用可以放大一些微小的信号,从而产生了在训练集之外的新能力。图表图表 17.涌现现象原理的涌现现象原理的猜想之一是任务的评价指标不够平滑
45、猜想之一是任务的评价指标不够平滑 资料来源:CSDN资讯,中银证券 2)大语言模型通过分层抽象的方式来学习复杂的特征和知识,即神经网络将输入的信息进行逐层抽象和提取,从低级别的特征(如边缘、颜色等)到高级别的概念(如物体、场景等),并在不同层在不同层次之间进行信息交互和整合,从而构建出具有复杂性和多样性的特征和知识。次之间进行信息交互和整合,从而构建出具有复杂性和多样性的特征和知识。例如在“国际象棋”任务中,“吃掉对方的将”是 AI 的最终任务,而每一手棋是达成最终任务下的子任务,这些子任务的效果往往会随着模型规模的增大而不断提高,符合“伸缩法则”(Scaling Law),在某个阈值之后,多
46、个子任务之间产生了更高层次的相互作用和协同效应,导致整个模型的效果得到了大幅提升,涌现效应出现。图表图表 18.涌现现象原涌现现象原理的理的猜想之二是复杂任务之内有不同层次之间的信息交互整合猜想之二是复杂任务之内有不同层次之间的信息交互整合 资料来源:CSDN资讯,中银证券 大模型的涌现能力和人类大脑学习知识在最终表现上具有相似性。大模型的涌现能力和人类大脑学习知识在最终表现上具有相似性。人类大脑通过不断接收和处理信息,建立起对世界的认知和理解,这一过程中涉及到的神经元之间的连接不断加强,从而形成更为复杂和准确的认知结构。类似地,大模型也是通过不断接收和处理海量数据,建立起对自然语言或图像等领
47、域的认知和理解,这一过程中涉及到的模型参数之间的连接也会不断加强。不同的是,大不同的是,大模型的学习和推理过程是由算法和数学模型来实现的,而人类大脑则通过一系列生模型的学习和推理过程是由算法和数学模型来实现的,而人类大脑则通过一系列生物介质信号,更物介质信号,更加复杂和灵活。加复杂和灵活。此外,此外,AI 研究者也尝试使用不同的方法提升大模型输出结果的准确性,涌现能力则为这些能力的实研究者也尝试使用不同的方法提升大模型输出结果的准确性,涌现能力则为这些能力的实现提供了基础。现提供了基础。例如,思维链(chain of thought)就是训练大模型的典型方法,它引导模型先展示中间步骤后再引出结
48、论,帮助大型语言模型根据已经理解的内容,自动推理出一些隐含的逻辑关系和推论,从而表现出类似于人类思维链的能力。另外,训练数据中加入的海量代码、数据等也可以帮助大语言模型在算数、推理、常识方面具备更好的表现。加强大模型的复杂推理能力是未来加强大模型的复杂推理能力是未来 AI 研研究的重点课题。究的重点课题。其他模态其他模态 AIGC 基于各自领域小模型基于各自领域小模型发展发展 图像类图像类 AIGC:该类 AIGC 优势之一就是在技术端的成果往往能较快转化为商用,生成效果较突出的产品包括 DALL-E 2、Stable Diffusion 和 Midjourney。目前主流的图像生成类目前主流
49、的图像生成类 AI 技术技术是是 CLIP 与与 Diffusion:1)CLIP 是一种大一统技术框架,可以将图像域和文本域的特征对齐,允许模型同时理解图像和文本;它由 OpenAI 团队开发,并且已经被广泛应用于图像分类、图像检索、图像生成等多个领域。2)diffusion(扩散)是一种用于生成高质量图像的技术,它通过将原始图像转换为图像噪声域并逐步改善图像,以生成逼真的图像。它的核心思想是将原始图像与噪声混合,并在每个时间步长中逐渐减小噪声的强度,直到图像不再有噪声为止。这个过程类似于将水分子在溶液中扩散开来,因此也被称为扩散。以 OpenAI 发布的一个图像生成模型 DALL-E 2
50、为例,其工作流程为:1)将输入文本转化为将输入文本转化为 CLIP 文本:文本:这个步骤使用 CLIP 模型将输入的自然语言描述转换成向量形式的文本表示;2)转化为初转化为初步图像:步图像:使用一个编码器网络将 CLIP 文本向量转换为一个初步的图像表示,这个图像通常是一张噪声图像;3)使用扩散模型将图像转变后再生成:使用扩散模型将图像转变后再生成:DALL-E 2 通过多次对初步图像进行随机噪声注入和扩散的操作,从而逐渐改善图像的质量,最终生成符合要求的高质量图像。图表图表 19.主流图像主流图像 AIGC 对比对比 资料来源:CSDN,中银证券 音频类音频类 AIGC:音频类 AIGC 可
51、视同为语音合成(TTS),即根据文本内容和语音素材,生成自然语音的技术。以下是常用于 TTS 中的技术步骤:1)文本处理,首先使用 NLP 技术,如词性标注、句法分析和语义分析,对文本进行分析和理解;2)韵律建模,韵律是指语音的节奏、语调和强调,这涉及使用统计模型或基于规则的方法为每个音素或音节生成音高、持续时间和能量模式;3)声学建模,涉及创建一个表示组成语音的声波的模型可以使用深度神经网络(DNNs)、对抗式生成网络(GANs)等技术来完成;4)语音合成,可以使用参数、拼接和端到端等不同方法;5)声音转换,这是一种用于修改合成语音输出的声音特征的技术,例如更改说话人的性别或年龄,可以通过神
52、经语音转换或基于源-滤波器模型的转换等技术来完成。图表图表 20.TTS 中的中的技术步骤技术步骤 资料来源:CSDN资讯,中银证券 国内发展大语言模型面临的挑战国内发展大语言模型面临的挑战 自从大语言模型 ChatGPT 发布之后,公众对 AIGC 的关注迅速上升。国内外的互联网厂商看到通用大模型在许多领域应用的商业价值,纷纷加快了布局。实际上,国内互联网巨头百度、阿里、腾讯、字节跳动等过去都在 AI 技术上有所积累,但应用方向比较垂直,以快速实现商业价值为导向,例如辅助驾驶、工业设备控制、广告推送等。这些 AI 技术的研究路径与 AIGC 有所不同,需要公司调整研究方向和资源。目前大语言模
53、型厂商所使用的架构基本基于 Transformer,因此其成本结构也类似,主要可分为数据成本、算法团队成本和算力成本,三部分成本也分别对应了人工智能的三大要素数据、算法和算力。在这一部分我们将以在这一部分我们将以 GPT-3 与与 ChatGPT 为例从人工智能的三大要素的角度剖析大语言模型的成本为例从人工智能的三大要素的角度剖析大语言模型的成本构成并提炼和总结现阶段国内发展构成并提炼和总结现阶段国内发展 AIGC 的几点主要挑战。的几点主要挑战。图表图表 21.GPT-3 的研发成本拆分的研发成本拆分 资料来源:35Kr,雪球,中银证券整理 数据成本:数据成本:海量的海量的优质优质数据数据以
54、及处理数据的经验方法以及处理数据的经验方法 数据是人工智能的三大要素之一,数据成本指图片、文本数据是人工智能的三大要素之一,数据成本指图片、文本、音视频的数据的收集、清洗、人工标注、音视频的数据的收集、清洗、人工标注以及建立用户反馈机制所带来的成本,我们将其简单拆分为数据获取成本与数据处理成本。以及建立用户反馈机制所带来的成本,我们将其简单拆分为数据获取成本与数据处理成本。根据wikipedia,具有 1750 亿参数的 GPT-3 的预训练过程中基于以下几个数据集,主要来自网络爬取、书籍、维基百科以及 GitHub,其中 80%以上的数据来自公开互联网中的网页、文章、图片、视频、音频等各种形
55、式的信息。在模型训练中#Tokens 可以理解为数据集中的词汇数量以衡量数据集的规模和复杂性。大量 Tokens 可以为模型提供丰富的信息,有助于模型学习更复杂的语言结构和语义关系。图表图表 22.GPT-3 所采用的训练数据集所采用的训练数据集 数据集数据集#Tokens 权重权重 Common Crawl 410 billion 60%WebText2 19 billion 22%Books1 12 billion 8%Books2 55 billion 8%Wikipedia 3 billion 3%资料来源:CSDN,中银证券 数据集中占比 60%的 Common Crawl 主要是累
56、积多年的网络爬虫数据集,约有 320TB 文字信息,但主体信息为英文,其中中文信息占比约 5%。该数据集整体质量较低,OpenAI 在根据各数据及质量赋予权重的同时,也对数据集进行了过滤、去重、加入高质量数据等处理。获得处理后的数据集后,GPT-3 还通过研发人员、外包标注人员以及所建立的用户反馈机制进行数据优化。整体而言,GPT-3的数据获取成本较低,其数据处理成本应占比更高。然而,OpenAI 随着后续模型训练数据量的扩大,预计数据获取难度将逐步提高,数据获取成本持续上升,在包含研发、标注、以及用户参与相关的成本后,预计 OpenAI 目前的数据成本超过 1 亿美元。GPT-3 算法团队成
57、本 算力成本 公有云 租赁费用 自建算力 硬件购置 能源成本 数据成本 获取成本 处理成本 图表图表 23.Common Crawl 中各种语言的比例中各种语言的比例 crawl CC-MAIN-2022-27 CC-MAIN-2022-33 CC-MAIN-2022-40 language%eng 46.5384 46.7774 45.8786 rus 5.8779 5.5156 5.9692 deu 5.4824 5.24 5.8811 jpn 4.8135 4.3489 4.7884 zho 4.6777 5.0383 4.8747 fra 4.4002 4.3112 4.7254 sp
58、a 4.3178 4.2915 4.4690 资料来源:维基百科,中银证券 对于国内相关厂商而言,由于产业积累相较北美更为薄弱,现成的、针对中文的大规模数据集相对较少。根据 IDC,2021-2026 中国数据规模 CAGR 达全球第一,但总量上相较北美仍有较大差距。同时,英文作为世界语言,具备更广泛的用户基础以及更丰富的优质数据累积。另外,数据作为新数据作为新的生产要素,在国内互通壁垒较为明显的生产要素,在国内互通壁垒较为明显,同时不乏较低质量的信息引起的噪音问题,这对国内厂商的数据积累、收集以及最终的清洗能力提出了较高的要求。图表图表 24.全球全球主要地区数据规模变化主要地区数据规模变化
59、 资料来源:IDC,中银证券 除了数据体量非常重要,数据的质量以及如何处理获取数据同样除了数据体量非常重要,数据的质量以及如何处理获取数据同样极为极为关键。关键。现实世界的数据存在很强的长尾特征,长尾数据指的是在数据分布中出现频率较低,但却有很多种类的数据,包括低频词汇(医学诊断、学术术语等)、小众兴趣、反洗钱、反欺诈等。相对于分布中出现频率较高、种类相对较少的数据,长尾数据更加稀缺且难以获取。这些长尾数据对于某些 AI 任务可能非常重要,但由于它们数量稀少,因此需要特别的方法来获取和处理。一种较为根本且长期的方法是通过强化 AI模型的能力来适应数据的长尾特征,例如数据增强(对原始数据进行处理
60、得到过更多训练数据,从而扩充数据集)、非监督学习(利用未标注数据进行预训练,从而提高模型在有限标注数据下的表现等)、元学习(让模型学习如何学习的方法)等。图表图表 25.现实世界充满了大量低频但重要的长尾数据现实世界充满了大量低频但重要的长尾数据 资料来源:Large-Scale Long-Tailed Recognition in an Open World,Github,中银证券 另一方面另一方面大模型的大模型的“增长飞轮增长飞轮”效应效应也能也能在一定程度上巧妙缓解长尾数据问题,在一定程度上巧妙缓解长尾数据问题,即利用公开数据,快速建立一个大致可用的 AI 大模型,随着模型不断被用户使用
61、,大量的多样化的场景/对话/行为/反馈数据被采集,帮助模型不断更正和扩大任务范围,同时也获取到大量长尾数据,由此模型会变得更加准确和强大,从而能够解决更加复杂和具有挑战性的任务。而这又会带来更多的数据和更多的资源,可以用来进一步扩大和训练模型,形成一个循环的正反馈机制。作为 AIGC 的典型应用代表,ChatGPT 在应用层展现出了出色的潜力。自发布以来仅仅用了两个月的时间,就吸引了一亿用户,打破了 TikTok 保持的九个月记录,成为了史上用户增长速度最快的消费级应用程序之一。因此ChatGPT 更有机会从全球用户的使用过程中获取到大量有价值的稀缺数据。图表图表 26.消费级应用消费级应用
62、1 亿用户达成时长亿用户达成时长 消费级应用消费级应用 1 亿用户达成时长(月)亿用户达成时长(月)ChatGPT 2 Tik Tok 9 Instagram 30 Pinterest 41 Spotigy 55 Telegram 61 Uber 70 Google Translate 78 资料来源:World of Engineering,中银证券 而各大国内厂商先后快速推出大模型,并邀请不同行业、业务场景下的企业接入大模型,或是希望通过这种工程化的方法更快获取到公开领域很难获取的长尾数据。我们认为,能够获取到更多专业我们认为,能够获取到更多专业细分商业场景的数据、更具有数据处理经验,或者
63、拥有更好的细分商业场景的数据、更具有数据处理经验,或者拥有更好的 AI 基础设施(例如快速试验室帮助基础设施(例如快速试验室帮助更快找到适合处理长尾数据的最佳模型)等的国内企业能够形成较坚固的护城河。更快找到适合处理长尾数据的最佳模型)等的国内企业能够形成较坚固的护城河。算法开发成本:富有经验的工程师人才算法开发成本:富有经验的工程师人才 人工智能的第二大要素是人工智能的第二大要素是算法算法,AI 的算法设计的算法设计、训练流程、调优等步骤均对厂商研发、人才累积有、训练流程、调优等步骤均对厂商研发、人才累积有非常高的要求。非常高的要求。算法开发成本指在模型架构的搭建、技术迭代和优化等流程中产生
64、的成本,其中主要是研发人员薪酬。以 ChatGPT 为例,算法团队成本方面,公司设立 ChatGPT 项目组进行开发,共有 87 人对项目做出贡献。其中,华人学者是一支重要的科技创新力量,共 9 人,占比近 10%。图表图表 27.ChatGPT 团队中的华人学者团队中的华人学者 姓名姓名 职务职务 毕业院校毕业院校 工作单位工作单位(时间顺序时间顺序)翁家翌 研发工程师 学士:清华大学 硕士:卡内基梅隆大学 OpenAl 赵盛佳 研发工程师(MTS)学士:清华大学 博士:斯坦福大学 OpenAl 江旭 研发工程师(MTS)学士:华中科技大学 博士:马里兰大学帕克分校 Mythic;OpenA
65、l 袁启明 研发工程师 学士:清华大学 硕士:德克萨斯大学奥斯汀分校 Dropbox;OpenAl 翁丽莲 Al 应用研究 经理 学士:北京大学、香港大学 博士:印第安纳大学伯明顿分校 Dropbox;Affirm;penAl 肖凯 深度学习研 究员 学士:麻省理工学院 博士:麻省理工学院 OpenAl Steph Lin 研究员 学士:麻省理工学院 硕士:佐治亚理工学院 牛津大学(人类未来研究所);OpenAl 欧阳龙 高级研究员 学士:哈佛大学 博士:斯坦福大学 Self-Employed;OpenAl 张马文 信息缺失 博士:加州大学伯克利分校 加州大学伯克利分校;OpenAl 资料来源
66、:智谱研究,Miner,中银证券 由于 OpenAI 团队个人薪资相关公开资料较少,且海内外人才市场状况不同,因此我们以人均薪资做了简单的推算。假设在模型的训练阶段和运营阶段,算法团队的人数一致(87 人),且按照 OpenAI公司平均薪酬每人每年 50 万美元发放,则保守估计每年算法团队相关成本为 4350 万美元以上。图表图表 28.算法开发成本算法开发成本 资料来源:智谱研究,Miner,新浪网,中银证券整理 参考 OpenAI 等海外头部团队,公司的执行架构往往围绕业内顶级的头部人才,从而能更好的把握资源投入以及模型设计的方向并最终突破技术瓶颈。目前国内 AI 相关顶尖技术人才缺口较大
67、,近期人才流动性较高,显示出行业内已开始新一轮人才争夺战。OpenAI 公司年平均薪酬 算法团队人数 年度算法开发成本 50 万美元/人/年 87 人 4350 万美元 图表图表 29.目前国内富有经验的工程师人才目前国内富有经验的工程师人才 原公司原公司 原公司职位原公司职位 创业方向创业方向 美团 前美团高级副总裁、最高决策机构S-team 成员陈亮 将于 AI大模型领域创业 字节跳动 前字节跳动视觉技术负责人王长虎离职创业 王长虎离职后即将组建新的创业团队,他的创业方向将聚焦于生成式 AI的视觉多模态算法平台。腾讯 腾讯副总裁、PCG(平台与内容事业群)信息与服务线负责人郄小虎 目前尚不
68、清楚接下来的去向,据介绍,郄小虎离职后将进入 Ai 相关领域创业 快手 快手前 MMU负责人李岩 在 2022 年下半年成立了 AI公司“元石科技”阿里 前技术副总裁贾扬清 贾扬清的下一站将是 AI创业,方向为 AI大模型底层技术相关 巨人 前巨人 CEO 吴萌 已成立公司 MiAO 英特尔 首席架构师 Raja Koduri 创办自己的 AI生成式游戏公司,公司尚未取名,将来研发的工具将采用英特尔、AMD 或苹果芯片 理想汽车 前理想汽车 AI芯片研发负责人骄旸 近期已跳槽三星电子,成为其 GPU 团队的核心成员 华为 华为天才少年稚晖君 稚晖君(本名彭志辉)在微博证实确实已经离开华为 亚马
69、逊云科技“参数服务器之父”Alex Smol 教授 创办了一家名为 Boson.ai 的人工智能公司 搜狗 搜狗创始人王小川 王小川与前搜狗 COO 茹立云联合成立人工智能公司百川智能,旨在打造中国版的 OpenAI 美团 原美团联合创始人王慧文 王慧文称设立北京光年之外科技有限公司,用于打造中国 OpenAl。京东 前京东技术委员会主席周伯文 衔远科技创始人周伯文于朋友圈发布“英雄帖”谷歌 谷歌 AI 团队李志飞 选择回国,在语音交互领域创业,创立出门问问 资料来源:各公司公告,中银证券整理 算力成本:算力成本:超大规模的计算资源与资本投入超大规模的计算资源与资本投入 人工智能的最后一人工智
70、能的最后一大要素是算力。大规模的算力能够大幅缩短模型的训练时间,加快研发进度。高大要素是算力。大规模的算力能够大幅缩短模型的训练时间,加快研发进度。高质量的算力设备和架构也能显著提高并行计算能力并提升训练效率。质量的算力设备和架构也能显著提高并行计算能力并提升训练效率。超大规模的模型参数数量通常达到百亿级别,对算力资源提出了非常高的要求。目前人工智能相关产业对算力的获取方式主要有两种:1)从)从云平台租用算力云平台租用算力,如亚马逊AWS、微软Azure、Google Cloud、阿里云和腾讯云等,OpenAI 使用公有云平台 Microsoft Azure 满足算力需求;2)自建算力自建算力
71、,这部分成本主要涉及到硬件购置和能源成本硬件购置和能源成本,硬件购置成本里中央处理器(CPU)和图形处理器(GPU)占比较高,能源成本主要指运营中的电力成本。1)在云平台租用算力的模式下,)在云平台租用算力的模式下,从部署阶段的角度,不包含物业设备成本、基本经营费用等支出,我们将算力成本大致分为开发成本(开发成本(预训练和训练阶段)预训练和训练阶段)与运营成本运营成本。根据 CSDN,参考谷歌使用GCP TPU v4 芯片训练 PaLM 模型,如果在与 GPT-3 一致的 3000 亿个 token 的文本上训练 1750 亿参数模型,目前的训练成本会大幅缩减至 140 万美元。尽管随着技术的
72、迭代成本有望进一步缩减,但以上计算建立在行业顶尖的硬件设备与架构之上,对国内厂商而言,在高质量硬件难以获取且顶级人才稀缺的情况下,成本预计会成倍提高。基于 ChatGPT 的访问情况,我们大致推算了大模型的运营成本:根据 similarweb,ChatGPT 2023 年的月访问量约为 10 亿,根据 Fortune 估算的单次互动算力云服务成本,2023 年 2 月运营阶段所需的算力成本至少为 1000 万美元。图表图表 29.云服务下云服务下 GPT-3 算力成本拆分算力成本拆分 资料来源:雪球,中银证券整理 2)自建算力的情况下,)自建算力的情况下,开发成本主要可以分为算力基础设施构建算
73、力基础设施构建以及能源成本。能源成本。根据负责云计算和人工智能的微软执行副总裁 Scott Guthrie,为了向 OpenAI 的前沿研究提供支持,微软为 ChatGPT打造了一台由数万个 A100 GPU 组成的大型 AI 超级计算机,自建成本或超过数亿美元。能源成本指ChatGPT 在训练以及堆集服务器、做负载均衡以及搭载网络安全策略等运营环节产生的大量电力消耗。根据柏克莱加州大学计算机科学教授大卫 帕特森的论文,GPT-3 在训练阶段耗能约 1287MWh。在运营阶段,ChatGPT 月独立访客数约 1.5 亿,假设单用户提问 10 个,产生 450 亿单词,假设每个单词在 A100
74、GPU 上需要 0.35 秒处理时间,A100 GPU 月工作时长约 437.5 万小时,Azure 数据中心中 A100 GPU 的功耗约 46W-407W,每月电力消耗约 1780MWh。图表图表 30.基于自建算力的硬件购置成本基于自建算力的硬件购置成本-训练阶段训练阶段 资料来源:CSDN,中银证券整理 受算力成本的需求快速增加、算法开发人才的时代红利以及规模效应等因素的影响,未来的成本将受算力成本的需求快速增加、算法开发人才的时代红利以及规模效应等因素的影响,未来的成本将呈降低趋势。呈降低趋势。虽然随着硬件设计的提升,大模型的硬件成本和能量利用率持续提升,但国内硬件方面与海外存在代差
75、,且专用于 AI 训练的芯片仍在开发中,预计中近期内算力问题也将是国内厂商发展大语言模型的重大挑战。GPT-3 开发成本 运营成本 GPT-3 算力基础设施搭建 能源成本 图表图表 31.规模化应用主要的降本环节规模化应用主要的降本环节 资料来源:CSDN,中银证券整理 尽管面临以上诸多挑战,国内各大互联网厂商、高校和独立研究机构仍决心大力投入研发大型预训练语言模型,以实现关键核心技术的自主可控。虽然这些国产大模型的综合实力与海外顶级公司相比还存在一定差距,但在功能和应用领域展现出了独特的竞争力和创新优势,尤其是在中文 NLP 任务、行业垂直领域任务以及训练与优化策略等方面取得了一定的成果。图
76、表图表 33.目前国内主要的大模型目前国内主要的大模型 公司公司 产品产品 发布时间发布时间 参数量参数量 支持的内容支持的内容 百度 文心 Mar-23 2600 亿 大语言模型的生成式 AI产品具有文学创作、商业文案创作、多模态生成、数理逻辑推算、中文理解等能力,将赋能通信、金融、医疗、办公、互联网、物流、能源、媒体、政务等行业。华为 盘古 即将上线 2000 亿 鹏程.盘古由 NLP、CV、多模态、科学计算等多个大模型构成,支持丰富的应用场景,在知识问答、知识检索、知识推理、阅读理解等文本生成领域表现突出,解决传统 AI作坊式开发模式下不能解决的 AI规模化、产业化难题。腾讯 混元 De
77、c-22 1 万亿 混元系列 AI 大模型包含但不限于:计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等多个方向,偏向自然语言。目前,“混元“AI大模型已被广泛应用到广告创作、广告检索、广告推荐等腾讯业务场景中,之后会接入微信、QQ、游戏、短视频、广告、TOB 端等业务。阿里云 通义千问 2023/4/11 百万亿 通义千问将陆续接入阿里巴巴生态的所有商业应用中,如企业通讯、智能语音助手、电子商务、搜索、导航、娱乐。背后自然语言理解的大模型,一个叫 m6,一个叫 plug。M6 能够支持多模态的 AI模型,比如说文字生成图片,文字生成语音,文字生成视频。擅长设计、写作、问答,已在
78、超 40 个场景中应用,日调用量上亿。资料来源:各公司公告,中银证券整理 自于多方面的优化,包括模型架构的调整、算法算力和 GPU 的优化、业务层的优化、模型层优化、量化优化、kernel 层优化、编译器层优化等,计算产生的计算产生的能耗会下降。能耗会下降。能源 随着技术的进步和成本的降低,一些成本会随着规模效应而逐渐减少,例如通过模型压缩减少模型的大小、将芯片扩展到晶圆级以减少延迟/增加带宽,或通过可编程单元优化数据访问模式等将进一步推动硬件利用率的发展,从而降低降低内存和存储成本。内存和存储成本。内存/存储 算法算力和 GPU 的优化将通过使用高效的算法和GPU 并行计算来加速计算加速计算
79、,或者使用更强大的使用更强大的GPU,如英伟达GPU H100,产生降本增效的趋势。GPU 续续图表图表 33.目前国内主要的大模型目前国内主要的大模型 公司公司 产品产品 发布时间发布时间 参数量参数量 支持的内容支持的内容 智谱 悟道 2.0 2021/6/1 1.75 万亿“悟道 2.0”已经在问答、绘画、作诗、视频等任务中逼近图灵测试,并在世界公认的 9 项Benchmark 上获得了第一的成绩,未来“悟道”模型系统将构建“大模型、大平台、大生态”,持续研发超大规模智能模型,围绕大模型研发,构建大规模算力平台,同时对外开放模型能力,“赋智”各行业发展,构建大模型生态。中科院自动化所 紫
80、东太初 2021/9/27 千亿 紫东太初大模型通过多模态大数据自监督学习已形成图、文、音的共性特征表达,并可根据任务难度用适量数据产生推理能力和生成能力,可实现多任务、跨模态持续学习。更为突破的是,紫东太初大模型通过有效编码语音、文本和目标区域之间的时空关系,首次实现了“语音生成视频”的功能。复旦大学 MOSS Feb-23 175 亿 MOSS 可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径,将于后期进行开源。舟科技澜 孟子 2023/3/14 10 亿 可用于文本分类、金融新闻分类、文案生成和图片描述等场景。达观数据 曹植 23
81、/3/18(试用)175 亿 曹植系统专注于金融、政务、制造等行业,只为这些特定垂直行业提供 LLM 服务。三六零 360 智脑 23/4/9/未知 360 智脑将推出类 ChatGPT 技术的 demo 应用,与浏览器、数字助理、苏打办公、智能营销等场景应用深度结合,提升用户生产力和创造力。商汤 日日新SenseNova Apr-23 千亿“日日新 SenseNova”大模型体系,推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力。“日日新SenseNova”大模型体系下的语言大模型,还展示了 AI文生图创作、2D/3D 数字人生成、大场景/小物体生成等一系列生成式
82、 AI模型及应用;此外,还有编程助手、健康咨询助手、PDF 文件阅读助手等。昆仑万维 天工 3.5 2023/4/10 千亿 能够实现智能问答、聊天互动、文本生成等多种应用场景,并且具有丰富的知识储备,涵盖科学、技术、文化、艺术、历史等领域;覆盖图像、音乐、文本、编程等多模态内容生成能力。目前,该公司已与奇点智源就 ChatGPT、图像视频生成等 AIGC 技术领域达成全面技术战略合作。科大讯飞 1+N 认知智能大模型 2023/5/6 百亿 通用认知智能大模型算法研发及高效训练底座平台,“N”则是应用于多个行业领域的专用大模型版本。京东云 ChatJD 今年 千亿 ChatJD 将以“125
83、”计划作为落地应用路线图,包含一个平台、两个领域、五个应用。1 个平台:ChatJD 智能人机对话平台,即自然语言处理中理解和生成任务的对话平台;2 个领域:零售、金融;5 个应用:内容生成、人机对话、用户意图理解、信息抽取、情感分类,在客户咨询与服务、营销文案生成、商品摘要生成、电商直播、数字人、研报生成、金融分析等领域将发挥广泛的落地价值。网易 玉言 待定 千亿 模型领域也从文本拓展到图文、音乐、行为序列等多种模态,其具备的自然语言处理能力可应用于语言助手文本创作、新闻传媒、智能客服等领域。资料来源:各公司公告,中银证券整理 AIGC 颠覆人机交互模式,创造全新内容形态颠覆人机交互模式,创
84、造全新内容形态 人机交互形式人机交互形式正在发生正在发生颠覆式颠覆式变化变化 与传统与传统 AI 的规则引擎和决策树相比,大语言模型具有明显优势。的规则引擎和决策树相比,大语言模型具有明显优势。它不仅可以完成基础的识别、预测和分辨等任务,还能够与人类自然地进行对话,精准生成各种基于上下文语义和语境的内容。虽然目前 AIGC 模型主要以文本形式与人交互,但语音交互是未来研究的重点领域,而多模态交互也是人工智能生态的一个重要发展方向,能够实现交互形式的范式变革。我们预计,未来基于各类我们预计,未来基于各类 AI 模型的交互系统将成为操作系统的主要形式,应用程序与指令逻辑将模型的交互系统将成为操作系
85、统的主要形式,应用程序与指令逻辑将根据根据 AI 交互平台进行重新设计。交互平台进行重新设计。目前,AI 大模型已逐步取代了一些应用的传统操作模式,随着算力成本的降低和 AI 模型的轻量化,预计其可替代操作模式将进一步泛化,广泛应用于智能家居、工业自动化、智能物流、智慧城市以及其他 2C 应用领域。图表图表 34.AI-智能家居解决方案智能家居解决方案 图表图表 35.New Bing 带来全新的搜索体验带来全新的搜索体验 资料来源:平安云,中银证券 资料来源:CSDN资讯,中银证券 人机交互(HMI/HCI),是指人类通过各种形式的交互手段,如语音、触摸、手势等,与计算机或其他机器之间进行单
86、向或双向信息交流和共享的过程,其中单向人机交互通常为人类发出指令或提供输入,而机器则按照指令执行操作或产生输出,但不会主动与人类沟通或提供反馈;双向人机交互中人类可以发出指令或提供输入,同时机器会基于用户提供的输入或上下文来产生反馈或提问,从而进一步推动交互的进行。人机交互整体可区分为四个环节:输入、信息处理、输出、反馈人机交互整体可区分为四个环节:输入、信息处理、输出、反馈,其中单向的人机交互过程由于基,其中单向的人机交互过程由于基本不存在内容输出与反馈,因此在我们的后续分析中单向人机交互仅包含人机交互中的前两个本不存在内容输出与反馈,因此在我们的后续分析中单向人机交互仅包含人机交互中的前两
87、个环节环节。图表图表 36.通用大语言模型赋能后人机交互全环节对比通用大语言模型赋能后人机交互全环节对比 输入输入 信息处理信息处理 输出输出 反馈反馈 传统的人机传统的人机交互交互 根据应用场景和用户需求,通过各种输入设备(如键盘、鼠标、触摸屏、语音输入等)向计算机发送命令或提供信息 机器接收到用户输入的信息后,对其进行处理,以完成相应的任务 计算机或其他机器将处理结果呈现给用户。输出设备可以包括显示器、扬声器、触觉反馈设备等。输出的的形式可以是文本、图像、声音或其他多媒体形式,以便干用户理解和消化 用户根据计算机输出的结果,判断是否满足预期。如果结果不符合预期,用户可能会调整输入,启动新一
88、轮的人机互动。反馈环节有助干提高系统的准确性和用户满意度 通用大语言通用大语言模型加持后模型加持后的提升的提升 大语言模型更易捕获用户意图,用户可以使用自然语言多次交互,丰富可选交互场景,有效降低输入门槛 大模型的自然语言理解和推理能力能将用户输入数据转化为各类机器可识读信息,大提升交互质量和效率且丰富了交互对象 输出内容将更为流畅自然,更符合用户需求,此外个性化化的输出也将提升用户体验 大语言模型有能力根据以往的反馈进行自我调整 资料来源:维基百科,中银证券整理 在输入环节,传统的人机交互模式要求用户使用多种设备向计算机输入可识别的指令,而这些指令对于用户的操作水平、知识储备等提出了较高的要
89、求。然而,通过大语言模型加持,用户可使用以通过大语言模型加持,用户可使用以语音为代表的自然语言进行多轮交互,易于捕捉用户意图,降低输入门槛的同时,语音和文字输入语音为代表的自然语言进行多轮交互,易于捕捉用户意图,降低输入门槛的同时,语音和文字输入的便利性大幅扩充了输入场景。的便利性大幅扩充了输入场景。在信息处理环节,大型模型的自然语言理解和推理能力将输入的自然语言转化为各种机器可识别的信息,大大提升了交互体验和效率,同时丰富了交互对象。在以人工智能为操作中枢的平台上,复杂的自然语言指令还可以被拆分为多个子指令,并行控制多个设备对象。传统单向人机交互仅包括以上两部分,这种交互方式要求人类更加明确
90、和清晰地表达需求,因为机器不能主动了解人类的意图或需求。因此,传统单向人机交互主要依赖按钮等精确且指令简单的操控方式。然而,双向人机交互模式则有望结合物联网打造高度整合的控制中枢。然而,双向人机交互模式则有望结合物联网打造高度整合的控制中枢。以智能家居为例,AI 大模型有能力更好地理解用户的需求,提供更为智能、自然和人性化的控制和服务,从而显著提升用户体验。在未来,随着 AI 技术的不断发展,双向人机交互的方式将越来越普及,进一步改善人机交互体验。图表图表 37.ChatGPT 交互模型交互模型 资料来源:中银证券整理 大模型在输出环节的变革主要体现在内容质量上。大模型在输出环节的变革主要体现
91、在内容质量上。传统交互模式的输出环节在大语言模型加持下有能力对内容进行再整合并以合适形式呈现,输出内容将更贴合用户需求,此外大模型的可塑性也使得千人千面的输出形式和个性化的交互体验成为可能。传统的人机交互模式需要用户根据计算机输出结果来判断是否满足预期,如果不符合预期,用户需要调整输入并启动新一轮的人机互动。以搜索引擎为例,传统的搜索行为往往需要经历长时间的判断过程和多轮的互动。相比之下,大语言模型凭借其自然语言理解能力,显著降低了人机互动的循环轮次。此外,大语言模型还能根据过往的反馈自我调整,持续提升交互效率。因此,相比传统模相比传统模式,大语言模型可以显著提高交互效率、准确性和用户满意度。
92、式,大语言模型可以显著提高交互效率、准确性和用户满意度。完整的人机交互模式在与计算机交互的领域已有充分的应用,而大语言模型及其他工具有望重构目前的交互模式。目前 ChatGPT 插件系统上线后,用户已可以通过插件功能实现多种工具使用、联网用户已可以通过插件功能实现多种工具使用、联网查询等能力,目前已支持的第三方插件有餐厅查询等能力,目前已支持的第三方插件有餐厅推荐、旅行计划、购推荐、旅行计划、购物、物、AI 语言老师、网上店铺,以语言老师、网上店铺,以及学术界知识应用及学术界知识应用 Wolfram、应用库等、应用库等 5000 多个应用多个应用,覆盖人们的衣食住行、工作学习。图表图表 38.
93、ChatGPT 插件功能插件功能 资料来源:选股宝新闻,中银证券 目前,以 OpenAI 旗下的 GPT 为代表的大型语言模型已经在搜索引擎、办公软件等领域得到了初步的应用。例如,微软推出的基于 GPT-4 模型的搜索引擎 New Bing,能够提供准确实时的搜索结果并给出链接,同时还支持聊天、画图、编程等功能。相比传统搜索引擎,New Bing 支持自然语言输入,省去了用户选取关键词的过程,也基本抛去了用户筛选结果的环节。此外,New Bing 还具备幽默感,可进行定制化的交互,显著提升用户体验。图表图表 39.New Bing 的编程能力的编程能力 图表图表 40.New Bing 的绘画
94、能力的绘画能力 资料来源:CSDN资讯,中银证券 资料来源:CSDN资讯,中银证券 大语言模型在办公领域的应用可以显著提升办公效率,优化工作流的各个环节,并降低人力和沟通成本。大语言模型具有全面而优质的自然语言处理能力,可以更准确、更流畅地处理和生成文本。当任务的复杂性达到足够的阈值时,其优势尤为明显。我们预计在未来,大语言模型将能够有效地帮助各个工作环节释放创造力、提高生产力,并升级各种技能。图表图表 41.365Copilot 应用应用 资料来源:搜狐新闻,中银证券 基于 GPT-4 的实验性应用程序 Auto-GPT 为 AI 自动实现复杂命令提供了可能性。在 Auto-GPT 的架构下
95、,GPT 系列扮演着思考、推理和决策的“大脑中枢”角色,各类 AI 工具则各司其职,协同工作。在获得最新信息、检索知识库、代表用户执行操作等外部条件的支持下,用户仅需制定目标并提供少量人工干预,Auto-GPT 便能以目标为导向,自主制定并执行一系列复杂任务,如自主编码和调试、自动开发并管理各种业务项目、制作网页等。此外,Auto-GPT 还具备自主迭代、内存管理等功能。尽管 Auto-GPT 仍然存在成本高昂、问题分解不充分、无法区分开发与生产、陷入死循环等问题,但其引入了生成智能体(Agent)委派任务的概念,进一步展示了 AI 的潜力,并解锁了新的使用场景。图表图表 42.Auto-GP
96、T 图表图表 43.Auto-GPT 的评价及缺陷的评价及缺陷 资料来源:热点新闻,中银证券 资料来源:CSDN资讯,中银证券 内容生产内容生产效率提升,创新效率提升,创新的内容的内容形态正在酝酿形态正在酝酿 AIGC 在内容行业带来的变革主要体现在两个方面:在内容行业带来的变革主要体现在两个方面:1)降低生产成本,提升创意实现效率;)降低生产成本,提升创意实现效率;2)新)新的人机交互形式带来全新的内容体验,提高内容付费上限。的人机交互形式带来全新的内容体验,提高内容付费上限。在降本增效方面,传统的内容生产需要经历书写、口述、绘画、拍摄、编程等复杂的过程才能生成对应的内容。而 AIGC 则只
97、需要输入一些提示信息,就可以在短时间内生成大量的内容,用户只需要对生成的作品进行评估和调整即可。这显著提高了内容生产的效率,并降低了生产成本和门槛,同时也有助于激发新的创意。此外,低成本的各种内容形式,如图片、视频等,也将大幅降低用户间的沟通成本。另外,大语言模型等 AI 技术结合新的交互形式,将为创作带来全新的可能性。通过 AI 技术的帮助,内容生产者可以更快速地掌握新的知识和技能,从而不断开拓新的创作题材。同时,AIGC 生成的内容也可以为创作提供新的灵感和素材。这种新的创作方式,将为内容生产者带来更广阔的发展空间,也将推动内容生产的创新发展。图表图表 44.AIGC 与传统与传统内容生产
98、对比内容生产对比 资料来源:中银证券整理 随着内容消费量不断增加,消费者对内容质量的要求也越来越高,同时内容生成呈现出个性化和开放化的趋势,因此降低内容生产门槛和提高生产效率成为了行业的迫切需求。AIGC 正符合内容消费的这一发展趋势,预计未来将广泛应用于各种内容生产场景,为广大内容生产者提供支持,并有望成为未来互联网内容生产的基础设施。图表图表 45.AIGC 助力内容生产助力内容生产 落地行业落地行业 降本增效方面降本增效方面 新题材方面新题材方面 游戏 研发端:AI原画、AI 配音、AI建模、AI动捕降低交流和制作成本 实时内容生成(剧情、场景等)、AI NPC 带来强互动性带来广泛玩法
99、创新 发行与运营:数据分析、防外挂、广告图片素材、策划案等 自然语言交互为代表的新的交互形式衍生游戏 视频/文学等泛娱乐行业 PUGC:特效、场景、渲染以及文字内容等方面产出效率提升,海量低成本内容激发创作灵感 PUGC:IP 内容变现形式更广阔 UGC:门槛进一步降低,内容质量与数量大提升 UGC:内容载体进一步泛化 教育 教育数据整理、汇总与分析,多语言学习成本降低,知识库储备与检索效率提升等 互动学习、个性化学习、文献总结等新的教育教学形态 电商/营销 广告素材、营销案等要素的批量低成本生产 高仿真虚拟人 24h 直播带货、个性化广告投放、智能客服等 资料来源:人工智能教育研究联盟,镜像
100、娱乐,中银证券整理 以下是不同行业领域通过以下是不同行业领域通过 AIGC 技术提升生产效率,并触发新内容形式诞生的具体场景。技术提升生产效率,并触发新内容形式诞生的具体场景。美术领域:美术领域:为图像创作提供可视化工具。在一些重复性高、技术性强的美术任务上,如图像编辑、设计等,AIGC 的辅助可以大大提高效率。AIGC 可以通过图像识别、图像生成等技术,辅助美术师进行图像处理、图像合成和图像创作等任务。此外,AIGC 还可以根据输入的样式和风格,为艺术家提供灵感和创意。在 AI 与人工配合下,角色创意、场景概念、营销素材等高耗时环节的生产效率未来有望被大幅提升。未来随着复杂计算机视觉算法和深
101、度学习技术不断发展和优化,图层分割若能够实现,将为图像处理领域带来更多的可能性和创新。图像的图层可以包含不同的元素,例如文字、背景、前景、特效等,通过将图像分解成多个图层,可以对每个图层进行单独的编辑、修改和控制,而不影响其他图层。另外也有利于图像的合成、组合、渲染。通过将图像分解成多个图层,可以将不同的元素进行组合和合成,创造出更加复杂和丰富的图像效果,同时也可以让设计师更好地控制图像的层次感和视觉效果。图表图表 46.AIGC 现有美术应用现有美术应用 资料来源:35Kr,中银证券整理 建模、动捕领域:建模、动捕领域:AIGC 通过图像处理技术可以识别现有的三维模型,并自动生成类似的模型。
102、它能够学习大量的三维模型,提取它们的特征和规律,建立带有标记的 3D 模型资产数据库和有效的3D 数据,并生成新的三维模型。此外,AIGC 还可以利用深度学习技术生成高质量的纹理、光照和材质,从而使生成的模型更加逼真。目前,英伟达已经参投了 Nerf 领域的独角兽 Luma,同时也推出了文本提示转 3D 模型技术 Magic3D。Unity、Unreal、Cocos、LayaAir、松应科技等国内外厂商也已开始探索并应用 AIGC。图表图表 47.NVIDIA Research 的的 AI 模型模型 资料来源:英伟达,中银证券 配音行业:配音行业:相对于传统的人工配音,AI 配音具有更高的效率
103、、更低的成本和更好的普适性。AI 配音可以完美地模拟各种语音和情感,实现自然流畅的语音输出,为用户带来更好的音频体验,在市场上受到广泛好评。AI 配音主要有声音克隆、声音合成和音色转换三种应用方向。据 Market.us 的统计,2022 年全球 AI 语音生成市场规模约为 12.1 亿美元,预计到 2032 年,该数据将增长至 48.89 亿美元,年复合增长率为 15.4%。图表图表 48.AI 语音应用方向及案例语音应用方向及案例 图表图表 49.AI 语音生成未来市场规模语音生成未来市场规模 资料来源:游戏茶馆,中银证券 资料来源:游戏茶馆,中银证券 编程领域:编程领域:AIGC 可以通
104、过分析代码、识别模式和预测行为来辅助编写代码。使用者可以直接使用自然语言来获取所需的代码。借助 AIGC,代码编写过程可以更加快速、准确,同时大大减少代码错误和 bug 的出现。此外,AIGC 还能够提供自动化的重构和重写建议、智能代码补全、自动生成文档和代码注释等功能,以优化代码的质量和可读性。图表图表 50.ChatGPT 的编程能力的编程能力 图表图表 51.国内国内 aiXcoder XL 智能编程大模型智能编程大模型 资料来源:CSDN,中银证券 资料来源:InfoQ,中银证券 文本、数据分析与总结:文本、数据分析与总结:大语言模型可以以高效且准确的方式对复杂的文本数据进行识别、抽取
105、、匹配和处理,其效率远高于人工分析。该技术有助于提高数据分析的效率,进一步挖掘数据的价值。已有一些海内外研究机构和个人开始利用 New Bing、Research GPT 等工具进行文献阅读、关键信息提取、生成摘要和信息检索等任务,但这些产品目前仍处于测试阶段,暂时无法实现图像识别,同时在理解和翻译专业术语和公式方面可能存在一定的不准确性。图表图表 52.使用使用 New Bing 总结文献总结文献 图表图表 53.Research GPT 资料来源:CSDN资讯,中银证券 资料来源:CSDN资讯,中银证券 AIGC 产业链和推荐关注标的产业链和推荐关注标的 AIGC 产业链包括上游、中游和下
106、游三个部分,上游企业为中游企业提供基础设施和硬件支持,中游企业将其技术和服务提供给下游用户,形成了 AIGC 产业链的完整生态系统。图表图表 54.AIGC 产业链图谱及代表企业产业链图谱及代表企业 资料来源:量子位,中银证券 上游企业:上游企业:AI 模型训练需要庞大的算力支持,这种需求的增长速度甚至超过了摩尔定律。OpenAI的数据显示,从 2012 年到 2020 年,人工智能模型训练消耗的算力增长了 30 万倍,平均每 3 至 4 个月翻一番,这超过了摩尔定律每 18 个月翻番的速度。在实际应用中,AI 计算主要依赖于 GPU、FPGA、ASIC 等芯片的加速计算平台为其提供训练和推理
107、。GPU 因其性能高、通用性好是 AI 服务器首选加速方案,而 ASIC 缺点是灵活性不够,FPGA 缺点则在于开发难度大、价格高。AI 计算分为训练和推断两个层面。在训练 AI 模型方面,英伟达是市场上绝对的领先者;但传统的英特尔 CPU 仍然承担着大部分推理任务,AI 芯片也在积极占据市场份额。除芯片外,液冷系统、传感器、存储设备、通信设备、超算中心等都是 AI 产业上游非常重要的子领域。图表图表 55.AIGC 上游相关标的上游相关标的 领域领域 公司公司 代码代码 AIGC 相关业务相关业务 芯片芯片 英伟达 NVDA.O 全球首款 GPU 的发布者,根据 JPR 数据,22Q3 在
108、PC 端独立 GPU 市场占有率维持在 80%左右,近乎垄断。2023 年 3 月英伟达发布带有双GPU NVLink 的 H100NVL,基于 H100 芯片,英伟达构建了最新的 DGX超级计算机,搭载 8 个 H100GPU,使它们连接成为一个巨大的 GPU,为 AI基础设施的构建提供“蓝图”,目前全新的 DGX 超级计算机已经全面投产。英特尔 INTC.O 22Q4 全球 GPU 市场的占有率大概在 71%;2022 发布了两款云端 AI专用芯片 Habana Gaudi 2 和 Greco,分别用于 AI训练和 AI推理 景嘉微 300474.SZ 研制成功 JM5 系列等具有自主知识
109、产权的高性能 GPU 芯片 寒武纪 688256.SH 研发出思元 290/270/370 系列云端训练和推理芯片 瑞芯微 603893.SH RK3588 等视觉 AI 百度 9888.HK 自主研发了云端 AI通用芯片“昆仑”平头哥 未上市 阿里巴巴旗下半导体公司;含光 800AI 芯片,为阿里云提供 AI 计算能力 华为海思 未上市 昇腾系列 AI 芯片,擅长边缘计算,可为自动驾驶、智能制造、机器人等应用场景提供完整的 AI解决方案。液冷 申菱环境 301018.SZ 向华为、字节等互联网大厂和服务器厂商供应液冷产品 欧陆通 300870.SZ 面向数据中心提供液冷全链条解决方案,负责阿
110、里、数据港等大型数据中心液冷温控项目 英维克 002837.SZ 提供服务器液冷充电模块,均可实现超充 算力 阿里巴巴 9988.HK 2022 年阿里云推出“飞天智算平台”,并启动位于张北和乌兰察布的两座超级智算中心,成为全球最大规模智算平台,专门面向人工智能应用 腾讯控股 0700.HK 2022 年 9 月腾讯长三角人工智能先进计算中心基本完工,承担各类人工智能、即时通信、图像处理、科学计算等任务,以强大的数据处理能力为全社会提供云计算服务 百度 9888.HK 2015 年在山西阳泉建设了云计算中心;2019 年在保定自建了两个超大型云计算中心 顺网科技 300113.SZ 顺网雲是公
111、司打造的边缘云服务平台,面向各行业合作伙伴,提供领先的边缘云计算产品服务及多场景的行业解决方案。公司基于边缘计算网络资源及技术方面优势,以及在 AI 领域较强的技术储备,可为ChatGPT、AIGC 等人工智能应用提供算力、算法、云渲染等技术服务。盛天网络 300494.SZ 公司拥有 IDC、CDN、VPN、ISP 等多个服务牌照,已建设相应的大数据云计算及云存储服务平台。该平台以 GPU 算力为核心,具有高算力、低延时、稳定可靠等特点,当前为公司云游戏业务提供了技术竞争力。公司 GPU 云可以根据业务需求灵活调度算力资源,未来可以广泛用于支持 AI、元宇宙等各类应用和内容的高算力需求。20
112、22 年 11 月公司与Rokid 签署 XR 合作协议,打造“元宇宙接入点”。世纪华通 002602.SZ 公司深度参与投资的上海松江的腾讯长三角人工智能先进计算中心及生态产业园区项目规划 40000 个机柜。深圳数据中心项目计划经营机柜数量约 12000 个,该数据中心一期项目已经结构封顶,目前处于机电安装和第三方测试阶段,公司正在加快项目进度以尽快投入使用,项目二期正在规划设计中,预计年内开工。以上两地区的大数据、人工智能和智能制造等以数据为核心生产要素的产业将迎来快速发展,势必产生大量实时数据算力和数据存储需求,将有利于该业务的长足发展。资料来源:公司官网,投资者平台问答,新浪财经,雪
113、球,中银证券整理 中游企业:中游企业:人工智能产业中游企业主要提供 AI 算法、应用开发工具平台和解决方案等,让下游用户能够更加轻松地开发、部署和管理人工智能应用。这些企业主要包括 AI 算法和软件的开发商、数据中心和云计算服务提供商、大数据分析公司、区块链技术服务商等。例如,亚马逊 AWS、谷歌云、微软 Azure 等云计算服务提供商,以及 IBM、百度、腾讯、阿里巴巴、华为等公司都是中游企业。图表图表 56.AIGC 产业链中游相关标的产业链中游相关标的 领域领域 公司公司 代码代码 AIGC 相关业务相关业务 多模态大模型 微软 MSFT.O 2023 年1 月微软宣布向 ChatGPT
114、开发者 OpenAI追加投资数十亿美元;迅速推进 OpenAI 的工具商业化,计划将包括 ChatGPT、DALL-E 等人工智能工具整合进微软旗下的所有产品中,并将其作为平台供其他企业使用;将 OpenAI相关 AI技术整合进游戏研发等。谷歌 GOOGL.O 谷歌已向人工智能初创公司 Anthropic 投资近 4 亿美元,后者正在测试 OpenAI热门产品 ChatGPT 的竞争产品;谷歌在 2023 年 3月推出一款自有的名为 Bard 的人工智能聊天机器人,与 ChatGPT竞争;近期,谷歌还推出了一款名为 Lamda 的自然语言处理模型,该模型可以回答复杂问题,并生成自然语言文本。M
115、eta META.O 2022 年 9 月,Meta 首次推出 Make-A-Video,可以从给定的文字提示生成短视频;2023 年 2 月 25 日,Meta 公布一款全新的 AI大型语言模型 LLaMA,宣称可帮助研究人员降低生成式 AI工具可能带来的“偏见、有毒评论、产生错误信息的可能性”等问题;且仅用约 1/10 的参数规模,实现了匹敌 OpenAI GPT-3、DeepMind Chinchilla、谷歌 PaLM 等主流大模型的性能表现。百度 9888.HK 百度在 2023 年 3 月 16 日推出类 ChatGPT 产品“文心一言”;已推出智能创作平台,基于百度领先的多模态创
116、作技术,为各行业提供视频创作、图文创作等能力,包含文本生成视频、数字人视频、模板视频、图片生成、模板写作等多款 AI智能工具。阿里巴巴 9988.HK 阿里巴巴与清华大学联合发布中文社区最大的跨模态预训练模型(M6),模型参数规模超 1000 亿,同时具备文本、图像的理解和生成能力,可应用于产品设计、信息检索、机器人对话、文学创作等领域。2023 年 4 月 7 日,阿里云在官方公众号中宣布,大模型“通义千问”开始邀请测试。天猫精灵测试版已经接入了大模型产品。腾讯控股 0700.HK 2023 年 2 月腾讯针对类 ChatGPT 对话式产品已成立“混元助手”项目组,此前腾讯已备有混元 AI
117、大模型,覆盖 NLP(自然语言处理)、CV(计算机视觉)、多模态等基础模型和众多行业/领域模型。上线虚拟人制作工具“腾讯智影”。商汤 0020.HK 2023 年 4 月 10 日,商汤科技发布以“大模型+大算力”推进 AGI(通用人工智能)发展的战略布局,并公布了“日日新 SenseNova”大模型体系,推出自然语言处理、内容生成、自动化数据标注、自定义模型训练等多种大模型及能力;以及商汤依托 AI 大装置SenseCore 实现“大模型+大算力”融合创新的研发体系。昆仑万维 300413.SZ 2022 年 12 月 15 日,公司正式发布了“昆仑天工”AIGC 全系列算法与模型,并宣布模
118、型开源,旗下模型包括天工巧绘 SkyPaint、天工乐府 SkyMusic、天工妙笔 SkyText、天工智码 SkyCode,覆盖图像、音乐、文本、编程等多模态内容生成能力。2023 年 4 月17 日,由公司和奇点智源合作自研中国第一个真正实现智能涌现的国产大语言模型天工 3.5 启动邀请测试,2023 年,昆仑万维将陆续发布音乐 AI和游戏 AI 产品。旗下的 Opera 浏览器计划接入 ChatGPT 功能。三六零 601360.SH 2023 年 3 月 29 日,公司正式发布类 ChatGPT 大语言模型“360 搜索”。2C 端,公司将借鉴 New Bing 的模式,推出新一代生
119、成式 AI 搜索引擎、AI 浏览器、AI 个人助理等产品;ToSME 端,公司将推出生成式 AI 办公套件、AI 企业即时通信工具等垂类应用;ToG&B 端,公司已经将国内最完整的安全大数据及最强大的安全专家能力赋能给了 360 安全 AI。华为 未上市 华为“盘古系列 AI 大模型”分别为 NLP 大模型、CV 大模型、科学计算大模型(气象大模型)。模型背后由昇腾 AI 芯片+MindSpore AI框架支持,生态完整且获政府支持。字节跳动 未上市 原阿里M6带头人进去字节跳动AI研究部门,AI Lab成立于2016年,Research 团队提出了 X-VLM,这种新的预训练方法比较高效,模
120、型规模无需很大,预训练数据无需很多,就能在广泛的多模态任务上获得了十分优秀的表现。字节具有大量内容和用户数据优势。资料来源:公司官网,投资者平台问答,中银证券 续续图表图表 56.AIGC 产业链中游相关标的产业链中游相关标的 领域领域 公司公司 代码代码 AIGC 相关业务相关业务 垂直 AI应用 京东集团 9618.HK 2 月京东云旗下言犀人工智能应用平台整合过往产业实践和技术积累,正式推出产业版 ChatGPT:ChatJD。包含一个平台、两个领域、五个应用:1 个平台是指 ChatJD 智能人机对话平台,2 个领域分别为零售、金融;5 个应用包含内容生成、人机对话、用户意图理解、信息
121、抽取、情感分类。科大讯飞 002230.SZ 具备语音识别、语音合成等相关技术;已面向认知智能领域陆续开源了 6 大类、超过 40 个通用领域的系列中文预训练语言模型,成为业界最广泛流行的中文预训练模型之一 拓尔思 300229.SZ 开发了“智语”自然语言处理引擎,面向智慧专利、智慧公安、智慧政务、智慧金融、开源情报分析等应用场景 狄耐克 300884.SZ 公司围绕智慧社区和智慧医院等垂直的 AI 应用领域,主营楼宇对讲、智能家居及医护对讲等智能设备的研发设计、生产制造和销售,同时产品覆盖新风系统、智慧通行、智能门锁等智慧社区相关应用领域。神州泰岳 300494.SZ 公司自 2016 年
122、布局人工智能业务,专注于自然语言处理(NLP)及大数据技术等的融合应用,面向公安、政府、金融等垂直行业提供人工智能及大数据解决方案,形成智慧政企、智慧金融、智慧园区三条核心业务线。公司收入 74%来自于子公司壳木游戏,壳木长期位列中国游戏厂商出海收入榜 TOP10,深耕海外市场,擅长 SLG 品类。数据要素 海天瑞声 688787.SH 我国领先的 AI训练数据专业提供商,为 AI产业链上的各类机构提供 AI算法模型开发训练所需的专业数据集 每日互动 300766.SZ 每日互动是专业的数据智能服务商,为互联网运营、品牌营销、金融风控等各行业客户以及政府部门提供数据产品、服务与解决方案。浙数文
123、化 600633.SH 浙江大数据交易中心是目前省内唯一一家经省政府批准设立的数据交易场所,公司目前持有其 48.2%股权。2022 年,浙江大数据交易中心以数据要素市场化改革为抓手,助力形成浙江省数据交易服务平台的建设规划。另外,公司旗下传播大脑于 2023 年 3月 28 日分别与阿里、百度签订合作书,将与阿里达摩院、阿里云、钉钉在原有合作基础之上在进一步深化技术和应用场景等方面的合作。公司旗下杭州城市大脑有限公司积极探索机器学习、NLP、LSTM、知识图谱等技术及在“一网统管”智慧城市建设、大数据趋势预测、智能客服体系建设等社会治理方面的应用。资料来源:公司官网,投资者平台问答,中银证券
124、 下游企下游企业:业:下游企业是使用人工智能生成内容技术的终端企业,它们涵盖了娱乐文化、广告营销、教育、金融等不同领域。这些企业通过中游企业提供的 AIGC 服务,能够实现自身业务的智能化升级和效率提升。例如,在娱乐文化领域,使用 AIGC 技术可以生成音乐、电影、游戏等内容,提高创作效率和质量;在广告营销领域,使用 AIGC 技术可以实现个性化推荐、精准定位等功能,提高广告效果;在教育领域,使用 AIGC 技术可以提供智能化的在线教育解决方案,实现个性化学习等。图表图表 57.AIGC 产业链产业链下游应用相关标的(下游应用相关标的(1)应用类别应用类别 公司公司 代码代码 AIGC 相关业
125、务相关业务 AIGC+IP 版权 中文在线 300364.SZ 1)公司目前已上线 3 款 AIGC 相关产品,分别为 AI 主播、AI 绘画和AI 文字辅助创作。其中 AI 主播已在有声书生产中应用;AI 文字辅助创作功能已在 17K 小说网上线,可自动生成文字内容;AI绘画已在海外产品中使用,通过文生图产生的图片使用在互动式视觉阅读中。2)公司海外产品 Chapters 和 My Escape 已在做接入 ChatGPT 测试,应用在剧本生成及改编、用户与 AI 交互聊天等方面。3)另外,以流浪地球IP 打造的国内首个科幻主题元宇宙 RESTART(重启宇宙)正式启动。4)公司积累了海量优
126、质正版内容资源和创作者资源,可为 AI 模型提供核心生产要素。国内多家模型公司就采购公司中文数据正在进行合作磋商,目前尚未签订正式合作协议。视觉中国 000681.SZ 计划推出 AIGC 生产工具提升创作者的生产效率和内容质量。与百度旗下的AI作画平台文心一格将在创作者赋能和版权保护等方面展开多项合作。公司入驻腾讯会议应用市场,为腾讯会议用户提供包括插画、摄影图片、动态图片以及 AIGC 在内的各类虚拟背景图片。果麦文化 301052.SZ 果麦 AI创作机器人可实现通过采集互联网大数据精选文章、本地文件导入转化为自己的内容库,有机训练段落、词句、文章、知识四维 AI技能。机器通过持续深度学
127、习,可以生成语句通顺、可读性强的优质内容,素材专业、多元实现一键自动成稿,达到高效孵化图书营销软文的目的。掌阅科技 603533.SH 公司正在接入 AI 大模型进行内容生成的 Prompt Engineering 工作,公司将利用在内容版权资源、创作者生态、海量用户资源、数字阅读场景等方面的优势,在内容生产、营销推广、丰富产品形态等多方面加大投入力度,不断探索新的商业模式。思美传媒 002712.SZ 公司拥有营销服务业务、影视内容业务、数字版权运营及服务三大核心业务板块;旗下原创书殿文学网站是集创作、阅读、运营、分发于一体的数字阅读平台,同时也是国内资深的原创文学网站之一,拥有数万部原创作
128、品版权。公司将持续研究人工智能大模型与数字阅读的业务结合形式。中国科传 601858.SH 公司内容资源及数据库储备丰富。公司先后推出了“科学文库”“科学智库”“中国生物志库”“中科医库”等一系列数字产品或知识服务平台。公司还投资开发了 SciEngine 全流程数字出版与知识服务平台、COAJ 中国科技期刊开放获取平台等期刊技术平台。此外,公司还持有万方数据库 15%的股份,万方数据库是国内三大中文数据库之一,集纳了理、工、农、医、人文五大类 70 多个类目共 7600 种科技类期刊全文。资料来源:公司官网,投资者平台问答,中银证券整理 续续图表图表 57.AIGC 产业链下游应用相关标的(
129、产业链下游应用相关标的(1)应用类别应用类别 公司公司 代码代码 AIGC 相关业务相关业务 AIGC+广告营销 蓝色光标 300058.SZ AIGC 布局包括:1)虚拟人系列产品,分身有术、蓝标智播、虚拟偶像等;2)撰稿机器人“妙笔”是公司 2018 年推出的 14 款智能营销产品之一,目前是公司的参股公司;3)智能营销助手销博特(XiaoBote),自动生成营销策划草案。易点天下 301171.SZ 公司实现了多项前沿技术的商业化应用测试,主要包括:视频人脸融合、多图视频生成、文本+绿幕生成多语种视频、单文本生成数字人多语种视频等。还与阿里达摩院、华为人工智能团队、aws 云、googl
130、e 广告算法团队等合作,在 AIGC,GPT 生成模型,视频理解,智能剪辑,小语种 AI翻译上都有投入和布局,部分研发成果已经实质的用于业务中。因赛集团 300781.SZ 公司自主研发了智能创意平台“因赛引擎 INSIGHTengine”,用于 1)平面广告智能生成,与 2)社交媒体用户裂变营销两大智能解决方案,正在研发应用 ChatGPT 等相关的技术,持续开发自然语言处理等方面的应用,与图像和视频 AIGC 技术协同,提升品牌的内容营销的质量和效率。浙文互联 600986.SH 公司有多个为下游客户定制的虚拟人营销 IP:自主研发并孵化“君若锦”、“兰_Lan”两位虚拟形象;为东风风光
131、mini 定制的虚拟人“可甜”已交付使用;“宫玖羽”与汽车之家完成签约,担任“汽车之家特邀 AI体验官”;长安汽车的“宫橙诗”交付完成。公司旗下米塔数字艺术作为元宇宙艺术创作社区,已开启 AIGC 模式,支持 AI绘画和手动绘画两种模式,打开 AI绘画即可使用 AI进行绘制。天下秀 600556.SH 2023 年 4 月公司推出了 AIGC 应用“灵动岛”,与其主业相关的红人广告对接平台:WEIQ 平台连接,帮助红人快速生成广告文案创意;虚拟社交内容平台“虹宇宙”2022 年开放了元宇宙商业街区“MetaPlaza”和品牌沙盒空间“未来岛”;2023 年公司与新华社媒体中心合作发布文旅数字化
132、云平台“云游中国”。AIGC+电商 天娱数科 002354.SZ 依托 MetaSurfing-元享智能云平台,元境科技虚拟数字人已经接入ChatGPT 等模型,并已在 Tik Tok 跨境电商直播、虚拟主播直播互动等场景实现应用,并形成产品化解决方案。吉宏股份 002803.SZ 公司在跨境电商板块和 SaaS 吉喵云的主要业务模块里均有使用 AIGC技术,利用人工智能技术来生成内容,如智能素材、智能广告、智能投放、智能客服等。值得买 300785.SZ 接入百度“文心一言”,AIGC 目前主要应用在两个方向:1)消费辅助决策,消费者输入关键词,给出相应的产品和优惠推荐;2)帮助 PGC团队
133、编辑、内容审核等,降低人工成本。资料来源:公司官网,投资者平台问答,中银证券整理 图表图表 58.AIGC 产业链下游应用相关标的(产业链下游应用相关标的(2)应用应用类别类别 公司公司 代码代码 AIGC 相关业务相关业务 AIGC+游戏 网易 9999.HK 网易逆水寒手游将实装国内首个游戏版 ChatGPT,让智能 NPC 能和玩家自由生成对话,并基于对话内容,自主给出有逻辑的行为反馈。这是国内类 ChatGPT 首次应用在游戏。腾讯 0700.HK 腾讯 AI Lab 在 2023 游戏开发者大会上发布了自研的 3D 游戏场景自动生成解决方案。据介绍,该方案通过 AIGC 技术,帮助开
134、发者在极短的时间内打造出高拟真、多样化的虚拟城市场景,大幅提升游戏开发效率。完美世界 002624.SZ 公司已经将 AI技术运用到了智能 NPC、场景建模、剧情、绘图等领域。例如,梦幻新诛仙采用智能 NPC 与 IK 技术,使得 NPC 具有丰富的微表情,为玩家提供真实自然的交互体验;公司在研的仙侠题材MMORPG 端游诛仙世界创新运用了全天候天气智能 AI演算技术。公司已在内部成立 AI中心,由公司游戏业务 CEO 负责,中台技术部门牵头,各项目制作人深度参与,大力研究及推行 AI技术的学习与应用。三七互娱 002555.SZ 公司已经拥有比较完善的 AI智能投放系统,可以实现快速批量投放
135、以及自动化投放,通过大数据分析以及 AI算法提升游戏广告推广效率以及买量效果。另外,公司在早期投资 VR/AR 内容的基础上不断延伸,投资了涵盖算力、光学、显示、XR 终端、XR 内容、云游戏、空间计算、人机交互在内的优质科技企业,持续关注含人工智能、渲染引擎、交互传感等方面在内的新一代科技技术前沿方向。吉比特 603444.SH AIGC 作为工具,能够帮助生成资源,也可以根据线稿或一些早期的资源生成新的资源,更加快速推出游戏 demo,验证游戏玩法。这种工具属性非常适合吉比特“小步快跑”的项目研发形式,公司有望从中受益,更快、更多推出新游戏。恺英网络 002517.SZ 子公司上海恺英软件
136、技术有限公司与复旦大学签署软件定制开发协议,双方将共同探索将 AIGC 技术运用到游戏产品 AINPC 研发中,打造互联网游戏产品更加精确和逼真的人工智能处理,从而提高游戏产品体验。通过开发对 AIGC 与 AINPC 进行结合,助力恺英网络实现首个搭建 AIGC 及 AINPC 技术的斗罗大陆 IP 手游。电魂网络 603258.SH 目前公司已在部分在研游戏的研发过程中应用AI图片生成及AI对战博弈等 AI技术;野蛮人大作战 2 已接入网易伏羲的 AI 对战机器人,有望进一步提升游戏体验。梦三国 2入选 2023 年亚运会电竞比赛项目。巨人网络 002558.SZ 公司接入百度“文心一言”
137、,成为首批生态合作伙伴,可优先内测体验文心一言,与百度在游戏产品研发、标准制定等多个领域展开深度探索与合作,运用到游戏营销、游戏 NPC 以及游戏原画设计等游戏业务应用中。中文传媒 600373.SH 公司旗下智明星通作为游戏出海先驱,2022 年初已布局 ChatGPT 和AIGC,赋能程序开发、剧情策划、客服、美术素材等,降本增效,提升游戏体验。公司投资并战略合作的新华智云(持股 6%),深度布局AIGC、大数据、数字人、元宇宙,可智能生产短视频、智能写稿、编辑、内容监管。牵头建立机器生产内容自动化分级团体标准。宝通科技 300031.SZ 2023 年将用 AI赋能游戏业务:打造广告智能
138、投放平台,提升投放效率和广告优化能力;搭建基于 ChatGPT 的翻译系统,提升翻译效率,节约成本;搭建基于 stablediffusion 框架的 AIGC 绘画系统,来提升美术出图速度,增加广告创意数量,提升获客质量。掌趣科技 300315.SZ 在游戏研发过程中,公司已在美术创意产生、美术制作、代码辅助生成及校验等方面使用 AIGC 技术工具。资料来源:公司官网,投资者平台问答,中银证券整理 图表图表 59.AIGC 产业链下游应用相关标的(产业链下游应用相关标的(3)应用类别应用类别 公司公司 代码代码 AIGC 相关业务相关业务 AIGC+影视娱乐 华策影视 300133.SZ 公司
139、已全面接入文心一言,充分利用 AIGC 技术提升影视行业全管线效率,包括影视剧本创作、AI换脸及换声、场景及分镜制作、数字人模拟虚拟角色、预告片剪辑、特效处理、AI海报制作等。另外,华策影视拥有中国最大影视原创版权库和影视素材库,版权数量合计约 3万小时。在 2023 年经营计划中,华策影视将以“文本+AI”应用为重点突破方向,寻求与外部合作方合作开发适用于创意策划阶段的 AI应用,缩短项目开发周期;在“视频+AI”领域提前布局,充分发挥华策元视界优质正版版权优势、素材优势,务实布局渠道流量入口和消费场景,放大 IP 价值,探索内容多元变现。光线传媒 300251.SZ 2023 年 3 月
140、19 日,光线董事长在内部信中介绍,目前光线除了参与百度“文心一言”的测试,尝试在影视细分领域参与 AI的开发和应用之外,公司海外动画制作团队也已经在摸索 ChatGPT 在业务上的应用,今后视需要有可能强化海外团队以与海外领先软件对接。爱奇艺 IQ.O 爱奇艺将全面接入百度“文心一言”,起探索 AIGC 在长视频行业的应用场景,例如提高内容生产效率、内容分发和推广等。Netflix NFLX.O 与小冰公司日本分部(rinna)、WIT STUDIO 共同创作了 犬与少年,这是首支由 AIGC 技术辅助完成的发行级别商业化动画片。凌云光 688400.SH 公司自主研发了数字人人脸/人体模型
141、资产的 Luatage 光场建模系统、高速高精度的三维定位跟踪测量能力的 FZmotion 光学运动捕捉系统,将建模制作周期从数月提速至数天;借助预训练模型和知识图谱等 AIGC 技术,在驱动环节实现了语音和动画的纯智能驱动生成,使语音和动作生成不再受限于场景、时间的局限,典型应用如冬奥、世界杯手语数字人等。捷成股份 300182.SZ 公司参股公司世优科技(持股比例 24.38%)是一家虚拟技术提供商,提供实时数字人平台、虚拟演播室、人工智能大数据等一系列解决方案及产品,支持广电媒体、直播短视频中的虚拟主播及虚拟场景、影视动画虚拟内容制作、VR/AR 以及元宇宙内容制作等多个场景。截至202
142、2 年 9 月,世优科技已为客户制作了 600 余个虚拟 IP。其中,数字人“阿央”已经接入世优科技目前正在开发的 ChatGPT微信小程序世优数字人元宇宙。资料来源:公司官网,投资者平台问答,中银证券整理 续续图表图表 60.AIGC 产业链下游应用相关标的(产业链下游应用相关标的(3)应用类别应用类别 公司公司 代码代码 AIGC 相关业务相关业务 AIGC+教育 奥飞娱乐 002292.SZ 公司目前持有北京光年无限科技有限公司 5%股权。光年无限有自己的AI对话机器人产品-图灵机器人开放平台,4 月 6 日发布首个儿童版ChatGPT 产品,代号“智娃”,首先在儿童平板硬件商用落地。奥
143、飞娱乐拥有大量动漫 IP 内容,与图灵机器人进行内容合作。盛通股份 002599.SZ 公司 2017 年收购乐博乐博进入教育赛道,先后入主多家科技教育和AI人工智能头部企业,包括面向教学机构研发与销售机器人的中鸣数码,提供青少年编程能力等级测评考试服务的中少童创,战略投资线上编程 VIPCODE 等。成立盛通教育集团,业务涵盖青少年编程培训与测评、机器人编程教育销售、以及编程教育校园服务等领域 佳发教育 300559.SZ 目前公司产品主要划分为智慧招考和智慧教育两大板块,依托 AI人工智能、机器视觉和大数据分析等先进技术助力教育和教育管理质量和效率提升。智慧招考业务服务已覆盖国家教育部、人
144、社部大部分考试类型。南方传媒 601900.SH 公司是广东省地方国企,拥有当地中小学教材教辅的出版与发行权。公司基于自身的教材教辅资源优势,积极布局 AI+教育领域:1)公司旗下的粤教“AI听说”是一个 AI+语言学习平台,主要面向中小学生日常语言学习(英语&语文)所需“听、读、背、默”的融合出版产品,配有小程序、APP、PC 端。2)花城艺测:AI+音乐教育平台。该产品是由公司旗下的花城出版社打造,创新运用大数据、AI等技术所开发的中小学艺术素质测评与学习平台。恒信东方 300081.SZ 公司具备在儿童自然语言处理方面的独特优势,目前已应用于公司 AI合家欢平台“斯泰同学”;三维数字内容生产的 AIGC 化方向也是公司的长期研发方向之一。世纪天鸿 300654.SZ 公司在 2021 年和 2022 年分别对北京一笔两划科技有限公司和北京微橡科技有限公司进行了投资,对作文批改、精准教学、人工智能 NLP等领域进行了布局。另外,公司将利用已有的教辅产品用户和聚焦校内使用场景的优势与人工智能前沿技术结合。有道 DAO.O 公司布局 AI产业多年,在神经网络翻译、计算机视觉、智能语音 AI技术、高性能计算等方面具备核心技术,注重技术在教育和翻译等场景中的商业化落地。目前已在 AI口语老师、中文作文批改等细分学习场景中尝试应用。资料来源:公司官网,投资者平台问答,中银证券整理