《互联网行业逐浪大模型:互联网巨头的AI野望-230531(67页).pdf》由会员分享,可在线阅读,更多相关《互联网行业逐浪大模型:互联网巨头的AI野望-230531(67页).pdf(67页珍藏版)》请在三个皮匠报告上搜索。
1、 本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告证券研究报告海外行业深度海外行业深度 逐浪大模型:互联网巨头逐浪大模型:互联网巨头的的 A AI I 野望野望 核心观点核心观点 语言模型已步入大模型发展阶段,国内大模型研发应用热潮持续高涨,科技大厂在模型、算力、平台、应用进行了四位一体的全面布局,如阿里的“通义大模型+飞天智算平台+魔塔社区+行业应用”、百度的“文心大模型+昆仑芯+飞桨平台+行业应用”、腾讯的“混
2、元大模型+HCC 算力集群+太极机器学习平台+行业应用”、字节的“视觉语言模型+火山高速训练引擎+火山机器学习平台+行业应用”。大模型落地将形成 API、PaaS 和 MaaS 三种收费模式,目前仍以内部应用为主,后续主要向 B 端企业拓展服务,预计少数企业将在 C 端市场形成规模。摘要摘要 大模型发展全面加速,通过“预训练大模型发展全面加速,通过“预训练+精调”模式进行落地。精调”模式进行落地。语言建模经过统计语言模型、神经语言模型、预训练语言模型,已经全面迈入百亿、千亿参数规模的大语言模型阶段。大语言模型具备优秀的上下文学习能力、上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。
3、大模型研究存在 Google 的Bert 模式、OpenAI 的 GPT 模式和国内的混合模式三条技术线,以 ChatGPT 为主导 GPT 模式目前已经占据主流。目前,国内已有至少 19 家企业及科研院所参与人工智能大模型训练,主要分为大型科技公司、科研院所和初创科技团队三类。国际对比来看,目前美国领跑,中国跟跑,但差距不断缩小。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。互联网大厂在“模型、算力、平台和应用”互联网大厂在“模型、算力、平台和应用”
4、进行进行四位一体布四位一体布局。阿里“通义大模型局。阿里“通义大模型+飞天智算平台飞天智算平台+魔塔社区魔塔社区+行业应用”:行业应用”:在模型层,阿里达摩院主导大模型研究,发布通义大模型,包括通义 M6 多模态模型、通义 AliceMind 自然语言处理模型、通义视觉计算机视觉模型。在算力层,阿里云推出全栈智能计算解决方 维持维持 强于大市强于大市 孙晓磊 SAC 编号:S05 SFC 编号:BOS358 崔世峰 SAC 编号:S04 于伯韬 SAC 编号:S01 发布日期:2023 年 05 月 31 日 市场表现市场表现
5、相关研究报告相关研究报告 -14%6%26%46%66%86%2022/5/302022/6/302022/7/312022/8/312022/9/302022/10/312022/11/302022/12/312023/1/312023/2/282023/3/312023/4/30传媒标普500互联网互联网 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。案“飞天智算平台”,并启动两座超大规模智算中心。此外,阿里不仅拥有最多的英伟达 A100 芯片,还拥有自研芯片含光 800、倚天 710 芯片,共同为人工智能大模型提供算力。在平台层,阿里推出 AI 开源社区“魔搭”,旨
6、在打造下一代“模型即服务”的共享平台,整合业界多方模型提供者,为开发者提供预训练基础模型和 API接口。在应用层,阿里已宣布旗下所有产品未来将全面改造并接入通义大模型,包括天猫、钉钉、高德地图、淘宝、优酷、盒马等。百度“文心大模型百度“文心大模型+昆仑芯昆仑芯+飞桨平台飞桨平台+行业应用”:行业应用”:在模型层,百度文心大模型构建了“基础+任务+行业”三级模型;在算力层,算力基础设施均由百度智算中心支持,昆仑芯二代已广泛应用在文心大模型,预计昆仑芯三代将于 2024 年初量产;在平台层,百度飞桨 PaddlePaddle 是其自主研发的深度学习平台,文心大模型通过百度飞桨平台,实现模型训练、推
7、理部署和场景应用;在应用层,文心大模型将应用在电力、燃气、金融、生物医药、航天、传媒、城市、影视、制造、社科等多个行业。腾讯“混元大模型腾讯“混元大模型+HCC 算力集群算力集群+太极机器学习平台太极机器学习平台+行业应用”:行业应用”:在模型层,2022 年 4 月,腾讯对外披露了混元大模型,涉及自然语言处理、计算机视觉、多模态等多个领域。腾讯自研的太极机器学习平台为混元大模型提供算力,可支持 10TB 级模型训练、TB 级模型推理计算能力等。2023 年 3 月,腾讯对标 ChatGPT 已成立“混元助手”战略级项目组;在算力层,2023 年 4 月 14 日,腾讯云发布新一代 HCC 高
8、性能计算集群,其采用最新一代星星海自研服务器,搭载 NVIDIA H800 Tensor Core GPU,并基于自研网络、存储架构,带来3.2T 超高互联带宽 TB 级吞吐能力和千万级 IOPS;在平台层,腾讯自研搭建了业界一流的太极机器学习平台,致力于让用户更加聚焦业务 AI 问题解决和应用,一站式的解决算法工程师在 AI 应用过程中特征处理,模型训练,模型服务等工程问题;在应用层,混元大模型已成功应用于腾讯广告,将全面接入微信端、QQ 端和王者荣耀、英雄联盟游戏端,提供智能聊天、内容推荐、情感分析、故事生成、角色塑造等功能,以及腾讯混元大模型有望将在游戏、社交、金融、教育、医疗等领域发展
9、生态。字节“视觉语言模型字节“视觉语言模型+火山高速训练引擎火山高速训练引擎+火山机器学习平台火山机器学习平台+行业应用”:行业应用”:在模型层,字节在 AI 方面的积累主要集中在机器翻译、智能语音、视频图像和多模态四个领领域。字节跳动的研究成果包括非自回归模型 DA-Transformer、端到端语音到文本翻译模型 ConST、多颗粒度的视觉语言模型 X-VLM、图片和文本统一生成模型 DaVinci 等;在算力层,火山引擎在春季火山引擎 FORCE 原动力大会上正式发布自研 DPU 等系列云产品,并正式推出智能推荐-高速训练引擎,支持 100GB 至 10TB 以上超大模型的高效训练;在平
10、台层,火山引擎在2023 春季 FORCE 原动力大会发布了机器学习平台升级版,在数据管理、资源管理、流程和模型三大领域具备核心优势;在应用层,火山引擎的 AI 场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家客户,分别在视频创作、互动创作、直播短视频构建中推动客户业务增长。此外,字节在内部的相关产品持续引入 AI,包括海绵乐队、飞书 My AI 等。商业应用尚处早期,以商业应用尚处早期,以 API、PaaS、MaaS 三种模式为主。三种模式为主。当前全球大模型产业落地仍处于早期探索阶段,需要与下游场景企业合作建立大模型商业模式,但下游企业目前对于大模型的理解相对有限,所需要的
11、资源支撑比较薄弱。总的来说,大模型落地可以通过 API 接口调用付费、或者大厂提供落地所需的开发工具、云平台、服务等的 PaaS 模式、更进一步是直接提供相关定制好的模型调用的 MaaS 模式。海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。目录目录 摘要.1 一、大模型发展情况.1 1、行业发展历程.1 2、大语言模型概览.3 3、产业发展趋势.6 二、互联网大厂模型.8 1、阿里.8 1.1 模型.8 1.2 算力.12 1.3 平台.14 1.4 应用.15 2、百度.17 2.1 模型.18 2.2 算力.34 2.3 平台.36 2.4 应用.39 3、腾讯.42
12、 3.1 模型.42 3.2 算力.44 3.3 平台.45 3.4 应用.47 4、字节.51 4.1 模型.51 4.2 算力.52 4.3 平台.53 4.4 应用.54 三、商业模式.56 1、API 模式.56 2、PaaS 模式.57 3、MaaS 模式.59 风险提示.60 图目录 图 1:语言模型发展时间线.2 图 2:ChatGPT 发展时间线.3 图 3:大模型发展时间线.4 图 4:国产大模型发展时间表.5 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图 5:AIGC 模型十大开发机构.6 图 6:预训练语言模型参数量.6 图 7:训练大模型“预训
13、练+精调”模式.6 图 8:通义大模型架构.9 图 9:通义 M6 发展历史.9 图 10:M6-OFA 模型-任务完成模式(架构统一).10 图 11:M6-OFA 模型-预训练模式(模态统一).10 图 12:通义-AliceMind 发展历程.10 图 13:通义-AliceMind 在 CLUE 榜单中名列前茅.11 图 14:通义-视觉框架.11 图 15:飞天智算平台.12 图 16:S4 框架.14 图 17:魔塔社区特点.15 图 18:阿里所有产品将接入大模型升级.16 图 19:百度 AI 大底座.17 图 20:文心大模型全景图.18 图 21:文心基础大模型组成.18
14、图 22:文心 NLP 大模型发展历程.20 图 23:从大规模知识图谱和海量无结构数据中学习.21 图 24:融合自编码和自回归结构.21 图 25:基于飞桨 4D 混合并行技术进行高效训练.22 图 26:层次化提示(Prompt)学习技术.23 图 27:文心 PLATO 技术研发框架.23 图 28:PLATO 基于隐变量的生成式开放域对话大模型.24 图 29:PLATO 提出隐变量建模 Context 和 Response 的映射信息来解决一对多问题.25 图 30:PLATO-2 引入两阶段训练.25 图 31:PLATO-X 引入 role embedding 感知用户角色.2
15、6 图 32:UFO 架构.26 图 33:UFO 多任务联合优化.27 图 34:网络稀疏化(Path Routing).28 图 35:多规模网络学习(Stochastic Architecture Slimming).29 图 36:VIMER-UFO 2.0 单模型 28 个公开测试集 SOTA.29 图 37:VIMER-StrucTexT 2.0 文档图像表征学习.30 图 38:商品搜索中多模态信息存在信息缺失问题.31 图 39:商品搜索中多模态信息存在信息缺失问题.31 图 40:基于 VIMER-UMS 的多模态商品搜索.32 图 41:ERNIE-ViL 架构图.33 图
16、 42:ERNIE-ViL 融合场景进行判断.33 图 43:文心 ERNIE-ViLG 2.0 架构图.34 图 44:文心 ERNIE-ViLG 2.0 生成图示例.34 图 45:文心 ERNIE-ViLG 2.0 应用场景.34 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图 46:昆仑芯发展历程.35 图 47:昆仑芯产品迭代.35 图 48:飞桨平台全景图.36 图 49:飞桨四大领先技术.37 图 50:飞桨主流模型概览.37 图 51:飞桨硬件生态.38 图 52:飞桨产业实践范例库.38 图 53:飞桨位列中国深度学习市场应用规模第一.39 图 54:
17、飞桨在各指标位列榜首.39 图 55:百度全新 AI 搜索体系.40 图 56:百度文心行业大模型全景.41 图 57:文心大模型产品矩阵.42 图 58:腾讯混元 AI 大模型架构.43 图 59:HCC 大幅提速大模型训练.44 图 60:星星海自研服务器.44 图 61:网络集群算力.45 图 62:HCC 存储架构.45 图 63:太极机器学习平台架构.46 图 64:太极 AngelPTM.46 图 65:AI Lab 数字人.47 图 66:绝悟 RLogist 提出一种类似医生病理阅片的决策思路.48 图 67:文涌 2.0 基于混元大模型展现出生成能力.50 图 68:火山引擎
18、发布的智能推荐-高速训练引擎.53 图 69:火山引擎机器学习平台.54 图 70:智能创作云 SaaS 产品.55 图 71:中国大语言模型产业参与厂商类型与定位逻辑.56 图 72:TLT 进行预训练过程中的主要流程.58 1 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。一、大模型发展情况一、大模型发展情况 1、行业发展历程、行业发展历程 语言是人类表达和交流的突出能力,其在儿童早期发展并在一生中不断演变。然而,除非配备强大的人工智能(AI)算法,机器不会自然地掌握理解和使用人类语言的能力。要让机器像人类一样阅读、写作和交流一直是一个长期的研究挑战。从技术上讲,语言
19、建模(Language Model,LM)是提高机器语言智能的主要方法之一。一般来说,LM 旨在对单词序列的生成概率进行建模,以便预测未来(或缺失)单词的概率。LM 的研究在学界中得到了广泛的关注,可以分为四个主要发展阶段:统计语言模型(统计语言模型(SLM):):SLM 是基于 20 世纪 90 年代兴起的统计学习方法开发的。其基本思想是基于马尔可夫假设构建单词预测模型,例如根据最近的上下文预测下一个单词。具有固定上下文长度 n 的 SLM 也被称为n-gram 语言模型,例如二元和三元语言模型。SLM 已经被广泛应用于提高信息检索(IR)和自然语言处理(NLP)任务的性能。然而,它们经常受
20、到维度灾难的影响:由于需要估计指数级的转移概率,因此很难准确估计高阶语言模型。因此,专门设计的平滑策略,例如后退估计和 Good-Turing 估计已经被引入为缓解数据稀疏问题。神经语言模型(神经语言模型(NLM):):NLM 通过神经网络,例如递归神经网络(RNNs),来描述单词序列的概率。作为一个显着的贡献,Y.Bengio 和 R.Ducharme 等人引入了单词的分布式表示的概念,并构建了基于聚合上下文特征(即分布式单词向量)的单词预测函数。通过扩展学习词或句子有效特征的想法,已有研究开发了一种通用神经网络方法来为各种自然语言处理任务构建统一解决方案。此外,word2vec 提出了构建
21、一个简化的浅层神经网络,用于学习分布式单词表示,这在各种 NLP 任务中被证明非常有效。这些研究开创了语言模型用于表示学习(超越了词序列建模)的应用,对 NLP 领域产生了重要影响。预训练语言模型(预训练语言模型(PLM):):作为早期尝试,ELMo 被提出来通过预训练一个双向 LSTM(biLSTM)网络(而不是学习固定的词表示)来捕捉上下文感知的词表示,然后根据特定的下游任务微调 biLSTM 网络。此外,基于高度可并行化的 Transformer 架构和自注意力机制,BERT 提出了通过在大规模无标注语料库上设计特定的预训练任务来预训练双向语言模型。这些预训练的上下文感知的单词表示非常有
22、效,可作为通用语义特征,大大提高了 NLP 任务的性能。这项研究启发了大量的后续工作,建立了“预训练和微调”学习范式。在此范式下,开发了大量关于 PLM 的研究,引入了不同的架构(例如 GPT-2 和 BAR)或改进的预训练策略。在这个范式中,通常需要微调 PLM 以适应不同的下游任务。大型语言模型(大型语言模型(LLM):):研究人员发现,扩展 PLM(例如扩展模型大小或数据大小)通常会导致模型在下游任务上具有更强的能力(即遵循缩放定律)。一些研究探索了通过训练更大的 PLM(例如 175B 参数的 GPT-3和 540B 参数的 PaLM)来达到性能极限。尽管缩放主要是在模型大小(具有类似
23、的架构和预训练任务)方面进行的,但这些大型 PLM 显示出与较小 PLM(例如 330M 参数的 BERT 和 1.5B 参数的 GPT-2)不同的行为,并展现出令人惊讶的能力(称为涌现能力)以解决一系列复杂任务。例如,GPT-3 可以通过上下文学习来解决少样本任务,而 GPT-2 做不好。因此,研究界为这些大型 PLM 创造了“大型语言模型(LLM)”的术语。LLM 的一个显著应用是 ChatGPT,它利用 GPT 系列的 LLM 适应对话,具有惊人的与人类对话的能力。大语言模型相较于以往的语言模型具备显著优势,其具备优秀的上下文学习能力、可观的知识容量、优秀的泛化性和复杂推理能力。2 海外
24、行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。大型语言模型研究的发展大型语言模型研究的发展有三条技术路线:有三条技术路线:Bert 模式、模式、GPT 模式、混合模式。模式、混合模式。其中国内大多采用混合模式,多数主流大型语言模型走的是 GPT 技术路线,直到 2022 年底在 GPT-3.5 的基础上产生了 ChatGPT。到 2019 年后,Bert 路线基本没有标志性的新模型更新,而 GPT 技术路线则趋于繁荣。从 Bert 往 GPT 演化的过程中,模型越来越大,所实现的性能也越来越通用。各类大语言模型路线各有侧重,GPT 模式在生成类任务表现最优。大型语言模型按照从
25、数据到知识来划分,数据可分为通用数据和领域数据,知识分为语言知识和世界知识。从任务类型来划分,大型语言模型可以分为单一任务和多任务、理解类和生成类;Bert 模式有两阶段(双向语言模型预训练+任务 Fine-tuning),适用于理解类以及某个场景的具体任务,表现得“专而轻”。GPT 模式是由两阶段到一阶段(单向语言模型预训练+zero-shot prompt),比较适合生成类任务、多任务,表现得“重而通”。T5模式则将两者的方法结合,包含有两阶段(单向语言模型预训练+Fine-tuning)。根据当前研究结论,如果模型规模不特别大,面向单一领域的理解类任务,适合用 T5 模式,而 GPT 模
26、式在做生成类任务时的效果最好。综合来看,当前几乎所有参数规模超过千亿的大型语言模型都采取 GPT 模式。图图 1:语言模型发展时间线语言模型发展时间线 数据来源:真格基金,中信建投 如今,LLM 正在对人工智能社区产生重大影响,ChatGPT 和 GPT-4 的出现引发了重新思考人工智能通用智能(AGI)的可能性。OpenAI 已经发表了一篇名为“Planning for AGI and beyond”的技术文章,讨论了实现 AGI的短期和长期计划,而最近的一篇论文则认为 GPT-4 可能被视为一个早期版本的 AGI 系统。LLM 的快速进步正在彻底改变人工智能的研究领域。在自然语言处理领域,
27、LLM 可以在某种程度上充当通用语言任务求解器,研究范式已经转向使用 LLM。在信息检索领域,传统的搜索引擎正在被 AI 聊天机器人(即 ChatGPT)挑战,而 New Bing 则是基于 LLM 增强搜索结果的初始尝试。在计算机视觉领域,研究人员试图开发类似于 ChatGPT的视觉语言模型,以更好地服务于多模态对话,而 GPT-4 通过集成视觉信息已经支持多模态输入。这股新的技术浪潮有可能会导致基于 LLM 的真实世界。例如,Microsoft 365 正在被 LLM(如 Copilot)赋能以自动化办公工作,而 OpenAI 支持在 ChatGPT 中使用插件来实现特殊功能。起源于 Tr
28、ansformer 模型,ChatGPT 经过 5 年迭代成功出世。ChatGPT 的诞生经历了从 Transformer-GPT-GPT2-GPT3-ChatGPT 的逐步迭代过程,其具体发展历程如下:(1)2017 年 6 月,Google 发布论文 Attention is all you need,首次提出 Transformer 模型,成为 GPT 发展的基础;(2)2018 年 6 月,OpenAI 发布论文 Improving Language Understanding by Generative Pre-Training,首次提出 GPT 模型,即 GPT-1,模型参数量达
29、1.17 亿;(3)GPT-1GPT-2GPT-3Instruct-GPTGPT模式模式ChatGPTT5BARTM2m-100BigBird混合模式混合模式Bert模式模式BERTCNNRNNGANTransfo-rmer国内国内LLMMachineLearning基于规则基于规则的少量数的少量数据处理据处理RoBERTaXLMALBERT基于模版和规则的前深度学习阶段根据一定范围的的数据进行参数分类开始模仿人脑进行大量数据的标记和训练对人脑学习过程进行重点关注1950年开始年开始神经网络神经网络1980年开始年开始1990年开始;年开始;2006年获得年获得突破突破2017年年2018年年
30、2019年年2020年年2022年年进行海量数据学习训练,人类的反馈信息成为模型学习的内容 3 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。2019 年 2 月,OpenAI 发布论文Language Models are Unsupervised Multitask Learners,提出 GPT-2 模型,大模型共计 48 层,参数量达 15 亿;(4)2020 年 5 月,OpenAI 发布论文Language Models are Few-Shot Learners,提出 GPT-3 模型,参数量达 1750 亿;(5)2022 年 2 月底,OpenAI 发布
31、论文Training language models to follow instructions with human feedback,公布 Instruction GPT 模型,参数量达 13 亿;(6)2022 年 11 月 30 日,OpenAI推出 ChatGPT 模型,并提供试用。图图 2:ChatGPT 发展时间线发展时间线 数据来源:OpenAI,中信建投 2、大语言模型概览、大语言模型概览 通常,大型语言模型(LLMs)是指包含数千亿(或更多)参数的语言模型,它们是在海量文本数据上进行训练的,例如 GPT-3,PaLM,Galactica 和 LLaMA。具体来说,LLMs
32、 建立在 Transformer 架构之上,其中多头注意力层在一个非常深的神经网络中堆叠。现有的 LLMs 主要采用类似的模型架构(即 Transformer)和预训练目标(即语言建模)作为小型语言模型。作为主要区别,LLMs 大量扩展了模型大小、预训练数据和总计算量(数量级)。它们可以更好地理解自然语言,并基于给定的上下文(即提示)生成高质量的文本。这种能力提升可以部分地由缩放法则描述,即性能大致随着模型大小的增加而显著增加。然而,一些能力(例如上下文学习)是不可预测的,只有当模型大小超过一定水平时才能观察到。百亿参数量级别的模型:百亿参数量级别的模型:这类模型的参数规模除了 LLaMA(最
33、大版本 65B 参数)和 NLLB(最大版本 54.5B参数),大多在 10B 至 20B 之间。这一参数范围内的模型包括 mT5、PanGu-、T0、GPT-NeoX-20B、CodeGen、UL2、Flan-T5 和 mT0 等。其中,Flan-T5(11B 版本)可以作为研究指令微调的首选模型,因为它从三个方面探索了指令微调:增加任务数量、扩大模型规模和使用思维链提示数据进行微调。CodeGen(11B)是一个为生成代码设计的自回归语言模型,可用作探索代码生成能力的候选模型,其提出了一个新的基准测试 MTPB,专门用于多轮程序合成,由 115 个专家生成的问题组成,为了解决这些问题,需要
34、大语言模型获得足够的编程知识(例如数学、数组操作和算法)。对于多语言任务,mT0(13B)可能是一个比较好的候选模型,因为它在多语言任务中使用多语言提示进行微调。此外,对于中文的下游任务,PanGu-具有较好的表现,特别是在零样本或小样本的设置下,该模型基于深度学习框架 MindSpore 开发,拥有多个参数版本(最大版本 200B 参数),而最大的公开版本只有 13B 参数。此外,作为最近发布的模型,LLaMA(65B)在与指令遵循相关的任务中展2016.4第一个项目OpenAI OpenAI Gym BetaGym Beta发布,以开发和比较不同强化学习算法2017.5开源一个重现强化学习
35、算法的工具OpenAI OpenAI BaselinesBaselines,提供用于正确的强化学习算法实现的最佳实践2018.6发布GPTGPT,一个在诸多语言处理任务上都取得了很好结果的算法,首个将Transformer与无监督预训练技术相结合的算法,其取得的效果好于已知算法2019.2发布拥有15亿参数GPTGPT-2 2,基于800万网页数据、40GWeb Text作为训练数据2019.4首次将生成模型从首次将生成模型从自然语言处理领域自然语言处理领域扩展到其他领域:扩展到其他领域:公布MuseNetMuseNet,一个深度神经网络,可以用10种不同的乐器生成4分钟的音乐作品,并且可以结
36、合从乡村到莫扎特到披头士的风格2020.4发布MicroscopeMicroscope,一个用于分析神经网络内部特征形成过程的可视化工具2020.5发布GPTGPT-3 3模型模型,对于所有任务,无需进行任何梯度更新或微调,仅通过与模型的文本交互指定任务和少量示例即可获得很好的效果;一个月后,发布Image GPTImage GPT模型模型,将GPT的成功引入计算机视觉领域2021.1发布CLIPCLIP,能有效地从自然语言监督中学习视觉概念,可以应用于任何视觉分类基准,只需提供要识别的视觉类别名称2021.1发布DALL EDALL E模型模型,一个120亿个参数的GPT-3版本,被训练成使
37、用文本-图像对的数据集,从文本描述中生成图像2022.1发布InstructGPTInstructGPT,大量使用了人类反馈与指导,在GPT3的基础上,进一步精调,使得输出更加可控2022.4发布DALL E 2.0DALL E 2.0,其效果比第一个版本更加逼真,细节更加丰富且解析度更高2022.9发布WhisperWhisper,一个语言识别预训练模型,结果逼近人类水平,支持多种语言2022.11发布ChatGPTChatGPT,一个AI对话系统,可以写代码,写博客、写短剧等等 4 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。现了卓越的性能。由于其开放性和有效性,L
38、LaMA 引起了研究界的广泛关注,许多工作致力于微调或继续训练其不同的模型版本以实现新模型或工具的开发。百亿参数量级别的模型通常需要数百甚至上千个 GPU 或 TPU。例如,GPT-NeoX-20B 使用了 12 个微服务器,每个服务器配备了 8 个 NVIDIA A100-SXM4-40GBGPU,LLaMA使用了 2048 个 A100-80GGPU。为了准确估计所需的计算资源,我们还是建议使用衡量涉及计算量的指标,例如计算 FLOPS(每秒浮点数运算次数)。千亿参数量级别的模型:千亿参数量级别的模型:在这类模型中,只有少数几个模型进行了公开发布。其中,OPT、OPT-IML、BLOOM和
39、 BLOOMZ 的参数量几乎与 GPT-3(175B)大致相同,而 GLM 和 Galactica 的参数数量分别为 130B 和 120B。其中,OPT(175B)专注于复现和开源,旨在使研究人员能够进行大规模可重复研究。对于跨语言泛化研究,可以将 BLOOM(176B)和 BLOOMZ(176B)用作基础模型,因为其在多语言建模任务中具有较好的能力。在这些模型中,OPT-IML 进行了指令微调,是研究指令微调效果的较好选择。千亿参数量级别的模型通常需要数千个 GPU 或 TPU 进行训练。例如,OPT(175B)使用了 992 个 A100-80GBGPU,GLM(130B)使用了 96
40、个NVIDIADGX-A100(8x40G)GPU 节点集群。图图 3:大模型发展时间线大模型发展时间线 数据来源:Arxiv,中信建投证券 据中移智库统计,截止到 2023 年 4 月 18 日,国内至少有 19 家企业及科研院所涉足人工智能大模型训练,主要分为大型科技公司、科研院校和初创科技团队三类。具体来看:百度、阿里等 12 家大型科技公司和中国科学院、清华大学等 3 家科研院校已经提供开放测试,或有明确的推出时间计划;字节跳动、搜狗创始人王小川、美团创始人王慧文、创新工场创始人李开复等则是最近对外宣布组建团队,进军大模型研发领域。其中,字节跳动旗下火山引擎于 4 月 18 日发布自研
41、 DPU(数据处理器)等系列云产品,推出新版机器学习平台,可以支持万卡级大模型训练、微秒级延迟网络,为预训练模型提供强大的算力支持。5 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 4:国产大模型发展时间表国产大模型发展时间表 数据来源:各公司官网,中信建投证券 从大模型的布局体系来看,科技大厂在算力层、平台层、模型层、应用层进行了四位一体的全面布局。百度、阿里、华为三家均从芯片到应用进行自主研发的全面布局,如百度的“昆仑芯+飞桨平台+文心大模型+行业应用”、阿里的“含光 800 芯片+M6-OFA 底座+通义大模型+行业应用”、华为的“昇腾芯片+MindSpore
42、 框架+盘古大模型+行业应用”。垂直行业科技企业和科研院校,主要以研发大模型算法及细分领域应用为主,自有算力相对薄弱,很少涉及芯片领域自主研发。从大模型参数量看,科技大厂的参数量远大于科研院所。科技大厂的大模型参数量较大:阿里通义千问大模型参数在 10 万亿级以上、腾讯混元大模型和华为盘古大模型参数量均在万亿级以上、百度文心一言大模型参数量在 2 千亿级以上、京东言犀大模型的参数量为千亿级;垂直行业科技企业已经上线的参数量普遍在千亿级以上;而科研院校大模型的参数量在千亿级及以下。从大模型应用方向看,大部分企业前期以内部应用为主,后续主要向 B 端企业拓展服务,预计少数企业将在 C 端市场形成规
43、模。目前,百度文心大模型、华为盘古大模型、中国科学院紫东太初大模型均在 B 端垂类市场积累了标杆应用案例,腾讯混元大模型、阿里通义大模型则更多聚焦公司自身业务。而在 C 端市场应用方面,百度文心一言、阿里通义千问、腾讯混元助手三类大模型最有可能向此方向拓展,但目前只有百度文心一言大模型正在进行友好客户测试,阿里通义千问大模型则计划在今年 9 月份进行公测,腾讯混元助手大模型则处于计划开发状态。从大模型业界评估看,国内大模型与 GPT-4 有较大差距,但科技大厂具备追赶实力。目前国内大模型处于百花齐放的状态,但业界普遍认为,第一梯队当属百度、阿里巴巴、腾讯、华为四家。综合实力方面,四家企业在大模
44、型研发投入、技术能力和人才团队实力较强;商用推进方面,四家企业均依托现有业务领域更容易形成大模型应用规模效应。从模型数量和参数量来对比,美国领跑,中国跟跑,且差距不断缩小。从 AIGC 模型数量来看,全世界前十的 AIGC 模型研发者中,中国机构占了四个。包括其中有学院派的 BAAI 智源研究院和清华大学,也有产业界的百度和阿里巴巴研究院。虽然以色列的实验室 AI21 和加拿大初创公司 Cohere 也在构建大型模型,但中国是除英美以外唯一拥有多实验室的参与者。在模型预训练参数方面,中国在模型的规模和性能方面大概落后西方一年。例如,OpenAI 在 2020 年 6 月推出 GPT-3 模型,
45、中国的智源、华为、百度在差不多一年之后才研发出2023.3.23OpenAIGPT开放开放Plugins功能功能2022.11OpenAI推出推出ChatGPT2023.2.27Meta开源开源LLaMA2023.3.2OpenAI推出推出ChatGPT API2023.11Google发布发布PaLM-E2023.3.15OpenAI推出推出GPT-4.0及及API2023.3.16微软/百度发布发布Microsoft 365 Copilot发布百度文心一言发布百度文心一言2023.32023.3.20英伟达/Google英伟达开发者大会英伟达开发者大会谷歌正式开放谷歌正式开放Bard202
46、3.52023.5.6科大讯飞星火大模型星火大模型2023.5腾讯发布混元大模型发布混元大模型2023.5.6GoogleI/O大会,推出融合的大会,推出融合的AIGC的的Gmail和和Google Docs2023.5.23微软微软开发者大会,发布新微软开发者大会,发布新Windows等等2023.5.6苹果全球开发者大会,发布全球开发者大会,发布MR设备设备2023.62023.42023.4.11阿里通义千问通义千问2023.4.10360/商汤科技360智脑智脑商汤日日新商汤日日新2023.4.13知乎知乎图知乎图AI2023.4.10华为盘古系列盘古系列AI大模型大模型2023.4.
47、17昆仑万维天工大模型天工大模型2023.4.18字节跳动推出大模型训练云平台推出大模型训练云平台2023.4.18腾讯混元在五大跨模态视频检混元在五大跨模态视频检索数据集榜单夺冠索数据集榜单夺冠 6 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。了体量与之相当的模型,又用了一段时间才让模型的技能和 GPT-3 相媲美。但 ChatGPT 在 12 月推出后,科大讯飞在 5 月的时间推出的星火大模型,基本上已经可以对标 ChatGPT。图图 5:AIGC 模型十大开发机构模型十大开发机构 图图 6:预训练语言模型参数量预训练语言模型参数量 数据来源:Leonis Capi
48、tal,中信建投证券 数据来源:Leonis Capital,中信建投证券 3、产业发展趋势、产业发展趋势 大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放 API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。大模型的核心作用是突破数据标注的困境,通过学习海量无标注的数据来做预训练,拓展整体模型前期学习的广度和深度,以此提升大模型的知识水平,从而低成本、高适应性地赋能大模型在后续下游任务中的应用。在实践中,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练
49、+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。图图 7:训练大模型“预训练训练大模型“预训练+精调”模式精调”模式 数据来源:IDC,中信建投证券 文本 知识 图像.视频产业应用产业应用原子能力原子能力任务相关少量数据海量无标注数据精调精调应用应用精调精调专业教育预训练预训练通识教育类似人类学习机制自监督学习自监督学习智能检索智能推荐智能客服智能审核工业质检智能录入.智能对话智能创作智能回答文档理解目标检测图像分割.7 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。大模型增强了 AI 技术的通用性,让开发者以更低成
50、本、更低门槛,面向场景研发更好的 AI 模型,助力普惠 AI 的实现。但目前,基础大模型距离大规模产业应用并成为产业基座还有很长的一段路要走,不仅需要有与场景深度融合的大模型体系,也需要有支持全流程应用落地的专业工具和平台,还需要开放的生态来激发创新;三层之间交互赋能,才能形成良性循环的产业智能化生态共同体。我们看到 OpenAI 在开发 GPT 大模型的过程中具有相似的思路,在不断加强大模型本身性能的同时,将 GPT 打包成产品,对外提供 API 服务,相关开发者、企业、学术机构以及高校都可以申请使用。开放后,大量开发者利用 API 开发出了各种各样的功能,例如翻译机、网站生成器等;Open
51、AI 则通过用户获取了更多的行为数据,形成了对 GPT 的反哺。由此可见,“模型+工具平台+生态”三层共建有助于业务的良性循环,也更容易借助长期积累形成竞争壁垒。模型层是大模型能力的核心引擎。模型层从技术发展与产业应用出发,主要包含基础、任务、行业大模型,模型的训练要求高,算力消耗大,建设人员主要为高级算法人员。基础大模型主要优势在于其通用性,可以让该技术方向的相关应用任务都得到进一步提升,但也正是这样的优势导致基础大模型在行业、任务中表现尚未最优。任务大模型是在基础大模型上,面向典型的任务,如对话、搜索、文档智能、人脸识别、OCR 等,进一步结合任务特性,优化模型算法,学习任务相关数据与知识
52、,从而使得大模型在任务上表现出更优异的效果,很多任务甚至可以零样本直接应用。行业大模型是在基础或任务大模型上,进一步融合行业数据、知识以及专家经验,提升大模型对行业应用的适配性,目前在金融、能源、制造、传媒、城市等已经有头部企业或机构与科技公司或科研单位联合发布了行业大模型。基础+任务+行业三层大模型相互促进,共同支撑起产业转化。工具平台层将大模型落地研发标准化,推动 AI 广泛落地。大模型在深度学习平台的有力支撑下,实现了高效生产并真正为产业所用,深度学习平台为大模型解决硬件适配,提供蒸馏、剪枝、压缩等技术并向外输出部署方案,支撑自然语言处理、计算机视觉、跨模态等各类大模型的应用。同时,基于
53、深度学习平台进一步推出基于大模型的 AI 开发平台、工具套件、大模型 API 等,将基于大模型的精调、大模型能力调用产品化,让更多AI应用型开发者或业务专家,可以零门槛或低门槛地将大模型应用于自己的业务中,以此全面释放大模型效能,助力开发者效率提升。生态层是基于大模型能力打造共创、共享社区。大模型“预训练+精调”的新研发范式,让 AI 在识别、理解、生成等方面的能力实现突破,带来深度语义理解、智能交互、内容生成的技术与产品变革动能。打造基于大模型能力的生态,提供能力、工具、服务,连接供需,吸引更多的开发者和企业共创、共享,是释放大模型潜力的重要路径。“模型+工具平台+生态”的模式需要协同优化,
54、拓宽人工智能技术落地的场景覆盖广度,加深产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。“模型+工具平台+生态”的模式需要协同优化,才能拓宽人工智能技术落地的场景覆盖广度,加深产业实际应用的深度,共同加速产业智能化,推动人工智能技术赋能千行百业,惠及千家万户。8 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。二、互联网大厂模型二、互联网大厂模型 1、阿里、阿里 阿里以“通义大模型+飞天智算平台+魔塔社区+行业应用”成为大模型全部环节的重要参与者。2019 年,阿里达摩院开启大模型研究。2022 年 9 月,阿里正式发布通义大模型,包括通
55、义 M6 多模态模型、通义 AliceMind自然语言处理模型、通义视觉计算机视觉模型。2022 年 11 月,阿里推出 AI 开源社区“魔搭”(ModelScope),旨在打造下一代“模型即服务”的共享平台,整合业界多方模型提供者,为开发者提供预训练基础模型和 API接口。目前该平台已有超过 300 个开源模型,包括阿里自有的通义大模型系列以及澜舟科技孟子系列模型等外部资源和能力。2023年4月,阿里正式发布了“通义千问”产品,该产品基于10万亿级参数的大模型底座M6-OFA,未来将具有多轮交互及复杂指令理解、可多模态融合、支持外部增强 API 等多种能力。另外,阿里不仅拥有最多的英伟达 A
56、100 芯片,还拥有自研芯片含光 800、倚天 710 芯片,共同为人工智能大模型提供算力。1.1 模型 阿里推出“通义”系列大模型,由统一底座层、通用模型层、行业模型层组成,不仅通用多种任务,又容易落地应用,其中,应用在 B 端更有优势。2022 年 9 月 2 日,阿里推出“通义”系列大模型,核心模型通过“魔搭”社区向全球开发者开源开放,推出“飞天智算平台”提升 AI 训练效率。通义大模型通过打造业界首个 AI统一底座并构建大小模型协同的层次化人工智能体系,解决了大模型通用性与易用性仍欠缺的难题。通义大模型由统一底座层、通用模型层、行业模型层组成。其中,统一底座是基于 transforme
57、r 框架,由统一学习范式和模块化设计理念构成;通用模型层主要包括通义-M6、通义-AliceMind 和通义-CV 三大模型体系。由于低训练能耗优势,通义大模型运行速度加快,例如,M6 在相同参数规模下的训练能耗仅是 GPT-3 的 1%。目前,阿里通义大模型已广泛用于电商、设计、医疗、法律、金融等领域,助力其降本增效。而在落地应用方面,阿里原有的产品资源导致其在 B 端更有优势。阿里巴巴于 2023 年 4 月 7 日推出通义千问大语言模型内测。在 4 月 11 日的 2023 阿里云峰会上,阿里巴巴 CEO 张勇表示阿里巴巴所有产品未来将接入通义千问大模型,进行全面改造,包括天猫、钉钉、高
58、德地图、淘宝、优酷、盒马等。阿里将结合 200 多万的企业用户和辐射的 2-3 亿真实活跃用户资源,把文本作为核心场景镶嵌到钉钉的三大入口,预计 2023Q3 推送给部分 B 端客户的企业钉。9 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 8:通义大模型架构通义大模型架构 数据来源:机器之心,中信建投证券 通义-M6 属于多模态模型,覆盖文本和语音模态,在短时间内高速发展,并实现架构、模态和任务统一。通义-M6(英文全称是 MultiModality-to-MultiModality Multitask Mega-transformer,6 个 M,简称 M6)包
59、括图文生成,图文理解,多模态对话,运动预测,运动生成,语音理解,语音生成,多模态检测和分割。通义-M6已经从 2020 年 6 月的 3 亿参数基础模型逐渐发展到 2021 年 10 月的 10 万亿参数全球最大预训练模型再到 2022年 1 月的业界首个通用统一大模型 M6-OFA。2020 年 1 月,阿里巴巴达摩院启动中文多模态预训练模型 M6 项目,同年 6 月推出 3 亿参数的基础模型。2021 年 1 月,模型参数规模到达百亿,已经成为世界上最大的中文多模态模型。2021 年 3 月,千亿参数模型 KDD2021 发布,与 10B 模型相比:训练损失减少 37%,在许多下游任务实现
60、 SOTA 结果;混合精度提亮 90%的效率;仅需 32 张 v100GPU 即可完成训练。2021 年 5 月,具有万亿参数规模的模型正式投入使用,追上了谷歌的发展脚步。2021 年 10 月,M6 的参数规模扩展到 10 万亿,成为当时全球最大的 AI 预训练模型。2022 年 1 月,业界首个通用的统一大模型 M6-OFA 发布。图图 9:通义:通义 M6 发展历史发展历史 数据来源:机器之心,中信建投证券 架构统一方面,架构统一方面,M6-OFA 整体采用了经典的 Transformer Encoder-Decoder,外加一个 ResNet Blocks。通过通义大模型架构行业模型行
61、业模型通用模型通用模型模型底座模型底座电子商务基础科学城市大脑智能交互智慧医疗自动驾驶工业视觉数字人智能设计智慧法律智慧海关智能物流智能农业智能能源图文生成图文理解多模态对话通义通义-M6运动预测运动生成语言理解语音生成多模态检测和分割通通义义-AliceMind多语音模型文本理解文本生成表格模型搜索模型对话模型视觉文档模型开放域对话通通义义-AliceMind图像表征视频表征图像生成视频生成物体检测语义分割图像分类图像编辑因果推断不同模态统一语言视频图像语音时序信号语言编码器特征到语言生成语言生成器语言和视觉的模态关联特征到视觉生成视觉编码器视觉生成器层次化结构模块化设计易于迭代部署2020
62、.1正式启动2020.6基础模型(3亿)2021.1发布百亿参数多模态预训练模型2021.3千亿参数模型,KDD2021 与10B模型相比,训练损失减少37%,在许多下游任务实现SOTA结果 混合精度提高90%的效率 仅需32卡v100GPU即可完成千亿参数训练2021.5万亿参数模型,绿色低碳训练、文本到图生成、商业化一流结果2021.10十万亿参数模型,全球最大预训练模型 10万亿参数模型仅需要512卡v100 GPU 提出的Pseudo-to-Real机制将训练速度提高了7倍以上 粒度级控制的CPU Offload 模块2022.1业界首个通用的统一大模型M6-OFA(模态、任务和架构)
63、10 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。这种架构完成所有任务,让预训练和微调采用相同的学习模式,无需增加任何任务特定的模型层。如下图所示,ResNet Blocks 用于提取图像特征,Transformer Encoder 负责多模态特征的交互,Transformer Decoder 采用自回归方式输出结果。模态统一模态统一方面方面,M6-OFA 构建了一个涵盖不同模态的通用词表,以便模型使用该词表表示不同任务的输出结果。其中 BPE 编码的自然语言 token 用于表示文本类任务或图文类任务的数据;图片中连续的横纵坐标编码为离散化 token,用于表示视觉定
64、位、物体检测的数据;图片中的像素点信息编码为离散化 token,用于表示图片生成、图片补全等任务的数据。任务统一任务统一方面方面,通过设计不同的 instruction,M6-OFA 将涉及多模态和单模态(即 NLP 和 CV)的所有任务都统一建模成序列到序列(seq2seq)任务。M6-OFA 覆盖了 5 项多模态任务,分别为视觉定位、定位字幕、图文匹配、图像字幕和视觉问答(VQA);2 项视觉任务,分别为检测和图像填补;1 项文本任务,即文本填补。图图 10:M6-OFA 模型模型-任务完成模式(架构统一)任务完成模式(架构统一)图图 11:M6-OFA 模型模型-预训练模式(模态统一)预
65、训练模式(模态统一)数据来源:机器之心,中信建投证券 数据来源:机器之心,中信建投证券 2023 年 2 月,M6-OFA 统一多模态模型在一系列视觉语言任务中实现了 SOTA 性能,在 Image Caption 任务取得最优表现,长期在 MSCOCO 榜单排名第一;在视觉定位任务中的 RefCOCO、RefCOCO+和 RefCOCOg 三个数据集均取得最优表现,以及在视觉推理任务的数据集 SNLI-VE 上取得第一。OFA 的 VQA 分数达到 82.0,效果名列前茅。文本生成图像(text2Image)在 COCO 数据集上超越了此前基线模型,当时的 Case 对比也优于 GLIDE
66、和 CogView。并且,OFA 模型展现出一定的零样本学习新任务的能力。AliceMind 是 NLP 的深度语言模型体系,以通用预训练语言模型 StructBERT 为基础,拓展到超大的领域模型、多语言、多领域、多模态方向,可用于结构化、生成式、知识驱动等应用。AliceMind,取名来自 Alibabas Collection of Encoder-decoders from MinD(Machine Intelligence of Damo),是阿里达摩院机器智能技术实验室倾力打造的具有领先性和系统化的深度语言模型体系。AliceMind 的核心应用场景有:文本标签分类、序列标注、智能
67、中文生成(如商品描述写作推荐、小说续写、古诗生成、菜谱生成等)、多模态问答(如 VQA,图片问答)、问答对自动生成等。Alicemind 已经服务阿里内部和外部客户几百个场景。图图 12:通义通义-AliceMind 发展历程发展历程 数据来源:AliceMind官网,中信建投证券 通义-AliceMind 属于 NLP 模型,覆盖自然语言相关模态,在覆盖,技术,开放普惠三方面领先,中文语言2019.022019.022019.092019.092019.112019.112020.062020.062020.072020.072020.082020.082021.052021.05通用语言模
68、型StructBert登顶GLUE榜首通用语言模型StructBert被顶会ICLR2020接受通用语言模型StructBert上线ALINLP平台电商、医疗、娱乐等领域模型上线ALINLP平台生成式语言模型PALM上线ALINLP平台ALICE内6大模型全面登顶GLUE、XTREME等6大榜单多语言模型VECO、结构化语言模型Structural-LM被顶会ACL2021录用 11 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。理解水平出色。通义-AliceMind 涉及多语言模型,文本理解,文本生成,表格模型,搜索模型,对话模型,视觉文档模型,开放域对话。该模型体系包
69、含了通用语言模型 StructBERT、生成式语言模型 PALM、结构化语言模型 StructuralLM 等八个语言模型,在多语言、多模态、结构化等多个预训练语言模型的全面覆盖,模型的技术领先,围绕预训练+精调语言模型的技术开源这三方面具有优势。2022 年 11 月 25 日,通义-AliceMind 在中文自然语言理解权威榜单 CLUE 获得了 AI 首次超越人类成绩(86.678 分)的新纪录,在多个下游语言任务中实现最优结果,达到了中文语言理解水平新高度。同时,相关技术已应用于医疗、电商、法律、跨境电商等领域。图图 13:通义通义-AliceMind 在在 CLUE 榜单中名列前茅榜
70、单中名列前茅 数据来源:AliceMind官网,中信建投证券 通义通义-视觉属于视觉属于 CV 模型模型,覆盖图像,视频模态。通义-视觉大模型自下往上分为底层统一算法架构、中层通用算法和上层产业应用,由两个基础模型构成,能够实现视频处理、视觉问答、视觉算数等多种算法,在电商、交通、自动驾驶等领域发挥作用。图图 14:通义通义-视觉框架视觉框架 数据来源:机器之心,中信建投证券 上层上层产业应用产业应用中层中层通用算法通用算法底层统一底层统一算法架构算法架构电子商务城市大脑AI医疗工业视觉智能农业手机拍照自动驾驶AIOT视频处理视觉问答视觉算术知识抽取因果推断通用识别通用聚类通用检测通用分割图像
71、处理视觉生成器语言编码器文字到视觉生成视觉编码器语言编码器特征到语言生成语言生成器语言和视觉的模态关联特征到视觉生成视觉编码器视觉生成器基础模型I基础模型II 12 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。1.2 算力 2022 年,阿里云推出全栈智能计算解决方案“飞天智算平台”,并启动两座超大规模智算中心,为科研、公共服务和企业机构提供强大的智能计算服务,可将计算资源利用率提高 3 倍以上,AI 训练效率提升 11 倍,推理效率提升 6 倍。飞天智算平台源于阿里巴巴内部广泛实践,也源于广泛的产业智能实践。飞天智算平台源于阿里巴巴内部广泛实践,也源于广泛的产业智能实
72、践。目前,该平台正在支撑建设两座超大规模智算中心。张北智算中心建设规模为 12 EFLOPS(每秒 1200 亿亿次浮点运算)AI 算力。在云端,张北智算中心支撑 AI 预训练大模型、AI Earth、数字人等前沿 AI 应用,将成为全球最大的智算中心。乌兰察布智算中心建设规模为 3 EFLOPS(每秒 300 亿亿次浮点运算)AI 算力,位于“东数西算”内蒙古枢纽节点,采用自然风冷、AI 调温等绿色技术,实现绿色低碳。图图 15:飞天智算平台飞天智算平台 数据来源:公司官网,中信建投证券 通过先进的技术架构,飞天智算平台实现了 90%的千卡并行计算效率,可将算力资源利用率提高 3 倍以上,A
73、I 训练效率提升 11 倍,推理效率提升 6 倍。突破计算效率极限。突破计算效率极限。飞天智算平台采用先进的技术架构,将衡量算力效率的核心指标“千卡并行计算效率”,从传统架构的 40%提升至 90%,可将算力资源利用率提高 3 倍以上,AI 训练效率提升 11 倍,推理效率提升 6 倍。支持“一云多芯”,支持“一云多芯”,飞天智算平台提供基于阿里云磐久基础设施的融合算力和大数据 AI 一体化平台整体解决方案,可以运行在 X86、GPU、ARM 等多种芯片类型的服务器上,实现“一云多芯”,支持多种处理器混合部署、统一调度,并可进行应用优化,部分性能提升 100%以上。高效高效 13 海外行业深度
74、报告 互联网互联网 请务必阅读正文之后的免责条款和声明。智能服务,智能服务,开发人员可以在飞天智算平台上进行数据存储、数据治理、数据分析、模型开发、模型训练与推理的工作。并提供了预训练模型,以及语音,图像、自然语言处理、决策等领域的模型能力,以方便开发者更好的加速 AI 应用的开发。绿色低碳,绿色低碳,飞天智算在技术减排、能源结构优化、区域布局优化、供应链减碳以及资源利用优化五个方面来降低单位算力的碳排放。在技术减排方面,通过液冷、电源技术以及智能运维等方式降低能耗,PUE 最低可达 1.09。智能计算不同于通用型计算,需要海量数据对 AI 模式进行训练,算力被损耗在数据迁移、同步等环节,千卡
75、以上规模的算力输出最低往往仅有 40%左右。这导致了智能算力成本高昂,制约了产业发展。阿里云通过体系化的技术创新,改变了智能计算的损耗难题,将千卡并行计算效率提升至 90%以上。在网络技术上:阿里云采用高性能 RDMA 网络,实现端对端最低 2 微秒延迟。在通信技术上:阿里云自研的无阻塞通信技术,让计算过程中的数据交换速度提升了 5 倍以上。在存储技术上:自研的 IO 加速器让数据存取实现最高 10 倍性能提升。在大数据 AI 开发层:阿里云提供分布式训练框架,并通过 API 对分布式策略进行自动组合和调优,将训练效率提升了 11 倍以上。一站式 AI 计算开发服务:阿里云为用户提供了一站式的
76、通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,将推理效率提升 6 倍以上。如今,飞天智算平台已在阿里内部广泛应用,支撑达摩院前沿 AI 和电商智能技术发展,并服务了小鹏汽车、深势科技、上汽集团、中国气象局、南方电网等机构和企业,支撑自动驾驶、新药研发、气象预测、工业能源等行业大幅提升 AI 训练效率。在自动驾驶领域,小鹏汽车:基于飞天智算在乌兰察布建设智算中心“扶摇”,算力规模达 600PFLOPS,是国内最大的自动驾驶智算中心,将自动驾驶模型训练提速近 170 倍。毫末汽车:基于飞天智算,实现 128 卡并行效率超 96%,使自动驾驶模型训练成本降低 62%,训练速度提升
77、110%,让模型迭代周期大幅缩短。在生命科学领域,深势科技采用飞天智算平台之后,将集群性能优化提升超过 100%,让分子动力学仿真模拟训练效率提升了 5 倍以上。在工业领域,智己汽车:运用高性能计算将工业仿真的效率提升了 25%,智能驾驶训练效率提升了 70%,加速了新车型的研发上市。山东德州电力:通过 AI 进行复核预测,准确率达到了 98%,耗时从 1 小时缩短至几分钟。在城市治理领域,四川成宜高速:通过数字孪生进行车路协同优化使事故率降低 60%。重庆水务:通过遥感数据与仿真推演实现水利调度预测准确性高达 95%;南方电网与中国气象局:利用智算能力提升气象预报的准确性与稳定性。阿里研发出
78、高质量的大模型压缩技术,快速匹配客户计算资源。达摩院推出了大模型落地技术 S4(Sound、Sparse、Scarce、Scale)框架,就包含了各种微调算法和模型压缩算法,将稀疏化等技术应用到百亿量级的大模型中。基于这一技术,阿里的 270 亿参数语言大模型 PLUG 在压缩率达 99%的情况下,多项任务的精度损失在 1%以内。这意味着百亿参数大模型也可能在几乎不损失精度的情况下进行稀疏化,最终实现单卡运行。14 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 16:S4 框架框架 数据来源:量子位,中信建投证券 另一方面,基于“通用大模型+行业 knowhow”的
79、方式迭代模型。通用大模型基于“大一统”技术,预训练时就已经具备了很强的理解和生成能力,只需再针对特定任务进行简单微调。即先打造一个基础大模型,再继续训练得到领域模型,最后通过微调构建具体行业任务模型。通义大模型的架构设计将这一过程做得更快且更高效。目前,通过部署超大模型的轻量化及专业模型版本,通义大模型已在超过 200 个场景中提供服务,实现了 2%-10%的应用效果提升。比如,通义大模型在淘宝服饰类搜索场景中实现了以文搜图的跨模态搜索、在 AI 辅助审判中司法卷宗的事件抽取、文书分类等场景任务中实现 35%的应用效果提升、在开放域人机对话领域通过建立初步具备“知识、情感以及个性、记忆”的中文
80、开放域对话大模型实现了主动对话、广泛话题、紧跟热点等对话体验。1.3 平台 2022 年 11 月,阿里巴巴达摩院与中国计算机学会开源发展委员会共同推出人工智能模型开源社区“魔搭”(Model Scope),首批合作方还包括澜舟科技、智谱 AI、深势科技、中国科学技术大学等多家科研机构,旨在打造下一代开源的模型即服务共享平台,致力降低 AI 应用门槛。ModelScope Library 为模型贡献者提供了必要的分层 API,以便将来自 CV、NLP、语音、多模态以及科学计算的模型集成到 ModelScope 生态系统中。所有这些不同模型的实现都以一种简单统一访问的方式进行封装,用户只需几行代
81、码即可完成模型推理、微调和评估。同时,灵活的模块化设计使得在必要时也可以自定义模型训练推理过程中的不同组件。除了包含各种模型的实现之外,ModelScope Library 还支持与 ModelScope 后端服务进行必要的交互,特别是与 Model-Hub 和 Dataset-Hub 的交互。这种交互促进了模型和数据集的管理在后台无缝执行,包括模型数据集查询、版本控制、缓存管理等。当前,魔搭社区收录模型共 775 个,其中中文模型约 300 个,主要通过大模型帮助开发者提取、抽象知识,通过下游调优,将下游目标精确化,从而快速形成针对行业的解决模型,解决实际应用问题。魔搭社区重点提供了易用模型
82、使用平台,让 AI 模型跑起来不再困难,从代码下载到安装部署再到效果验证,S SoundoundTrain EffectivelyTrain Effectively可靠稳定有效的微调策略可靠稳定有效的微调策略S SparseparseServe EffectivelyServe Effectively超高稀疏的模型压缩方法超高稀疏的模型压缩方法DataData-Size ScalableSize Scalable低资源小样本学习能力低资源小样本学习能力S ScarcecarceS ScalecaleModelModel-Size ScalableSize Scalable可扩展至百亿参数规模可
83、扩展至百亿参数规模仅训练重要子网络的Child-Tuning微调算法(EMNLP 2021EMNLP 2021)Unified Prompt Tuning(UPT)少样本微调算法(ACL 2022ACL 2022)Contrastive Pruning(CAP)稀疏化微调算法(AAAI 2022AAAI 2022)PEST高效稀疏化训练(IJCAI 2022IJCAI 2022)&StrongHold Offloading(SC 2022SC 2022)超高稀疏的模型压缩方法超高稀疏的模型压缩方法 50%稀疏训练:基本精度无损 97%稀疏训练:精度只降低1%-4%超大模型推理和微调方法超大模型
84、推理和微调方法 模型压缩率达99%精度损失在1%以内,部分数据集无损(NLG),PLUG推理从千毫秒提升至百毫秒,单卡运行超大规模成为可能 优于ZeRO的Offloading技术被高性能计算顶级会议SC 2022接收,单卡V100可训练模型规模提升1.9x-6.5x,训练吞吐量提升1.2x-3.7x超过基线,跨任务迁移提升超过基线,跨任务迁移提升 在GLUE榜单上提升+0.5%-8.6%在跨数据集迁移效果提升+1%-7%Child-Tuning整合进AliceMind平台,用户可选择Child-Tuning优化方式对比学习端到端少样本对比学习端到端少样本 在GLUE小样本场景提升超过10%,超
85、过SOTA小样本学习算法PET和P-tuning 跨任务小样本学习算法其精度超过标准Fine-tune15%以上 15 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。以前往往需要数天,现在只要几个小时甚至几分钟。通过全新开发的调用接口和统一的配置文件,平台提供模型探索、环境安装、推理验证、训练调优等一站式服务,在线 0 代码就可体验模型效果,1 行代码实现模型推理,10 行代码实现模型调优和定制。平台还提供了在线开发功能和算力支持,无需任何安装部署,打开网页就可以开发 AI 模型。魔搭社区重点提供了易用模型使用平台,让 AI 模型跑起来不再困难,从代码下载到安装部署再到效
86、果验证,以前往往需要数天,现在只要几个小时甚至几分钟。通过全新开发的调用接口和统一的配置文件,平台提供模型探索、环境安装、推理验证、训练调优等一站式服务,在线 0 代码就可体验模型效果,1行代码实现模型推理,10 行代码实现模型调优和定制。平台还提供了在线开发功能和算力支持,无需任何安装部署,打开网页就可以开发 AI 模型。图图 17:魔塔社区特点魔塔社区特点 数据来源:魔塔社区官网,中信建投证券 1.4 应用 通义千问将陆续接入阿里巴巴生态的所有商业应用中,如企业通讯、智能语音助手、电子商务、搜索、导航、娱乐等,从而进一步提升用户体验。凭借其中英双语能力,通义千问将首先部署于阿里巴巴的数码协
87、同办公和应用开发平台钉钉,以及物联网智能家居终端机天猫精灵上。通义千问赋能钉钉:让职场沟通更高效。例如,钉钉将能够总结会议纪要、将会议对话生成文字会议记录、撰写电子邮件,以及仅用简单输入就可创建业务策划或推广方案初稿。用户还可以透过上传一张构思草图的图像,转瞬间就能在钉钉上生成小程序。通义千问赋能天猫精灵:与中国用户更活泼生动地对话。例如,天猫精灵将能够为儿童创作和讲故事、提供健康食谱和旅行建议,或推荐健身背景音乐等。从应用的角度,在传统 APP 中,因为各业务逻辑上的不同,比如淘宝与饿了么,飞猪与高德打车,APP 间很难整合,强行整合反而会带来产品使用复杂度大幅增加,用户体 验下降。但如果统
88、一接入到通义千问中,参考智能座舱的语音助手,其更强的理解能力将 使得交互逻辑变得非常简单,用户可以像询问生活助手一样询问通义千问来完成业务交互,不再需要学习操作逻辑,阿里生态中的家庭终端入口将实现统一。为进一步助力企业数智化转型并从 AI 驱动的创新中获益,阿里云还将为客户开放云端通义千问,帮助他们构建自己的专属语言大模型。企业客户结合自己的行业知识和应用场景,可以在安全的云环境中调用通义千问的能力,在云端打造符合自己业务需求的企业大模型。由于无需通过资源密集且昂贵的预训练流程来构建基础模型,此举预计将为客户带来新一波增长动力。通义千问现已面向中国内地企业客户开放邀测。此外,开发者将很快能够从
89、阿里云通义千问创建大规模 AI 应用,进一步加强各行业 AI 软件生态,包括物流、媒体、金融、千亿千亿300+300+10+10+1 1多模态大模型全面开放多模态大模型全面开放多领域多领域SOTA“SOTA“百模百模”开源开源1010行代码实现模型行代码实现模型finetunefinetune1 1行代码实现模型推理行代码实现模型推理 16 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。制造、能源、零售等领域。通义千问的 API 接入现已开放予中国内地开发者申请内测。图像理解和“文生图(text-to-image)”等多模态能力也将很快添加到通义千问模型中,为用户提供更具
90、吸引力的 AI 功能。阿里云智能首席技术官周靖人表示:“语言大模型支持下的生成式 AI 正迎来全新的发展阶段。在新 AI 时代,我们凭借可靠的公有云基础设施和久经验证的 AI 能力,为客户和广大社会创造价值。我们正见证 AI 发展的新范式,云和 AI 模型在其中发挥至关重要的作用。我们致力于让这种范式更普惠,希望以此促进各行各业的数智化转型,助力提高企业生产力,扩展专业知识和能力,并通过创新释放更大的机遇。”通义千问基于阿里巴巴自研的“通义”预训练模型框架,其统一底座包括“文生图”、“文生短视频”等 AI 模型。去年,阿里云推出开源“模型即服务”(Model-as-a-Service)平台“魔
91、搭”(ModelScope),开放了数以百计 AI 模型,包括面向全球开发者和研究人员的通义“文生图”模型。目前“魔搭”小区拥有超过 100 万活跃用户,提供 800 多个模型,模型总下载量超 1600 万次。图图 18:阿里所有产品将接入大模型升级阿里所有产品将接入大模型升级 数据来源:公司官网,中信建投证券 阿里云还为两款核心云产品提供更优惠的价格,分别为基于 ECS(Elastic Compute Service)的通用算力型Universal 实例,以及基于 OSS(Object Storage Service)的对象存储预留空间产品 OSS-RC(OSS Reserved Capac
92、ity)和对象存储无地域属性预留空间 OSS-ARC(OSS Anywhere Reserved Capacity)。此举将提供更普惠、更经济的云计算资源,助企业把握新 AI 时代的机遇。新的通用算力型 Universal 实例专为中小企业设计,在提供与同类产品同等稳定性的同时节省高达 40%的成本。该产品适用于中小企业网络应用程序和网站、企业办公应用程和脱机数据分析。全新 OSS-RC 让客户能在特定地域保留存储容量一年。相比以往按量付费,该产品最多可将容量价格降低 50%。若客户不要求将数据存储在特定地域,则可创建 OSS Anywhere Bucket 存储空间,由阿里云选择数据存储地域
93、,随后使用 OSS-ARC 为存储在 OSS Anywhere Buckets 中的对象预留容量。相比以往按量付费,该产品最多可将容量价格降低 70%。为让中国内地开发者更便捷、更经济地获得云计算资源,阿里云还宣布了时长最多可达 3 个月的核心产品免费试用,包括 ECS 和 PolarDB 数据库。阿里云还将为开发者提供 1000个云技术免费培训课程和约 500 场基于真实业务场景的实操实验,让开发者轻松掌握云技术。阿里云近期推出一系列举措,有望进一步扩大公有云客户基础及提升云端利用率,并利用生成式 AI 带来的历史机遇来推动机器学习和服务的高质量算力增长。17 海外行业深度报告 互联网互联网
94、 请务必阅读正文之后的免责条款和声明。2、百度、百度 百度是国内领先布局 AI 领域的科技大厂,也是我国最早发布知识增强大语言模型产品的企业,其在 AI 领域累计投入研发总额超过千亿元,专利数量连续五年居全国第一。2010 年,百度成立了人工智能自然语言处理部,是中国最早布局 AI 的企业之一。2012 年,百度的 AI 战略已经初步成型,陆续成立了深度学习研究院 IDL、人工智能实验室。2014 年,百度开始涉足智能驾驶领域,先后推出了深度语音系统、百度大脑、度秘、Apollo 自动驾驶平台等技术体系,涉及自然语言处理、机器翻译、语音、视觉、机器学习、深度学习、知识图谱等核心技术。2016
95、年 9 月,百度在百度世界大会上正式对外开放集视觉、语音、自然语言处理、知识图谱、深度学习等技术于一体的百度大脑,并且每隔一段时间就会进行迭代,合作伙伴可以直接调用百度 AI 的核心能力。同年,百度主导的深度学习框架 PaddlePaddle(飞桨)上线,涵盖了深度学习核心训练和推理框架、基础模型库、端到端开发套件和丰富的工具组件,填补了中国开源深度学习框架的空白。2017 年开始,百度就开始整合人工智能体系,在2019 年下半的一次架构调整后,王海峰开始统管 AIG、ACG 和 TG 三块业务,百度 AI 的打法也进一步清晰,云计算被定义为智能基础设施的底座,同时将人工智能和底层技术能力灌输
96、到底座中,进而成为赋能各行各业的“动力工厂”。2020 年,百度智能云确立了“以云计算为基础,以人工智能为抓手,聚焦重要赛道”的新战略,选择智慧城市、智慧金融、智慧医疗、智能制造、智慧能源等为重要赛道,并屡屡签下数亿级别的订单。2021 年初,百度再次夯实了自身的人工智能战略,从“AI+云”的整合过渡到云智一体的新阶段。2022 年底,百度智能云推出了全栈自研的 AI 基础设施“百度 AI 大底座”,其包括“芯片框架模型”三层技术栈,在各个层面都拥有关键自研技术和领先产品,分别对应昆仑芯、飞桨(PaddlePaddle)、文心大模型。百度 AI 大底座对各层的技术栈进行了全栈融合、系统优化,完
97、成了云和智的技术一体化建设,可以实现对大模型训练的端到端优化和加速。图图 19:百度百度 AI 大底座大底座 数据来源:百度智能云,中信建投证券 18 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。2.1 模型 文心大模型架构分为“基础+任务+行业”三级模型。基础大模型聚焦技术方向的技术挑战、通用性、泛化性探索;任务大模型深入理解任务特性,构建预训练算法、训练数据集,打造紧贴任务的模型能力;行业大模型深度融合行业数据与知识特性,构建更适配行业的模型底座。基础大模型支撑任务与行业大模型的建设,任务和行业大模型结合真实场景与数据反哺基础大模型优化。目前,文心大模型已经建设了
98、36 个大模型,其中基础大模型包含:NLP(自然语言处理)大模型、CV(计算机视觉)大模型、跨模态大模型,任务大模型包含对话、搜索、信息抽取、生物计算等多个典型任务,行业大模型包含与来自 8 个行业的头部企业或机构共建的 11个行业大模型。图图 20:文心大模型全景图文心大模型全景图 数据来源:公司官网,中信建投证券 文心基础大模型包含 NLP(自然语言处理)大模型、CV(计算机视觉)大模型和跨模态大模型。1)在自然语言处理领域,大模型具有更强的小样本学习能力,比如基于思维链的 Flan-PaLM,该模型已经具有基本推理能力;再如基于层次化多任务学习的文心 ERNIE 3.0 Zeus。同时为
99、了进一步降低落地门槛,出现了效率高、泛化能力强的轻量级大模型,比如文心 ERNIE 3.0 Tiny。2)在计算机视觉领域,百度提出了基于视觉掩码技术的文心 VIMER-CAE,在图像分割任务中,该模型泛化能力较强。3)在跨模态领域,扩散模型引发了文本到图像生成技术的变革,比如百度提出了文心 ERNIE-ViLG 2.0,该模型可以生成语义更相关、质量更高的图片。同时这个技术浪潮也催生了文本到视频领域的技术革新,比如当输入“正在画肖像的泰迪熊”这句话时,大模型能够直接生成一个正在画肖像的泰迪熊的视频,诸如此类的技术不断繁荣。图图 21:文心基础大模型组成文心基础大模型组成 19 海外行业深度报
100、告 互联网互联网 请务必阅读正文之后的免责条款和声明。数据来源:公司官网,中信建投证券 2.1.1 文心文心 NLP 大模型大模型 文心 NLP 大模型发展历程有三条主线,1)是文心 ERNIE,百度发布了文心 ERNIE 3.0 以及文心 ERNIE 3.0 Titan 模型,并且在 SuperGLUE 和 GLUE 都超过了人类排名第一的水平,以及基于层次化多任务学习的文心ERNIE 3.0 Zeus。同时为了进一步降低落地门槛,出现了效率高、泛化能力强的轻量级大模型,比如文心 ERNIE 3.0 Tiny。2)对话生成大模型文心 PLATO 的发布,对话的流畅性得到了很大提升。3)文心
101、ERNIE 在跨模态、跨语言以及长文档、图模型等方面获得了非常好的发展,在各种榜单尤其是视觉语言相关的榜单上获得第一百,比如文心 ERNIE-ViLG 2.0,该模型可以生成语义更相关、质量更高的图片。文心一言整合了过往关键技术,在文心知识增强大模型 ERNIE 及对话大模型 PLATO 的基础上研发,基于飞桨深度学习平台训练和部署,其关键技术包括,有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术,在 ERNIE 和 PLATO 模型中已经有应用和积累,文心一言中又进行了进一步强化和打磨,做到了更懂中文、更懂中国文化、更懂中国的使用场景;
102、后三项则是百度已有技术优势的再创新。20 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 22:文心文心 NLP 大模型发展历程大模型发展历程 数据来源:文心大模型公众号,中信建投证券 ERNIE(Large-Scale Knowledge Enhanced Pre-Training for Language Understanding And Generation)模型模型是文心一言的关键技术之一,主要作用是语义理解和文本生成,其发展经历了三个阶段。是文心一言的关键技术之一,主要作用是语义理解和文本生成,其发展经历了三个阶段。1)2019 年 3 月,百度发布预训练
103、模型 ERNIE1.0。ERNIE 1.0 模型结构基于 BERT 模型的进一步优化,在中文的 NLP 任务上得到了当时较好的结果。2)2019 年 7 月,ERNIE2.0 问世。ERINE2.0 通过不断的多任务学习来逐步构建和学习预训练任务,最大限度地从训练语料库中提取词汇、句法和语义信息。3)2021 年 7 月,ERNIE3.0 问世。ERNIE3.0是基于知识增强的多范式统一预训练框架,ERNIE3.0 将自回归和自编码网络融合进行预训练,并在训练时引入大规模知识图谱类数据。其中,自回归网络基于 Transformer-XL 结构,支持长文本语言模型建模。自编码网络采用 ERNIE
104、2.0 的多任务学习增量式构建预训练任务,持续的进行语义理解学习,并增加了知识增强的预训练任务。2021 年 12 月,百度联合鹏城实验室打造了鹏城-百度文心(ERNIE 3.0 Titan)。鹏城-百度文心基于知识增强大模型 ERNIE 3.0 全新升级,模型参数规模达到 2600 亿,相对 GPT-3 的参数量提升 50%。2022 年 5月,ERNIE 3.0 Zeus 发布。ERNIE 3.0 Zeus 是基于持续学习对 ERNIE3.0 系列模型的全新升级,是融合了任务相关知识的千亿大模型,也是国内首个开放 API 调用的千亿大模型。ERNIE 3.0 系列模型(系列模型(ERNIE
105、 3.0、ERNIE 3.0 Titan、ERNIE 3.0 Zeus)有四大特点:)有四大特点:从大规模知识图谱和海量无结构数据中学习,突破异构数据统一表达的瓶颈问题。从大规模知识图谱和海量无结构数据中学习,突破异构数据统一表达的瓶颈问题。同时输入大规模图谱和相应无标注、无结构化的文本,通过文本的 Mask,能够推理这个知识图谱里的关系,从而使这个模型具有知识推理能力。2019.72019.102020.72020.122021.12021.72021.92022.52022.102019.32023.3ERNIE 1.0ERNIE 2.0ERNIE 3.02021.12中文中文效果超越效果
106、超越BERT中英文中英文16个公开数据集个公开数据集全球领先竞品全球领先竞品AAAI-2020录用录用PLATOPLATO-2ERNIE MPLATO-XLERNIE-ViLERNIE-UNIMOERNIE-DoCERNIE-ViLG鹏城-百度.文心ERNIE 3.0 Zeus文心一言ERNIE-ViLG 2.0全球首个大规模变量对全球首个大规模变量对话模型,刷新开放域对话模型,刷新开放域对话效果,话效果,ACL-2020录用录用基于课程学习的对话生基于课程学习的对话生成模型,进一步刷新开成模型,进一步刷新开放域对话效果放域对话效果ACL-2021录用录用5项多模态任务效果项多模态任务效果So
107、TA,VCR榜单榜单取得冠取得冠军,军,AAAI-2021录用录用同时提升单同时提升单/多模态任务多模态任务效果,效果,VQA/aNLI效果效果SoTA,ACL-2021录用录用13项中英文长文本任项中英文长文本任务效果务效果SOTA,ACL-21录用录用同时掌握同时掌握96种种语言,语言,5项项跨语言任务效果跨语言任务效果SoTA,XTREME榜单榜单冠军,冠军,EMNLP-2021录用录用首个知识增强百亿参数首个知识增强百亿参数大模型,同时解决语义大模型,同时解决语义理解与生成问题理解与生成问题首个百亿参数中英文首个百亿参数中英文对话预训练模型对话预训练模型全球最大中文跨模全球最大中文跨模
108、态生成模型态生成模型全球首个知识增强全球首个知识增强千亿大模型千亿大模型文心旗下目前最先进文心旗下目前最先进的自然语言大模型,的自然语言大模型,参数规模达千亿级参数规模达千亿级全球首个知识增强全球首个知识增强和规模最大的和规模最大的AI作作画画大模型大模型对标对标GPT-3.5的的国产国产大语言模型大语言模型 21 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 23:从大规模知识图谱和海量无结构数据中学习从大规模知识图谱和海量无结构数据中学习 数据来源:文心大模型官网,中信建投证券 融合了自编码和自回归的结构,使模型既可以做语言理解,也可以做语言生成。融合了自编码和
109、自回归的结构,使模型既可以做语言理解,也可以做语言生成。在做语言理解时,模型拥有上下文相关的信息,从而做语言理解。在生成的时候,由于模型只看到了上文,所以只能基于自回归的方式学习。因此,在一个框架中同时能够拥有语言理解和语言生成两种能力非常重要。图图 24:融合自编码和自回归结构融合自编码和自回归结构 数据来源:文心大模型官网,中信建投证券 基于飞桨的基于飞桨的 4D 混合并行,高效支持超大模型训练。混合并行,高效支持超大模型训练。4D 混合并行是指训练的时候同时有 4 种不同并行方式:数据并行、模型并行、流水线并行和分组参数切片。这四种技术支持了鹏城-百度 文心模型训练,能够节省 50%的时
110、间,同时在千亿模型上完成 3750 亿 Token 的训练。鹏城-百度文心(ERNIE 3.0 Titan)在算法框架上,该 22 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。模型沿袭了 ERNIE 3.0 的海量无监督文本与大规模知识图谱的平行预训练算法,模型结构上使用兼顾语言理解与语言生成的统一预训练框架。为提升模型语言理解与生成能力,研究团队进一步设计了可控和可信学习算法。在训练上,结合百度飞桨自适应大规模分布式训练技术和“鹏城云脑”算力系统,解决了超大模型训练中多个公认的技术难题。在应用上,首创大模型在线蒸馏技术,大幅降低了大模型落地成本。图图 25:基于飞桨基
111、于飞桨 4D 混合并行技术进行高效训练混合并行技术进行高效训练 数据来源:文心大模型官网,中信建投证券 基于持续学习框架,从不同任务中持续学习。基于持续学习框架,从不同任务中持续学习。不断从不同的数据和知识上学习,而不断地构建新任务,比如文本分类任务、问答任务、完形填空任务等。大模型从不同任务中持续学习,使能力得到持续提升,拥有更多知识。为了进一步学习特定任务的相关知识,ERNIE 3.0 Zeus 提出了层次化提示(Prompt)学习技术。在数据构造时通过层次化的 Text Prompt 库将百余种不同的任务统一组织成自然语言的形式,和海量无监督文本以及百度知识图谱联合学习。此外训练过程引入
112、了层次化的 Soft Prompt 建模了不同任务之间的共性与特性,进一步提升了模型对于不同下游任务的建模能力。此外,通过持续学习对百余种不同形式的任务数据,实现了任务知识增强,显著提升了模型的零样本/小样本学习能力。23 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 26:层次化提示(层次化提示(Prompt)学习技术)学习技术 数据来源:文心大模型官网,中信建投证券 PLATO(Towards Building an Open-Domain Chatbot via Curriculum Learning)是文心一言的另一项关键是文心一言的另一项关键技术,主要作用
113、是多轮对话技术,主要作用是多轮对话,其发展经历了三个阶段。其发展经历了三个阶段。1)2019 年 10 月,百度首次发布了 PLATO 对话模型,其是全球首个大规模变量对话模型,刷新开放领域对话效果。2)2020 年 7 月,发布 PLATO-2,其是基于课程学习的对话生成模型,进一步刷新了开放领域对话效果。2020 年 10 月,PLATO-2 斩获全球对话技术竞赛 DSTC-9五项冠军。3)2021 年 9 月,发布 PLATO-XL,其是首个百亿参数中英对话预训练生成模型。PLATO 在预训练模型之上,对对话能力进行增强,让对话具有人格属性,包括人设稳定性、知识增强、跨模态对话、情感抚慰
114、、主动对话、长期记忆等。同时,PLATO 也已应用到百度的各个产品线,比如:小度聊天,百度推出的虚拟人对话,领域对话。同时,百度也通过 UNIT 平台,对外输出对话技术。图图 27:文心文心 PLATO 技术研发框架技术研发框架 数据来源:百度,DataFun,中信建投证券 PLATO 是世界首个基于隐变量的生成式开放域对话大模型,利用隐变量建模开放域对话中的一对多关系应用应用小度聊天小度聊天技术研发技术研发数据数据虚拟人对话虚拟人对话领域对话领域对话UNITUNIT平台平台知识增强知识增强跨模态对话跨模态对话情感抚慰情感抚慰主动对话主动对话性能优化黄反过滤人设稳定性人设稳定性长期记忆长期记忆
115、PLATOPLATOPLATOPLATO-2 2PLATOPLATO-XLXLPLATOPLATO模型模型大规模预训练大规模预训练语料语料人工标注语料人工标注语料知识数据知识数据各类服务各类服务APIAPI 24 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。(一个输入对应多个正确输出),采用 Unified Transformer 框架共享生成模型中的编码器和解码器参数,通过课程学习方式提升模型训练效率,在精细化构建的大规模高质量对话语料上基于飞桨深度学习框架训练的对话大模型。PLATO 具备接近真人水平的多轮流畅对话能力,开放域对话效果达到世界领先水平。图图 28:P
116、LATO 基于隐变量的生成式开放域对话大模型基于隐变量的生成式开放域对话大模型 数据来源:文心大模型,中信建投证券 2019 年,百度首次发布了 PLATO 对话模型,首次创新性的提出了“隐变量”的概念。开放型对话具有一对多的特点,用户输入 query 后,系统可以有多种多样的回复。每个回复有不同的性质,比如,输入“我得健身了,不能放纵了”。可以给用户建议、询问、质询、质疑等类型的回复。除了这种关系外,还会有对话背后的场景信息,这会导致开放型对话一对多的关系,这会导致模型学习很困难。如果针对一个输入,有特定的输出,模型的学习会相对简单。但当模型的输出不确定,甚至有多种多样的输出,这就会导致模型
117、学习复杂。针对这一问题,我们提出隐变量建模输入和输出的映射信息。它不是一个显式的建模,而是一个隐式建模输入和每一个输出的对应关系。这就会让原来的输入和输出一对多的关系,转化为一对一的关系。通过在输入增加 soft token的方式,让 transformer 建立输入和输出之间的关系。Transformer 不是独立的编码器和解码器的方式,我们选择了使用编码器和解码器共享参数的方式来实现即 unified transformer。预训练分为两个阶段,先根据输入和输出预测隐变量的分布,然后从分布中采样隐变量,将其加入输入中再去学习根据隐变量和输入预测回答的能力。25 海外行业深度报告 互联网互联
118、网 请务必阅读正文之后的免责条款和声明。图图 29:PLATO 提出隐变量建模提出隐变量建模 Context 和和 Response 的映射信息的映射信息来来解决一对多问题解决一对多问题 数据来源:百度,DataFun,中信建投证券 2020 年,百度推出 PLATO-2,将模型参数量级推进到 16 亿。模型有 32 层参数,也发布了中文对话模型。PLATO-2 是在 10 亿量级的人类对话样本中进行训练的,对话样本是从百度产品线的业务数据自动挖掘的。在该模型中,百度对训练方式也进行了优化,将训练过程分为两个阶段:第一阶段,不带隐变量,直接根据输入去学习输出;第二阶段,加入隐变量进行学习,训练
119、生成模型。同时,在模型中训练了一个评估模型。通过生成模型生成的是多个候选回复,使用评估模型对多个候选回复进行排序,最终得到输出。图图 30:PLATO-2 引入两阶段训练引入两阶段训练 数据来源:百度,DataFun,中信建投证券 2021 年,百度推出 PLATO-XL,将模型的规模推进至 110 亿,模型有 72 层。同时引入了 role embedding的特征来感知角色信息。在对话上文中,既有用户的输入,也有系统的输入,使用 role embedding 来区分用户和系统的角色。在原有 transformer 模型三个特征,token、sentence type、position 的基
120、础上,模型新增了 role embedding 的信息,能让模型更好的掌控角色。26 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 31:PLATO-X 引入引入 role embedding 感知用户角色感知用户角色 数据来源:百度,DataFun,中信建投证券 2.1.2 文心文心 CV 大模型大模型 文心 CV 大模型基于领先的视觉技术,利用海量的图像、视频等数据,为企业和开发者提供强大的视觉基础模型,以及一整套视觉任务定制与应用能力。百度文心发布了 VIMER 系列的 CV 大模型,视觉自监督预训练大模型 VIMER-CAE 创新性地提出“在隐含的编码表征空
121、间完成掩码预测任务”的预训练框架,在图像分类、目标检测、语义分割等经典下游任务上刷新 SOTA 结果。在此之上,多任务学习模型 VIMER-UFO 2.0 可抽取轻量级小模型,兼顾大模型效果和小模型推理性能,单模型覆盖 20 多个 CV 基础任务,在 28 个公开测试集上效果刷新 SOTA。端到端文档 OCR 表征学习预训练模型 VIMER-StrucTexT 2.0 解决了训练数据匮乏和传统OCR+NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行的文档、卡证、票据等图像文字识别和结构化理解。VIMER-CAE 基于自监督图像掩码建模原理,创新性地提出“在隐
122、含的编码表征空间完成掩码预测任务”的预训练框架,对编码模块和解码模块进行分离,通过编码模块对输入的图像块进行特征表达,并利用隐式上下文回归和解码模块对输入图像的掩码块进行特征表达恢复,在图像掩码建模问题上提高了预训练模型的图像表征能力。基于 VIMER-CAE 的预训练模型在下游各类图像任务上取得了明显的效果提升,其中在目标检测、实例分割、语义分割等任务的指标上达到最优水平。图图 32:UFO 架构架构 数据来源:UFO:Unified Feature Optimization,中信建投证券 27 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。VIMER-CAE 预训练任
123、务包括 4 个部分:1)Encoder;2)Latent contextual regressor;3)Decoder;4)Alignment module。Encoder 是一个 ViT 模型,负责学习图像表征;Latent contextual regressor 通过非掩码区域的特征去预测掩码区域特征;Decoder 通过掩码区域特征去预测某些性质或者恢复成原始像素的形式;Alignment module 通过特征对齐的操作,使表征学习的任务只由 Encoder 承担。经过大数据预训练产出的 VIMER-CAE 模型,可以作为下游应用任务的基础模型,加持不同任务分支网络和对应训练数据即可
124、高效调优,常见的应用任务包括图像分类、目标检测、语义分割等任务。文心文心 VIMER-UFO 2.0 是面向多任务的视觉表征学习大模型。文心 VIMER-UFO 2.0 有三个特点:1)多任)多任务。务。如果有多任务,训练数据也会增多,每个任务都有对应监督,监督信息会增多,既有数据也有监督的增多,学习表征的语义信息就会更强,文心 VIMER-UFO 2.0 覆盖了 22 项任务,包括检测、识别、分割等。2)大模型。)大模型。模型大了后,容量也随之增大,能够处理更加复杂的任务,如下图所示,面临 22 个任务时,文心 VIMER-UFO 2.0 的模型参数多达 170 亿。3)易部署。)易部署。这
125、是区别于其他很多大模型的重要一点。训练得到的网络结构不仅包含大模型,还可以得到多个小模型。轻量的小模型能够很容易地部署在设备端。百度提出的 VIMER-UFO All in One 多任务训练方案,通过使用多个任务的数据训练一个功能强大的通用模型,可被直接应用于处理多个任务。不仅通过跨任务的信息提升了单个任务的效果,并且免去了下游任务 fine-tuning 过程。VIMER-UFO All in One 研发模式可被广泛应用于各类多任务 AI 系统,以智慧城市场景为例,VIMER-UFO 可以用单模型实现人脸识别、人体和车辆 ReID 等多个任务的 SOTA 效果,同时多任务模型可获得显著优
126、于单任务模型的效果,证明了多任务之间信息借鉴机制的有效性。图图 33:UFO 多任务联合优化多任务联合优化 数据来源:文心大模型官网,中信建投证券 VIMER-UFO 2.0 技术方案的主要内容包括:1)All in One行业最大 170 亿参数视觉多任务模型,覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+CV 基础任务,单模型 28 个公开测试集效果 SOTA;2)One for All首创针对视觉多任务的超网络与训练方案,支持各类任务、各类硬件的灵活部署,解决大模型参数量大,推理性能差的问题。针对大模型的开发和部署问题,VIMER-UFO 给出了 One for All 的解决方案
127、,通过引入超网络的概念,超 28 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。网络由众多稀疏的子网络构成,每个子网络是超网络中的一条路径,将不同参数量、不同任务功能和不同精度的模型训练过程变为训练一个超网络模型。训练完成的 VIMER-UFO One for All 超网络大模型即可针对不同的任务和设备低成本生成相应的可即插即用的小模型,实现 One for All Tasks 和 One for All Chips 的能力。VIMER-UFO 2.0 基于 Vision Transformer 结构设计了多任务多路径超网络。与谷歌 Switch Transformer
128、 以图片为粒度选择路径不同,VIMER-UFO 2.0 以任务为粒度进行路径选择,这样当超网络训练好以后,可以根据不同任务独立抽取对应的子网络进行部署,而不用部署整个大模型。VIMER-UFO 2.0 的超网中不同的路径除了可以选择不同 FFN 单元,Attention 模块和 FFN 模块内部也支持弹性伸缩,实现网络的搜索空间扩展,为硬件部署提供更多可选的子网络,并提升精度。VIMER-UFO 2.0 超网络分为多路径 FFN 超网和与可伸缩 Attention 超网两部分。首先针对多路径 FFN 超网模块,每个任务都有两种不同的路径选择,即选择共享 FFN(FFN-shared)或者专属
129、FFN(FFN-taskX),当选定好 FFN 以后,还可根据放缩系数弹性选择 FFN 中参数规模;因此 FFN 超网络中共有(T*ratio)L 种不同的 FFN 路径,其中 T 为 task 的数量,L 为网络的层数,ratio 为放缩系数的数量。而对于 self-attention 超网,每个子网络可以选择不同的 Head 数量 QKV 矩阵参数量。VIMER-UFO 2.0 训练时将模型按层级结构划分为任务超网和芯片超网两个级别。并分别使用不同的训练方案进行优化:任务超网络训练(One For All Tasks)时,需要同时优化网络参数(FFN)和路由参数(Router)。前面提到,
130、网络参数包含共享 FFN(FFN-shared)和专属 FFN(FFN-taskX),所有任务都会更新共享 FFN 的参数,特定任务只会更新专属的 FFN 参数。而路由参数由于离散不可导,训练时通过 Gumbel Softmax 进行优化。由于在训练超网的过程中多个任务的同时进行优化,同时引入了路由机制,可以让相关的任务共享更多的参数,而不相关的任务之间尽量减少干扰,从而获得针对不同任务最优的子网络模型。在业务应用时,只需要根据不同子网络在特定任务的效果,抽取出对应的任务子网,即可直接部署,无需重复训练。图图 34:网络稀疏化(网络稀疏化(Path Routing)数据来源:文心大模型官网,中
131、信建投证券 在任务超网训练完成以后,针对每个任务抽取的子网络进行芯片子网络的训练。经过上述训练以后便得到了每个任务的芯片超网。在业务应用时,针对不同平台存储容量和算力不同,可以抽取不同深度和宽度的子网络进行部署,进一步压缩模型的参数和计算量。由于超网络中子网络的数据众多,每个子网逐一测试精度和延 29 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。时并不现实,因此在 VIMER-UFO 2.0 中,使用了 GP-NAS 中的基于高斯过程的超参数超参估计技术,只需采样超网络中少了子网络进行评估,即可准确预测出其他网络的精度和速度。图图 35:多规模网络学习(多规模网络学习(
132、Stochastic Architecture Slimming)数据来源:文心大模型官网,中信建投证券 VIMER-UFO 2.0 单个模型一套参数,在不进行下游 fine-tuning 的情况下,在 28 个主流的 CV 公开数据集上取得了 SOTA 的结果。同时,尽管 VIMER-UFO 2.0 大模型参数量达到了 170 亿,得益于 Task-MoE 稀疏结构,每个任务推理时只需激活部分参数,计算量相当于 6 亿参数模型规模,加速比接近 30 倍。图图 36:VIMER-UFO 2.0 单模型单模型 28 个公开测试集个公开测试集 SOTA 数据来源:文心大模型官网,中信建投证券 VI
133、MER-StrucTexT 2.0 是端到端文档 OCR 表征学习预训练模型,首次创新性地提出“单模态图像输入、多模态表征学习”预训练框架,仅通过单一文档图像的输入,就能让模型充分捕获语义和结构信息。经过大规模文档图像数据充分学习后的预训练模型,显著提高文档理解全景应用任务效果,包括文档图像分类、文档版式分析、表格结构解析、文档 OCR、端到端信息抽取等。VIMER-StrucTexT 2.0 同时解决了训练数据匮乏和传统 OCR+NLP 链路过长导致的模型表达能力不足、优化效率偏低等问题,能够广泛应用于各行各业行文档、卡证、票据等图像文字识别和结构化理解。30 海外行业深度报告 互联网互联网
134、 请务必阅读正文之后的免责条款和声明。图图 37:VIMER-StrucTexT 2.0 文档图像表征学习文档图像表征学习 数据来源:文心大模型官网,中信建投证券 VIMER-StrucTexT 2.0 预训练环节采用的是 CV&NLP 前沿的 Mask-Predict 机制。预训练流程包括四个环节:1)基于网络公开数据抓取超 1 亿张文档图像数据,采用百度高精 OCR 服务进行文字检测和识别,保留高置信度文字内容(包括文字位置信息和文本识别内容);2)将文档图像进行随机文本区域遮罩,并输入给 Encoder(如 CNN 和 Transformer 结合结构)进行特征高效编码;3)利用文字位置
135、信息对遮盖的文本区域特征进行提取,得到每个文本区域的表征信息;4)最后将表征信息分别输入给两个任务分支图像重建(采用图像生成模型设计方式,还原被遮罩的文本区域图像)和文本推理(利用文本区域表征信息直接做判决,推理出被遮罩的文本内容),通过大数据的加持能够让 Encoder 充分学习多模态知识。经过大数据预训练产出的 VIMER-StrucTexT 2.0 模型,可以作为下游应用任务的基础模型,加持不同任务分支网络和对应训练数据即可高效调优,常见的文档理解应用任务包括文档图像分类、文档版式分析、表格结构解析、文档 OCR 和端到端信息抽取等。VIMER-StrucTexT 2.0 的典型应用场景
136、有泛卡证票据信息抽取应用,可广泛适用于身份认证、金融开户、征信评估、商户入驻等业务场景,性能相较 VIMER-StrucTexT 1.0 提升 30%以上。政务办公文档还原应用,对办公场景的各类文档进行结构化识别,如企业年报、论文、行业报告等,方便对文档类图片进行结构化分析,版式分析和表格结构化解析等能力最大错误率下降达 50%。VIMER-UMS(Unified Multi-Source Pre-training for Product),是百度基于海量的互联网商品图文信息提出的多源信息统一建模的商品图文表征预训练模型,也是行业首个统一视觉单模态与多源图文模态表征的商品多模态预训练模型。针对
137、图文多模态建模中模态信息残缺问题,通过构建视觉特征与多源图文对比的多任务学习框架,实现统一图文表征预训练同时覆盖商品视觉单模态、多模态识别与检索任务,可以显著改善商品视觉检索和商品多模态检索体验。31 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 38:商品搜索商品搜索中多模态信息存在信息缺失问题中多模态信息存在信息缺失问题 数据来源:文心大模型官网,中信建投证券 VIMER-UMS 基于端到端 Transformer 训练方式,通过视觉编码、文本编码、融合编码、搜索查询编码,提供多源商品信息的统一表达结构。由于现有主流多模态预训练方法依靠语言作为弱监督关联信号,视
138、觉表征能力存在退化现象。为了解决该问题,VIMER-UMS 通过建立视觉与多源图文对比多任务预训练,实现视觉特征、图文特征的统一增强表征。图图 39:商品搜索商品搜索中多模态信息存在信息缺失问题中多模态信息存在信息缺失问题 数据来源:文心大模型官网,中信建投证券 针对实际业务应用,基于 VIMER-UMS 商品图文表征预训练模型,使用少量标注或无标注数据,高效实现下游商品视觉检索、细粒度识别、多模态搜索能力。基于 VIMER-UMS 商品图文表征预训练模型,实现多 32 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。个商品下游视觉检索、跨模态检索任务 SOTA 效果,支持
139、直接部署落地与预训练微调应用。VIMER-UMS 商品图文表征预训练,可以在实际拍照商品识别、多模态商品识别、商品广告识别与零售线下数字化等多个业务场景中应用,解决单模态、多模态下游任务多样难题,缓解线下零售商品识别定制优化低效的行业痛点问题。图图 40:基于基于 VIMER-UMS 的多模态的多模态商品商品搜索搜索 数据来源:文心大模型官网,中信建投证券 2.1.3 文心跨模态大模型文心跨模态大模型 文心跨模态大模型基于知识增强的跨模态语义理解关键技术,可实现跨模态检索、图文生成、图片文档的信息抽取等应用的快速搭建,落实产业智能化转型的 AI 助力。ERNIE-ViL 是业界首个融合场景图知
140、识的多模态预训练模型。ERNIE-ViL 将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理、视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首。基于文本中解析出的场景图,ERNIE-ViL 提出了三个多模态场景图预测任务:物体预测,随机选取图中的一部分物体,然后对其在句子中对应的词进行掩码和预测;属性预测,对于场景图中的属性-物体组合,随机选取一部分词对其中属性词进行掩码和预测;关系预测,对于
141、场景图中的物体-关系-物体三元组,对其中的关系词进行掩码和预测。33 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 41:ERNIE-ViL 架构图架构图 数据来源:文心大模型官网,中信建投证券 ERNIE-ViL 在场景图里加入知识,通过它的文字信息去构建场景图,使得模型能够理解图中细粒度的语义。举例而言,下图中有 6 个人,但只有 5 个人运动员,因为其中一个是裁判,模型要能依据运动场景进行判断,才能给出正确答案。图图 42:ERNIE-ViL 融合场景进行判断融合场景进行判断 数据来源:文心大模型官网,中信建投证券 文心文心 ERNIE-ViLG 2.0 采用
142、基于知识增强算法的混合降噪专家建模,是全球首个知识增强的 AI 作画大模型,也是目前全球参数规模最大的 AI 作画大模型,在文本生成图像公开权威评测集 MS-COCO 和人工盲评上均超越了 Stable Diffusion、DALL-E 2 等模型,取得了当前该领域的世界最好效果,并在语义可控性、图像清晰度、中国文化理解等方面展现出了显著优势。文心 ERNIE-ViLG 2.0 通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的精确理解,以提升生成图像的可控性和语义一致性。同时,ERNIE-ViLG 2.0 首次引入基于时间步的混合降噪专 34 海外行业深度报告 互联网互
143、联网 请务必阅读正文之后的免责条款和声明。家模型来提升模型建模能力,让模型在不同的生成阶段选择不同的“降噪专家”网络,从而实现更加细致的降噪任务建模,提升生成图像的质量。图图 43:文心文心 ERNIE-ViLG 2.0 架构图架构图 数据来源:文心大模型官网,中信建投证券 文心 ERNIE-ViLG 2.0 可应用于工业设计、动漫设计、游戏制作、摄影艺术等场景,激发设计者创作灵感,提升内容生产的效率。通过简单的描述,模型便可以在短短几十秒内得到图像,极大地提升了设计效率、降低商业出图的门槛。图图 44:文心文心 ERNIE-ViLG 2.0 生成图示例生成图示例 图图 45:文心文心 ERN
144、IE-ViLG 2.0 应用场景应用场景 数据来源:文心大模型,中信建投证券 数据来源:文心大模型,中信建投证券 2.2 算力 百度早在 2011 年就开始布局 AI 芯片领域,并逐步建立 AI 技术的全栈布局,拓展了全面的 AI 应用场景。同时,拥有数亿用户规模的产品百度搜索,以及服务各个行业的百度智能云等。同时,百度依托昆仑芯科技前身为百度智能芯片及架构部,昆仑芯是百度自主研发的云端通用 AI 芯片,目前,昆仑芯 1、2 代已实现量产,并达到数万片规模部署。昆仑芯 3 代将于 2024 年初量产。依托深厚技术沉淀,昆仑芯科技核心团队于 2017 年发布 100%自研、面向通用 AI 计算的
145、芯片核心架构昆仑芯 XPU,并从 AI 落地的实际需求出发,按照复杂前沿 35 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。的人工智能场景需求来迭代架构。2018 年至今,昆仑芯云端 AI 芯片已经迭代两代,并实现数万片的规模落地。其中,昆仑芯 1 代已经在百度搜索引擎、小度等业务中部署超过两万片,昆仑芯 2 代也于 2021 年 8 月实现量产,并已在互联网、智慧工业、智慧城市、智算中心、智慧交通、科研等领域实现规模化部署,服务来自千行百业的不同客户。图图 46:昆仑芯发展历程昆仑芯发展历程 数据来源:昆仑芯官网,中信建投证券 昆仑芯目前有 2 个系列的产品,分别是昆
146、仑芯 1 代芯片 K 系列 和昆仑芯 2 代芯片 R 系列。昆仑芯 1 代芯片采用 XPU-K 架构,制程为 14nm 工艺,256 TOPSINT8,64 TFLOPSFP16,主要应用于云数据中心和智能边缘,支持全 AI 算法。昆仑芯 2 代芯片采用新一代昆仑芯 XPU-R 架构,通用性和性能显著提升,算力方面:256 TOPSINT8,128 TFLOPSFP16,制程采用 7nm 先进工艺,GDDR6 高性能显存,支持虚拟化,芯片间互联和视频编解码。图图 47:昆仑芯产品迭代昆仑芯产品迭代 数据来源:机器之心,中信建投证券 针对大模型,昆仑芯持续打磨部署优化方案,领跑产业落地。昆仑芯已
147、将大模型的 Transformer 相关优化技术沉淀为重要基建,优化后的性能比原有方案提升 5 倍以上,压缩显存 30%以上。以文生图大模型为例,昆仑芯已跑通一条端到端优化、规模落地之路。AI 绘画模型的推理算力及显存需求随图像分辨率增大而指数级增加,同时,图像生成需要循环采样数十次,产业落地动辄需要高昂成本的部署集群,严重阻碍了 AIGC 模型大规模商业化落地。2022 年第四季度,昆仑芯联合客户,基于飞桨 PaddlePaddle 发起了端到端联合优化项目。在 2-3 周内,项目组快速完成端到端优化,最终实现输入文本后 2 秒出图的优化效果,性能提升近 8 倍。目前,昆仑芯 AI 加速卡
148、R200 已在该客户的大模型场景完成规模部署,性能数据全面超越同系列主流推理卡,基于昆仑芯 AI 加速卡 R200 高效运算与推理能力,综合优化方案,在 dpm-25steps 算法下,利用昆仑芯 AI 加速卡 R200,生成 1024*1024 图像时的推理速度为 10.89 iters/s,相比同能力的主流推理卡快 20%;昆仑芯 AI 加速卡 R200 拥有 32G GDDR6 显存,为大规模参数提供更大的存储容量、更高带宽的内存访问、200002020212021启动FPGAAI加速器FPGA部署超过5KFPGA部署超过
149、12K业界最大昆仑芯启动昆仑芯第一代大规模部署昆仑芯第二代量产 36 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。更稳定的性能,生成更高分辨率的图片,为用户提供高性价比服务。与此同时,面向当前市场需求迫切的大模型场景,据悉昆仑芯科技即将推出一款加速器组解决方案。该加速器组搭载第二代昆仑芯 AI 芯片,是 AI 基础设施的重要组成部分,为 AI IAAS 平台、AI PAAS 平台提供坚实算力支撑。该产品可提供更为集约的 AI 算力,具备分布式集群部署能力,支持弹性 RDMA 网络,对比传统网络通信时延降低 23 倍。该产品可明显提高并行加速比,训推一体化助力提高资源利用
150、率,极大提升模型开发迭代效率。昆仑芯科技实现了硬件与软件的双重联动,目前昆仑芯已实现对飞桨的原生适配,并完成了 III 级兼容性测试,训练与推理性能可以满足用户的应用需求。从底层 AI 算力组件、AI 服务器,到操作系统,再到昆仑芯 SDK,昆仑芯和飞桨携手完成了一套端到端的 AI 计算系统解决方案,并致力于打造一个全栈式软硬一体的 AI 生态。为进一步完善软件生态,昆仑芯已与多款通用处理器、操作系统、主流框架完成端到端适配,实现了软硬件解决方案的技术栈,为客户提供开箱即用的 AI 芯片产品。2.3 平台 百度飞桨是我国首个自主研发的产业级深度学习开源开放平台,飞桨在平台功能上具备丰富的产业级
151、模型库、端到端开发套件、工具组件,以及零门槛 AI 开发平台 EasyDL 和全功能 AI 开发平台 BML、学习与实训社区 AI Studio,高效支持深度学习模型开发、训练、部署等全流程,降低 AI 技术应用门槛;在生态上,飞桨推动构建了全方位的生态体系,包括开发者生态、教育生态、企业生态、硬件生态,通过生态共享共创加速产学研用协同创新发展。图图 48:飞桨平台全景图飞桨平台全景图 数据来源:飞桨官方公众号,中信建投证券 百度飞桨平台具备开发便捷、动静结合部署等多重优势,未来有望吸引更多开发者及 企事业单位及科研院所加入,共同推动国内 AI 大模型的研发和应用。飞桨平台在框架易用性、训练技
152、术、推理引擎和模型库四大方面均具备显著优势,可供开发者快速便捷地进行 AI 开发。37 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 49:飞桨四大领先技术飞桨四大领先技术 数据来源:飞桨官方公众号,中信建投证券 飞桨官方精选产业算法新增 100 多个,累计超过 600 个,覆盖计算机视觉(PaddleCV)、自然语言处理(PaddleNLP)、推荐(PaddleRec)、语音(PaddleSpeech)四大应用领域,超过 95%的用户使用模型库。包含经过产业实践长期打磨的主流模型,42 个精度与性能平衡的产业级 PP 系列特色模型,以及文心系列大模型。图图 50:
153、飞桨主流模型概览飞桨主流模型概览 数据来源:飞桨官方公众号,中信建投证券 飞桨硬件生态持续繁荣,包括 Intel、NVIDIA、Arm 等诸多芯片厂商纷纷开展对飞桨的支持,并主动在开源社区为飞桨贡献代码。飞桨还与飞腾、海光、鲲鹏、龙芯、申威等 CPU 进行深入融合适配,并结合麒麟、统信、普华操作系统,以及昆仑芯、海光、寒武纪、瑞芯微、算能、高通、Graphcore、Ambarella 等 AI 芯片深度融合,与浪潮、中科曙光等服务器厂商合作形成软硬一体的全栈 AI 基础设施。当前已经适配飞桨的芯片或 IP厂商超过 40 家,处于业界领先地位。2022 年 5 月,飞桨联合硬件生态伙伴发布“硬件
154、生态共创计划”,在联合研发、资源共享、联合授权、培训赋能等多个维度全面合作。2022 年 11 月,飞桨“硬件生态共创计划”成员已经从 13 家增加至 28 家。开发便捷开发便捷的深度学习框架业内首个动静统一的框架业内首个动静统一的框架动态图编程调试转静态图预测部署动态图编程调试转静态图预测部署超大规模深度学习模型训练训练技术业内首个通用异构参数服务器架构业内首个通用异构参数服务器架构端到端自适应分布式训练框架端到端自适应分布式训练框架多端多平台部署部署的高性能推理引擎即训即用即训即用支持端边云多硬件和多操作系统支持端边云多硬件和多操作系统产业级开源模型库模型库算法总数超过算法总数超过6006
155、00个个包含领先的预训练模型包含领先的预训练模型 38 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 51:飞桨硬件生态飞桨硬件生态 数据来源:飞桨官方公众号,中信建投证券 飞桨打造了丰富的产业实践范例库以及模型库一站式入口。截至 2022 年 11 月,飞桨联合企业合作伙伴共同打造了飞桨产业实践范例库 68 个,覆盖工业、能源、金融、交通等重点行业。飞桨聚焦产业真实业务场景,通过完整的代码实现,提供从数据准备到模型部署的方案过程解析。图图 52:飞桨产业实践范例库飞桨产业实践范例库 数据来源:飞桨官方公众号,中信建投证券 根据信通院发布的 深度学习平台发展报告(2
156、022 年),百度飞桨在社区生态构建上持续发力、优势渐显,在平台服务规模和技术应用能力方面更已具备领先优势,超越 TensorFlow 和 PyTorch 跃居成为我国市场应用规模第一的深度学习框架和赋能平台。同时,以飞桨为代表的开发框架在近一年半中的项目贡献人数(Contributors)规格适配硬件深度学习推理芯片/IP厂商CPUIntel龙芯申威飞腾华为海光兆芯深度学习训练芯片数据中心NVIDA昆仑芯海光华为Graphcore寒武纪天数智芯壁仞科技数据中心NVIDA昆仑芯寒武纪华为算能登临摩尔线程移动/边缘计算Arm高通华为苹果Imagination芯原NVIDA瑞芯微联发科紫光展锐晶晨
157、Ambarella算能FPGA边缘计算IntelAMD-Xillinx 提供以下芯片适配能力的飞桨产品包括但不限于飞桨开源平台、企业版等 图标中各栏所列品牌仅代表且适用于已完成飞桨验证的特定硬件型号 39 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。增速为 TensorFlow、PyTorch 的 5.2 倍、1.6 倍,关注度(Star)增速为 3.8 倍、1.3 倍。飞桨、昇思等不断加大生态构建力度支持,生态规模快速增长,其中飞桨在活跃度(Fork)、关注度(Star)、贡献人数(Contributors)指标上均位于榜首,超过其余国产框架总和,呈现较高活跃度和关注
158、度。整体来看,目前飞桨社区生态仅次于PyTorch,位居国内市场次席。根据 IDC 发布中国深度学习框架和平台市场份额,2022H2显示,百度稳居中国深度学习平台市场综合份额第一,领先优势进一步扩大。中国深度学习开源框架市场形成三强格局,框架市场前三份额超过 80%。图图 53:飞桨飞桨位列位列中国深度学习市场应用规模第一中国深度学习市场应用规模第一 图图 54:飞桨在各指标位列榜首飞桨在各指标位列榜首 数据来源:信通院,中信建投证券 数据来源:信通院,中信建投证券 飞桨平台服务规模快速渗透,技术能力创新卓著。截至 2022 年 11 月,飞桨已凝聚国内规模最大的开发者群体(535 万)、服务
159、 20 万企事业单位,基于飞桨平台创造出 67 万个 AI 模型,超越 TensorFlow 和 PyTorch 成为国内服务规模最为广泛的框架工具,不断夯实 AI 工业大生产的基础,有力推动了我国实体经济的高质量发展。百度飞桨从 2016 年经历多年积累、沉淀、探索后,创新成果已经逐步涌现。飞桨 PaddleClas、PaddleDetection、PaddleGAN、PaddleOCR、PaddleSpeech 等开发套件发布后多次登顶 Papers with Code 和 Github 趋势榜单,引起业界高度关注。此外,针对国内市场需求特点,飞桨提供了大量经过真实应用场景有效验证的高精度
160、、便捷部署的官方模型库,相关算法及 API 更加强调对中文情境的支持优化,能够广泛支持国产硬件平台,技术能力优势逐步凸显,相较于 TensorFlow 和 PyTorch 成为更满足国内技术应用需求的开发框架。2.4 应用 百度文心大模型积极拓展内外部应用,目前面向公众和企业用户同时进行开放测试。内部应用层面,内部应用层面,文心大模型已经率先应用于百度搜索、信息流、智能驾驶、百度地图、小度智能屏等内部重要产品上。百度在 5 月 25 日的移动生态大会上展示了全新的 AI 搜索体系。1)极致满足:极致满足:搜索结果不再是简单的文本段落,而是多模态的,包括相关的图片和视频,省去了用户的浏览和总结时
161、间。对于那些相对简单但没有现成答案的问题,AI 可以展示逻辑推理和计算能力,直接给出可用的结果。对于开放的多答案问题,百度AI 搜索可以整合多个符合要求的答案,并列出引用和选择依据,满足用户需求。此外,搜索引擎还能自动定位到视频中相关内容的位置,方便用户查看。根据介绍,现在百度搜索每天有 70%的问答需求能在首条搜索结果中得到满足,这一比例在半年前只有 40%,这种改进进一步提升了需求,现在每天有超过 3000 万次的新增问答需求。2)AI 伙伴:伙伴:除了提供丰富准确的搜索结果,百度还提出了全能的AI 伙伴,使人们能够以最直接的方式获取人工智能的能力。通过 AI 伙伴,人们可以使用自然语言或
162、语音作为输入,获得准确详细的搜索结果。AI 伙伴不仅会在生成答案时标出重点并列出引用链接,还能调用其他工具和服务完成任务,并接受进一步追问或指正。AI 伙伴还可以根据用户意图生成图片、进行文案写作,在不同任务中扮演具体的角色,如旅行时可以 40 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。充当导游,写作业时可以充当老师。3)AIBOT:以往人们对搜索引擎结果的准确性有所顾虑,因为无论 AI 算法有多准确,始终只是概率统计的结果,并不能代表专家意见。为解决这个问题,百度推出了全新的 AIBOT。类似于 ChatGPT 的插件,AIBOT 通过与第三方技术提供商的合作,使搜
163、索可以自动接入特定能力。目前亮相的AIBOT 覆盖了创作、商业、机构、服务和品牌等多个领域,它们可以利用专业领域知识直接回答用户的问题。图图 55:百度全新百度全新 AI 搜索体系搜索体系 数据来源:机器之心,中信建投证券 外部应用层面,文心大模型在金融、能源、制造、城市、传媒、互联网等行业有标杆应用案例。目前百度文心在能源、金融、航天、制造、传媒、城市、社科以及影视等领域与国网、浦发、吉利、TCL、人民网、哈尔滨、上海辞书出版社等均有案例应用的行业大模型。这些行业大模型作为重要 AI 底座,在各行业的技术效果突破、产品创新、生产流程变革、降本增效等维度产生价值。例如,百度与国网合作的 NLP
164、 大模型,共同打造行业级人工智能基础设施,探索研发电力人工智能联合大模型,不仅提升了传统电力专用模型的精度,而且大幅降低了研发门槛,实现了算力、数据、技术等资源的统筹优化。百度与人民网的合作的 NLP 大模型,引入舆情数据中心积淀的行业知识来更好训练知识增强的传媒行业大模型,实现更少的标注数据下大幅提升传媒行业自然语言处理任务效果,如新闻内容审核分类、舆情分析、摘要生成等行业任务相对于通用模型提升显著。百度与 TCL 合作的 CV 大模型,面向多个产线多个环节的工业质检提供 AI 基座能力,在 TCL 几个产线检测 mAP指标平均提升 10%+,训练样本减少到原有训练样本 30%40%,产线指
165、标即可达到原有产线效果,新产线冷启动效率可提升 3 倍,产线上线开发周期降低 30%。41 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 56:百度文心行业大模型全景百度文心行业大模型全景 数据来源:文心大模型官网,中信建投证券 百度文心围绕大模型产业应用的不同研发环节,面向各阶段不同技术、业务背景的开发者或用户,打造系列工具平台与场景化产品。大模型套件:大模型套件:百度文心推出新一代预训练范式的 NLP 算法定制开发工具集 ERNIEKit,面向 NLP 工程师,提供全流程大模型开发与部署工具集,端到端、全方位发挥大模型效能。包括数据标注与处理、大模型精调、大模型
166、压缩、高性能部署、场景化工具五大模块能力;AI开发平台:开发平台:百度AI 开发以双平台模式驱动,面向应用开发者或业务专家提供零门槛 AI开放平台EasyDL,面向 AI 算法开发者提供全功能 AI 开发平台 BML。EasyDL 使用百度文心 NLP、CV、跨模态大模型作为训练基座,利用少量数据即可获得理想的模型效果,具有零门槛、高精度、低成本数据、超灵活部署四大核心优势。BML 深度融合文心大模型,提供 Notebook 建模、预置模型调参、可视化建模、模型产线建模、Pipeline 建模、实验管理等功能,兼具性能和性价比;大模型大模型 API:文心开放了 NLP 大模型 ERNIE3.0
167、、跨模态大模型 ERNIE-ViLG、对话大模型 PLATO。ERNIE3.0提供文案改写、开放问答、摘要、文案创作、小说创作、文本补全等文本理解与创作能力。ERNIE-ViLG 提供基于文本描述的 AI 作画能力,图文相关性强、图片质量高,在中国文化理解、中国风、二次元等方面表现优异。PLATO 提供生成式开放域对话服务,逻辑清晰、知识多元、情感丰富,闲聊能力接近真人水平。42 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 57:文心大模型产品矩阵文心大模型产品矩阵 数据来源:IDC,中信建投证券 3、腾讯腾讯 腾讯构建了“太极机器学习平台+混元大模型”,同时腾讯
168、启动了“混元助手”知识增强大语言模型项目。2016 年,腾讯成立了 AI Lab 实验室。2022 年 4 月,腾讯对外披露了混元大模型,涉及自然语言处理、计算机视觉、多模态等多个领域。腾讯自研的太极机器学习平台为混元大模型提供算力,可支持 10TB 级模型训练、TB 级模型推理计算能力等。腾讯 AI Lab 是腾讯的企业级 AI 实验室,于 2016 年 4 月在深圳成立,目前有 100 多位顶尖研究科学家及 300多位应用工程师。2017 年公司提出了“Make AI Everywhere”的战略愿景,和“基础研究场景共建能力开放”的三层 AI 战略架构。作为衡量机构研究实力的重要标准,成
169、立四年多来,腾讯 AI Lab 的基础研究成果已覆盖 CVPR、ACL、ICML、NIPS 及 Nature Communications 等国际顶级 AI 学术会议或期刊,发表论文超过 460篇,位居国内企业前列。截止 2020 年 3 月,腾讯拥有 AI 全球专利超过 6500 个,中国专利超过 5000 个。3.1 模型 2022 年 4 月,腾讯首次披露了混元 AI 大模型研发进展,先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具权威的跨模态视频检索数据集榜单中取得第一名,实现跨模态检索领域的大满贯。当月,腾讯混元 AI 大模型又在中文语
170、言理解评测基准 CLUE 分类榜中取得第一名,分数突破了 80.000 分,接近人类语言理解能力,刷新该榜单历史记录。这是混元 AI 大模型在斩获跨模态检索榜单大满贯后,取得的又一突破性进展,展现了该模型在自然语言处理上的实力。2022 年 5 月,腾讯混元 AI 大模型在 CLUE 总排行榜、阅读理解、大规模知识图谱三个榜单同时登顶,一举打破三项纪录。据了解,CLUE 总榜由分类任务和阅读理解任务构成。腾讯混元 AI 大模型在一个月内先 源码级的NLP开发工具集 面向专业的NLP算法工程师 百度内部的主流NLP开发工具文心大模型文心大模型ERNIEERNIE开发套件开发套件ERNIEKitE
171、RNIEKitNLP算法定制开发工具集 一站式NLP大模型调用平台 面向初级开发者或业务专家 界面试用与接口调用两种模式服务平台服务平台ERNIEERNIE-APIAPI大模型API服务 一站式NLP模型定制平台 面向有一定算法基础的开发者 功能完善全面,支持灵活调参开发平台开发平台BMLBML-智能文本智能文本全功能AI开发平台 一站式NLP模型定制平台 面向初级开发者或业务专家 零代码,全流程可视化操作EasyDLEasyDL-文本文本零门槛AI开发平台 高可用、云原生,可一键部署 三步完成搜索引擎构建 系统搭建人力成本节省90%产品产品文心百中文心百中大规模驱动产业级搜索系统 强大的文生
172、图、二次编辑能力 高质量、多风格、多尺寸 恢弘艺术性、深入的中国文化理解、领先的中国风画作文心一格文心一格AI艺术与创意辅助平台 43 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。后实现分类任务、阅读理解双佳绩,最终以 84.730 的成绩取得总榜第一。之后混元 AI 大模型又在多模态理解领域国际权威榜单 VCR(Visual Commonsense Reasoning,视觉常识推理)中登顶,两个单项成绩和总成绩均位列第一。这是继在跨模态检索领域实现大满贯、CLUE 自然语言理解分类榜及 CLUE 总榜登顶后,混元 AI 大模型的又一重大突破,展现了其在多模态理解领域的
173、强大实力。2022 年 12 月,腾讯混元又迎来全新进展,推出国内首个低成本、可落地的万亿 NLP 大模型,并再次登顶 CLUE。目前,混元 AI 大模型已经广泛应用于腾讯微信搜索、腾讯广告等业务场景,提升了搜索体验和广告推荐精准度。随着研究的进一步完善和业务实践的不断深入,未来将赋能更多业务场景,帮助精准理解用户需求,更好地服务用户。腾讯混元 AI 大模型的跨模态、多模态能力也成为了开发类 ChatGPT 混元助手的重要基础。腾讯针对类 ChatGPT 对话式产品已成立“混元助手(HunyuanAide)”项目组,该项目组 Owner 为张正友,PM 分别为俞栋、王迪、刘田,目前该项目有至少
174、 7 位组长、7 位 Sponsor。该项目组将联合腾讯内部多方团队构建大参数语言模型,目标是“通过性能稳定的强化学习算法训练,完善腾讯智能助手工具,打造腾讯智能大助手。此外,腾讯内部正在积极调动资源支持 AI 领域发展,例如腾讯 XR(扩展现实)团队全线解散,相关资源转入 AI 项目中。同时,腾讯高级 AI 人才积累深厚,仅在混元大模型领域,2022 年就发布近 10 篇顶会论文。这为腾讯未来 AI 研发团队的快速扩充和 AI 领域的发展奠定了坚实的基础。2023 年 2 月 27 日,腾讯针对类ChatGPT 对话式产品已成立“混元助手(HunyuanAide)”项目组。HunYuan 协
175、同了腾讯预训练研发力量,旨在打造业界领先的 AI 预训练大模型和解决方案(如下图),以统一的平台,实现技术复用和业务降本,支持更多的场景和应用。当前 HunYuan 完整覆盖 NLP 大模型、CV 大模型、多模态大模型、文生图大模型及众多行业/领域任务模型。混元团队集合腾讯计算集群、超算网络、机器学习平台的技术实力,并在 MoE 模型结构、热启动和课程学习、注意力权重复制、词向量路由机制等方面研究优化,大幅降低万亿大模型的训练成本,彰显全套技术体系的实力。图图 58:腾讯混元腾讯混元 AI 大模型架构大模型架构 数据来源:量子位,中信建投证券 44 海外行业深度报告 互联网互联网 请务必阅读正
176、文之后的免责条款和声明。3.2 算力 腾讯发布大模型算力集群 HCC 大幅提速模型训练。大模型进入万亿参数时代,单体服务器提供的算力有限,需要将大量服务器相连,协同优化单机算力、网络架构和存储性能,打造大规模、分布式的高性能计算集群。以新一代集群为标志,基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,腾讯云正通过软硬一体的方式,打造面向 AIGC 的高性能智算网络,持续加速全社会云上创新。2023 年 4 月 14 日,腾讯云发布新一代 HCC 高性能计算集群,其采用最新一代星星海自研服务器,搭载NVIDIA H800 Tensor Core GPU,并基于自研网络、存储架构,带来 3.
177、2T 超高互联带宽 TB 级吞吐能力和千万级 IOPS。实测结果显示新一代集群算力性能较前代提升 3 倍。2022 年 10 月,腾讯完成首个万亿参数的 AI 大模型混元 NLP 大模型训练。在同等数据集下,将训练时间由 50 天缩短到 11 天。如果基于新一代集群,训练时间将进一步缩短至 4 天。服务器单机性能是集群算力的基础,新一代集群的单 GPU 卡在不同精度下,支持输出最高 1979 TFlops 的算力。针对大模型场景,星星海自研服务器采用 6U 超高密度设计,相较行业可支持的上架密度提高 30%;利用并行计算理念,通过 CPU 和 GPU 节点的一体化设计,将单点算力性能提升至更高
178、。图图 59:HCC 大幅提速大模型训练大幅提速大模型训练 图图 60:星星海自研服务器星星海自研服务器 数据来源:腾讯云,中信建投证券 数据来源:腾讯云,中信建投证券 计算节点间,存在着海量的数据交互需求。随着集群规模扩大,通信性能会直接影响训练效率,需要实现网络和计算节点的最大协同。腾讯自研的星脉高性能计算网络,具备业界最高的 3.2T RDMA 通信带宽。实测结果显示,搭载同等数量的 GPU,3.2T 星脉网络相较 1.6T 网络,集群整体算力提升 20%。同时,腾讯自研的高性能集合通信库 TCCL,融入定制设计的解决方案。相对业界开源集合通信库,为大模型训练优化 40%负载性能,消除多
179、个网络原因导致的训练中断问题。大模型训练中,大量计算节点会同时读取一批数据集,需要尽可能缩短数据加载时长,避免计算节点产生等待。腾讯云自研的存储架构,具备 TB 级吞吐能力和千万级IOPS,支持不同场景下对存储的需求。COS+GooseFS对象存储方案和 CFS Turbo 高性能文件存储方案,充分满足大模型场景下高性能、大吞吐和海量存储要求。45 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 61:网络集群算力网络集群算力 图图 62:HCC 存储架构存储架构 数据来源:腾讯云,中信建投证券 数据来源:腾讯云,中信建投证券 此外,新一代集群集成了腾讯云自研的 TA
180、CO 训练加速引擎,对网络协议、通信策略、AI 框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。腾讯太极机器学习平台自研的训练框架 AngelPTM,也已通过腾讯云 TACO 提供服务,帮助企业加速大模型落地。依托分布式云原生的治理能力,腾讯云智算平台提供 16 EFLOPS 的浮点算力,规模业界领先。通过腾讯云的大模型能力和工具箱,企业可结合产业场景数据进行精调训练,提升生产效率、快速创建和部署 AI 应用。3.3 平台 腾讯自研搭建了业界一流的太极机器学习平台,致力于让用户更加聚焦业务 AI 问题解决和应用,一站式的解决算法工程师在 AI 应用过程中特征处理,模型训练,模型服
181、务等工程问题。结合对用户的习惯理解和功能沉淀,太极在产品层提供数据/特征工程,模型训练,模型服务三块。闭环了用户离线训练到在线服务的应用,包含了不同场景下的数据访问诉求,不同训练模型的诉求,在线服务可靠性的诉求。算法框架&组件层提供了机器学习、深度学习核心组件。可支持 10TB 级模型训练、TB 级模型推理和分钟级模型发布上线,扩展集群规模则可支持更大的模型训练和推理,为实际业务提供大模型的情况下,同时具有很高的性能,达到行业领先水平。太极机器学习平台采用了分布式参数服务器架构,其是业界第一梯队企业们公认的最佳选择。这种架构的特点是,存储模型参数和执行模型计算,这两种任务在分别的服务器上运行,
182、增加更多服务器就可以支持更大、计算需求更高的模型。太极机器学习平台中的参数服务器系统 AngelPS 也是腾讯自研的成果,现在不仅可以承载 10TB 级模型的训练,对多维特征融合、复杂模型结构等更高级、更前瞻性的功能也有优秀支持。同时太极机器学习平台还具备超大模型在线推理服务的能力。推理计算方面,不仅支持常规的 CPU 计算,还支持复杂模型的 GPU 计算加速;存储上,根据在线推理模型大小,自适应选择小模型本地内存加载和大模型 AngelPS 远程查询的部署策略;在线服务运营上,平台具备多级容灾能力,脏模型秒级回滚能力,以及完备的系统和业务运行实时指标监控和报警系统。2015 年,太极机器学习
183、平台 1.0 诞生,是腾讯首个涵盖“数据导入-特征工程-模型训练在线服务“全流程的一站式机器学习平台。2018 年,太极平台深度学习训练加速上线,提供简洁的任务化体验,聚焦训练及训练加速。2019 年,太极平台联合腾讯云,打造了三环境(内网/公有云/私有云)统一的“TI-ONE 机器学习平台”,将机器学习平台能力输出给公网和私有云用户,太极平台服务腾讯内部业务。2020 年,基于 5 年多技术积累,内部共建,太极平台机器学习研发能力再度升级为统一的云原生架构,平台服务腾讯广告、游戏、信安、金融等多个核心 AI 业务场景。2022 年,为了解决“广告模型迭代流程研发效率”问题,太极广告一站式平台
184、上线,46 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。目标将广告模型迭代业务流程通过“上太极”产品化,为广告业务提供端到端的一站式模型研发体验。图图 63:太极机器学习平台架构太极机器学习平台架构 数据来源:腾讯AI实验室,中信建投证券 太极 AngelPTM 的设计目标是依托太极机器学习平台,为 NLP、CV 和多模态、AICG 等多类预训练任务提供一站式服务。其主要由高性能训练框架、通用加速组件和基础模型仓库组成。太极 AngelPTM 主要有三大部分:1)高性能训练框架:包含大模型训练框架 ZeRO-Cache,高性能 MOE 组件,以及 3D 并行和自动流水并
185、行策略;2)通用加速组件:包含可减少显存并提高精度的异构 Adafactor 优化器,可稳定 MOE 半精度训练 loss 的 Z_loss 组件,选择性重计算组件和降低通信代价的 PowerSGD 组件;3)基础模型仓库:包含 T5、BERT、GPT 以及 Transformer 等基础模型。图图 64:太极太极 AngelPTM 数据来源:腾讯太极机器学习平台,中信建投证券 47 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。3.4 应用 腾讯 AI Lab 的 AI 技术也广泛应用在微信、QQ 和腾讯觅影等上百款产品。行业应用上,实验室研发出的围棋 AI绝艺屡获国际
186、赛事冠军,是科技赋能国粹文化的代表;与王者荣耀研发的策略协作型 AI绝悟达到职业水平,代表国际水准的研究能力。布局前沿多模态数字人技术,探索数字内容生成的新可能。实验室支持的国家级 AI+医疗标杆产品腾讯觅影与腾讯医典也不断取得技术突破,腾讯觅影从医疗影像延伸到辅助诊疗等功能,截止 2018 年 10 月,项目已落地 100 多家全国三甲医院,服务患者近 40 万人。2020 年,实验室发布自研智能显微镜及 AI 药物发现平台云深智药,并初步探索 AI+农业智慧温室项目。2022 年,腾讯 AI Lab 利用过去几年的技术积累,搭建了包括建模、驱动、渲染、部署以及动画制作的数字人全栈技术管线,
187、形成了多场景业务方案,让数字人能够更方便、更便宜、更智能地走进千行百业。其中重点突破包括:建模:搭建了不同级别数据的分级建模管线,从消费级的照片输入建模,到影视级的相机阵列扫描。表情驱动:实现业界标杆级别的准确度和生动性。提供了 VISM16+AU20 技术标准,可基于文本或语音自动生成多风格 3D 数字人口型及表情动画,并支持通过精细化的 VHML 标注高自由度、可视化地调整数字人面部动画效果。身体驱动:提供适应不同类型业务场景需求的身体驱动解决方案,包括传统的光学动捕驱动、简单的动作库细粒度控制和编排、Locomotion、基于单目摄像头的视觉动捕技术等。动画制作:打造简单易上手的视频工厂
188、,通过配置形象、台本,通过智能表情推荐和动作编排,即可生成生动形象的 3D 数字人音视频动画,极大减少传统数字人视频制作耗时。图图 65:AI Lab 数字人数字人 数据来源:腾讯AI实验室,中信建投证券 场景场景解决解决方案方案AI LabAI Lab数字人数字人PaaSPaaS数字人视频虚拟工厂虚拟人视频创作虚拟人直播数字NPC游戏剧情叙事动画游戏NPC生成&驱动数字NPC游戏解说游戏内助手数字员工数字人资产数字人模型库发型库动作库身体衣服库建模照片人脸建模标签人脸建模高保真3DMM驱动T2F/S2F口型驱动VHML标记驱动NN-based动作生成中之人驱动渲染&部署UE/Unity引擎云
189、渲染+视频流端渲染API服务调用协作系统TTS PaaS前处理 PaaS游戏播报PaaS/解说系统众包评测服务标注众包服务云渲染服务WebRTC服务硬件&端客户端360影棚RGBD/RGB摄像头渲染服务器光学动捕棚AR/VR头盔&手套算法引擎服务器 48 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。AI+游戏:游戏:作为游戏 AI 研究的先行者,腾讯 AI Lab 在游戏环境持续进行研究的同时,也正不断探索促进游戏 AI 学界及应用的全面发展。2022 年,从绝艺、绝悟到开悟,腾讯正让 AI 从虚拟游戏世界走进现实。2022 年,腾讯 AI Lab 持续深耕科研,提升游
190、戏 AI 能力。例如在 22 年 4 月,棋牌类 AI 绝艺在 1v1 麻将(二人雀神)测试中战胜职业冠军选手,其背后的 ACH 算法登上顶会 ICLR 2022。2022 年 4 月,决策智能 AI 绝悟再次亮相 GDC,基于 AI 的人机协作能力和内容生成能力,展示 AI 在游戏行业丰富玩家体验、降低制作成本的案例。至此,腾讯的游戏 AI 技术更全面地覆盖了游戏制作、运营及周边生态全生命周期,并陆续拓展更多元的游戏品类。8 月,绝悟 3D-FPS 解决方案全面应用于 CFM、CODM 等多款 FPS 游戏,攻克复杂 3D 环境决策链条长、多人配合奖励稀疏问题,成功应用有效提升玩家对局体验。
191、2022 年 12 月,腾讯发布了绝悟的病理诊断版本“绝悟 RLogist”,成为腾讯 AI Lab 的游戏 AI 技术具备跨领域解决现实世界问题潜力的首个有力证明。受启发于“绝悟”在 3D 游戏环境观测环境并做出决策的过程,研究团队将相关的深度强化学习技术迁移到病理全片扫描图像诊断领域,在性能接近的情况下将传统病理阅片效率提升 400%。相关论文已被 AAAI 2023 接收,代码已开源。图图 66:绝悟绝悟 RLogist 提出一种类似医生病理阅片的决策思路提出一种类似医生病理阅片的决策思路 数据来源:腾讯AI实验室,中信建投证券 AI+生命健康:在医疗领域,生命健康:在医疗领域,腾讯 A
192、I Lab 与北京协和医院共同发布了具有完全自主知识产权的便携式智能化手术导航系统,实现高精度、便携式、低成本等特点,就像给临床医生的手术配上了 GPS,辅助医生精准定位隐藏在脑组织中的病变。该系统在协和神经外科已成功开展了 50 余例临床试验,涉及脑出血、垂体腺瘤、胶质瘤、脑膜瘤、颅咽管瘤等多种疾病,临床初步应用取得成功。腾讯 AI Lab 还与迈瑞共同研发了全自动外周血细胞形态学分析仪,并完成了创新医疗器械特别审查申请公示,正式进入国家药品监督管理局创新通道,成为国内体外诊断行业首个进入该程序的 AI 类产品。该分析仪通过创新性的形态学检测方案,以优异的指标及效率,实现白血病等高发恶性肿瘤
193、的早期筛查辅助临床诊断。49 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。在药物 AI 领域,腾讯 AI Lab“云深”平台 22 年 4 月发布了业内首个基于图的药物 AI 分布外研究框架 DrugOOD,以及基准方法。传统机器学习算法存在训练样本与测试样本不一样分布(Out-of-Distribution)的 OOD 问题,这影响了模型在实际应用中的稳定性、可靠性、泛化性等,也成了 AI 辅助药物发现领域的一大挑战。腾讯“云深”DrugOOD 针对药物 AI 研究中最重要的活性预测问题,提供大规模、全面的药物 AI 泛化数据集,覆盖 AI 药物辅助设计任务中发生分布
194、偏移的各类场景,帮助社区更便捷开展 OOD 问题研究。22 年 5 月,平台与清华大学团队合作完成了业内首个基于 AI+FEP 的抗体亲和力预测与改造模型,对亲和力不足的苗头抗体进行预测与改造。该方法以针对新冠刺突蛋白受体结合域的抗体为例,利用等变图神经网络预测抗体-抗原结合的亲和力,相关性大幅度提升。通过该模型进行高通量的单点突变改造筛选获得可潜在提升亲和力的突变体,再利用自研的 FEP(自由能微扰)技术对突变体进行结合自由能评估,可将预测与实验值的相关性提升至 0.88。“AI+计算化学”的结合,缩小了验证范围,提高了实验效率。22 年 11 月,平台设计出基于大规模序列预训练模型的结构预
195、测方法,精度超越当前的 SOTA 方法,仅需数秒即可准确预测抗体重轻链复合体的三维结构,并在引入抗原结构预测与特征融合模块后,能进一步预测抗原抗体复合体结构,指导相关抗体药物设计。该成果发表于 NeurIPS 2022 机器学习与结构生物学研讨会(MLSB)。AI+内容:内容:腾讯 AI Lab 持续探索 AI 与人协同合作的内容生成技术,此前相继发布了文本理解系统 TexSmart、交互翻译系统 TranSmart 等,并且创新性地探索了 AI 在游戏电竞、直播等领域的应用。智能写作方面,22 年 4 月,发布智能写作助手文涌(Effidit),用技术助力文思泉涌。初版本融合了知识抽取、文本
196、理解、文本生成、大规模预训练模型、经典语言模型、搜索等多项技术积累,提供多维度文本补全,多样化文本润色等核心功能,及例句推荐、文本纠错、云输入法、学术专业版等完整的辅助写作能力。22年 12 月,文涌 2.0 版本发布,新版本增加了风格化文本续写等众多功能,共包含文本补全、智能纠错、文本润色、超级网典四个模块,其中文本补全和超级网典旨在帮助写作者在创作时开阔思路、提供弹药,而智能纠错和文本润色则是重在提升创作后的文本水平和质量。部分功能目前已接入搜狗输入法 PC 端(智能汪仔)和 QQ 浏览器移动端。50 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 67:文涌文涌
197、 2.0 基于混元大模型展现出生成能力基于混元大模型展现出生成能力 数据来源:腾讯AI实验室,中信建投证券 交互翻译方面,腾讯交互翻译 TranSmart 作为新一代翻译工具,区别于输出静态结果的传统机器翻译,通过重构人工翻译过程的人机交互逻辑,让快速定制个性化机器翻译结果成为现实,助力用户又快又好完成高质量严肃译文生产任务。经过五年技术沉淀与两年商业化探索,TranSmart 已建设了包含公有云、私有化部署等服务形态,以及网页端、客户端、浏览器插件等产品形态,提供的服务包括交互翻译、文档翻译、自动翻译、定制引擎等,并可支持各类计算机辅助翻译软件(CAT)集成。翻译服务受到了各类垂直行业头部客
198、户的青睐和内外合作伙伴的广泛认可,包括但不限于:联合国、新华社、央视、CGTN、Memsource、华泰证券、阅文集团、Denso、富途证券、宝马、腾讯云官网、腾讯会议等。虚拟解说方面,腾讯 AI Lab 创新性地探索了 AI 与游戏电竞、直播等场景的结合,推出了业界首个 AI 驱动的游戏解说服务,并于王者荣耀游戏电竞场景尝试落地。该服务可基于玩家实时的游戏局面,通过智能策略理解局面亮点予以导播切镜,并生成符合语境且有趣味性的解说词,实时合成高度拟真、抑扬顿挫的解说语音。今年服务上线后,迅速获得了业界和观众的认可。22 年 3 月,全量落地微信视频号直播,在王者峡谷用 AI 解说陪伴着主播和观
199、众共度欢乐时光,开创了游戏直播领域的新模式。22 年 7 月,AI 解说作为王者赛宝的特色功能正式对外发布,所有的王者玩家均可办一场专属于自己的赛事,与身边的朋友一起体验电竞的魅力。22 年10 月,第一视角 AI 解说在微信视频号直播、快手、斗鱼、Bilibili 等主流直播平台上线,为王者荣耀职业赛 51 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。事的观众提供了全新的观赛体验。4、字节字节 相对于阿里、百度、腾讯均已经推出大模型及布局,字节目前仍未公布内部架构、产品体系及大模型的最新进展。字节的 AI 布局可以追溯到 2016 年成立的字节 AI LAB 的成立,
200、AI Lab 对自身的定位是作为公司内部的研究所和技术服务商,为平台输出海量内容提供 AI 技术支持。AI Lab 最初成立的时候聚集了马维英、李航、李磊等大牛,此后马维英离开团队回到学界,目前阿里 M6 大模型的前带头人杨红霞已加入字节 AI Lab(人工智能实验室),参与语言生成大模型的研发。字节目前大模型仍处于发展阶段,现以旗下云平台火山引擎在算力、平台和生态端布局为主。大模型团队由字节搜索部门牵头,搜索业务部门、AI Lab 和 AML(应用机器学习)团队均调任部分人马支援,目前团队规模在 40 人左右,图片大模型团队由产品研发与工程架构部下属的智能创作团队牵头;团队负责人间接和直接汇
201、报对象,则均为 TikTok 产品技术负责人朱文佳。根据调研情况,字节目前在仍在做模型调优,计划 23 年 6-9月达到 3.5 模型相当的水平,9 月之后语言模型可以同步做发布和多模态模型训练,语言模型发布至少要到 9 月之后。后面会基于当前的语言模型,做多模态的模型,多模态相对来说难度会更大,至少要等到 24 年 3-4 月。火山引擎是字节跳动推出面向企业的技术服务平台,提供机器学习平台和推荐平台两大平台,帮助企业模型训练将本增效。火山引擎具备资源复用、全面云原生化、全栈自研的三大优势,兼顾云的弹性与性价比,助力企业实现云上增长。火山引擎打造了全栈自研核心组件之一的火山引擎 DPU,基于
202、DPU 实现了新一代 RDMA网络,基于火山引擎 DPU 推出各类计算实例,降低企业用云成本,提升企业上云信心。在多云多模态方面,火山引擎发布了分布式云原生平台、多云 CDN 管理平台、多云安全平台、混合云 veStack 等产品,助企业用好分布式云,高效应对多云、混合云、边缘云场景的分布式云原生管理的挑战。在云上创新方面,火山引擎发布智能推荐-高速训练引擎,将模型的训练推理效率进行极致优化;升级机器学习平台,全力支持大模型,为大模型客户提供高稳定性和高性价比的 AI 基础设施,在多云多模型的时代服务好模型企业和应用企业。据火山引擎总裁谭待透露,国内几十家做大模型的企业,七成已经在火山引擎云上
203、。4.1 模型 字节在 AI 方面的积累主要集中在机器翻译、智能语音、视频图像和多模态四个领领域。字节跳动的研究成果包括非自回归模型 DA-Transformer、端到端语音到文本翻译模型 ConST、多颗粒度的视觉语言模型 X-VLM、图片和文本统一生成模型 DaVinci 等。在机器翻译方面,在机器翻译方面,字节旗下火山翻译团队 2022 年在 SC22、ACL2022、ICML2022 等顶会发表学术成果 10余篇,受邀参加了英伟达 GTC 2022 全球 AI 开发者大会等知名技术论坛,申报翻译技术专利 15 项,荣获中国专利优秀奖在 WMT2022 的非洲语向任务上夺得桂冠。目前,火
204、山翻译提供 9 大领域翻译,其中包括但不限于人工智能、互联网行业生物医疗、科学技术、金融财经,支持共 114 个语向的翻译,其中包括伊博语、亚美尼亚语等小语种。其中,字节和清华联合发布了 DA-Transformer,DA-Transformer 在机器翻译上首次达到了Transformer 同样的精度,而处理的速度提高了 714 倍。DA-Transformer 不仅可以用于机器翻译,而且可以用于任意的序列到序列任务。52 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。在智能语音方面,在智能语音方面,字节跳动是从 2017 年底重点投入智能语音技术的。公司对智能语音技术
205、需求主要来自于短视频中的内容审核、自动字幕和配音功能、办公软件飞书的会议转写、客服外呼机器人的语音交互链路、教育口语评测、小说音频内容生成、教育硬件下的语音增强、音乐消重和听歌识曲、外部 ToB 需求等。在语音识别方面,通过无监督预训练+少量有监督的技术,参加国际低资源多语言语音识别挑战赛(MUCS21),取得多语言语音识别赛道第二名;音乐技术方面,字节参加了 MIREX2020 翻唱识别竞赛,取得第一名,mAP 领先第二名 8%;语音合成上,字节发表了业界首个基于 seq2seq 链路的中文歌唱合成系统 ByteSing 以及搭建了 seq2seq 的中文前端多任务模型并用于线上业务。在视频
206、图像方面,在视频图像方面,2022 年 3 月,字节跳动智能创作团队基于 AI 技术的优势提出了“AI 渲染”方案。这一方案现已在抖音落地实现,可以基于 AI 和离线渲染技术,加速渲染过程,提升渲染质量,降低影视级渲染的享用成本,甚至在手机端实现影视级渲染效果。2022 年 7 月,字节提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer,即 Next-ViT。Next-ViT 能像 CNN 一样快速推断,并有 ViT 一样强大的性能。大量实验表明,Next-ViT 在各种视觉任务的延迟/准确性权衡方面明显优于现有的 CNN、ViT 和 CNN-Transformer 混合
207、架构。在多模态方面,在多模态方面,2022 年 3 月,字节发布的 text2image 模型实现了文生图能力,实验数据显示,其效果比VQGAN-CLIP 要真实,尤其是泛化能力还比不少用大量文本-图像数据对训练出来的模型要好很多。2022 年 5月,字节跳动 AI Lab Research 团队提出了 X-VLM,首次提出学习多粒度的视觉和语言对齐。实验证明,这种预训练方法十分高效,模型规模无需很大,预训练数据无需很多,仅 216M 参数量的 X-VLM 就能在广泛的多模态任务上获得了十分优秀的表现,例如:图像文本检索、基于图片的问答或推理、视觉定位、图片描述生成。目前,X-VLM 在字节跳
208、动的真实应用场景上超过了业界常用的多个模型,完成了上线,服务于如今日头条等业务。相关论文已被 ICML 2022 接收。4.2 算力 2023 年 4 月 18 日,火山引擎在春季火山引擎 FORCE 原动力大会上正式发布自研 DPU 等系列云产品,并正式推出智能推荐-高速训练引擎,支持 100GB 至 10TB 以上超大模型的高效训练,采取软硬一体优化设计等,让面向推荐场景的高速训练更快,成本更低。火山引擎智能推荐-高速训练引擎具备软硬一体、细粒度算子优化、分布式训练和推理三大特点,1)软硬一体化:针对关键场景的超大模型,火山引擎智能推荐-高速训练引擎提供了全 GPU 方案,可以支持 100
209、GB-10TB的超大模型的高速训练,综合 ROI 是 CPU 的 5 倍;覆盖更多场景的模型,提供了 GPU+CPU 混训方案,综合ROI 是 CPU 的 2 倍;2)细粒度算子优化:针对搜索、推荐和营销场景,优化细粒度算子,使得在模型推理的过程中有更好的性能表现。在训练时,通过算子融合并精细调优,性能提升 20%;在推理时,通过算子优化,性能提升 40%;3)分布式训练和推理:智能推荐-高速训练引擎为了保障系统的稳定性,支持训练和推理的全方位容错,当某一个节点故障时,可以快速恢复;支持分布式推理,包括多分片、多副本,从而保证线上服务的高可用。53 海外行业深度报告 互联网互联网 请务必阅读正
210、文之后的免责条款和声明。图图 68:火山引擎发布的智能推荐火山引擎发布的智能推荐-高速训练引擎高速训练引擎 数据来源:火山引擎公众号,中信建投证券 火山引擎让大模型训练降本增效,并得到外部验证。抖音、今日头条等基于火山引擎高速训练引擎的业务,模型训练时间的速度相较以往快 10 倍-25 倍,综合成本降低 25%-67%。而在外部,火山引擎高速训练引擎的价值也得到了多家企业的验证。例如,在与中国某社交平台的合作中,火山引擎成功帮助客户解决了训练速度慢,无法快速验证模型效果的问题,将训练速度提升了 12 倍原本客户侧耗时 1800 分钟的模型训练,在火山引擎侧仅耗时 150 分钟。在模型优化上,火
211、山引擎百 G 模型与客户 2T 级别模型相比,效率无明显下降,且离线效果指标全部正向,帮助客户实现了大幅的降本增效。4.3 平台 2022 年 7 月,火山引擎正式发布机器学习平台,达到 0 碎片的极致性能和优秀的开发体验,火山引擎机器学习平台解决方案已在金融、零售、能源、教育等行业落地,帮助更多企业不断缩短智能业务研发周期,提高模型上线效率和 GPU 使用率,并依靠定制化的智能模型实现业务增长。火山引擎在数据管理、资源管理、流程和模型三大领域具备核心优势。1)在数据管理场景下,火山引擎机器学习平台可通过结构化、非结构化数据库、数据协同标注与版本化管理、多租户安全等,保护企业数据资产,为机器学
212、习、深度学习开发助力;2)在资源管理场景下,机器学习平台可通过 GPU、CPU 调度,模型分布式训练,资源动态分配,弹性线上推理服务等,提供机器学习模型开发所需要的算力。无论是在字节跳动内部还是在外部客户,该平台都已实现万级 GPU 算力资源的池化管理、调度和共享;3)对于流程和模型管理,机器学习平台提供 DevOps 能力。不同于一般业务,机器学习应用的发布包含了所有规则和处理逻辑,在应用上线后,由于需要周期性地进行更新、优化迭代,模型本身对外部数据有强依赖,这使得整个 DevOps 更复杂。火山引擎机器学习平台构建了 DevOps 流水线,实现从数据处理、模型训练、模型评估、模型发布的持续
213、集成,提升端对端业务上线效率。平台也支持通过超参数自动搜索、多模型自动比对与评估、模型版本化管理、线上模型运维等,降低模型开发和维护门槛。54 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 69:火山引擎机器学火山引擎机器学习平台习平台 数据来源:火山引擎公众号,中信建投证券 2023 年 4 月,火山引擎在 2023 春季 FORCE 原动力大会发布了机器学习平台升级版,主要在三大方面进行了优化:1)全新的实验管理-模型效果对比功能:仅需极少的代码改动,用户就可以通过该功能实时跟踪和对比训练效果,观察趋势,加速模型迭代;2)全新支持了弹性实例:实现灵活资源调度,随
214、用随取,成本节省达70%;3)针对大模型训练场景进行了全面优化:目前,平台可以支持万卡级别大模型训练场景,微秒级超低延时网络,让大模型训练更稳更快。4.4 应用 火山引擎的 AI 场景产品主要包括智能创作、智能体验以及智能营销,目前已服务数百家客户,分别在视频创作、互动创作、直播短视频构建中推动客户业务增长。在内容视频化和互动趣味化的大趋势下,火山引擎创作与体验场景提供了从算法到平台的全域解决方案,在 AI 底层算法的支持下,通过全品类的正版素材和特色化的创作工具,快速完成视频、特效、虚拟形象、XR 等创新内容。不管是企业用户还是个人用户,人人都可拥有创作比较专业的短视频的能力。智能创作云是火
215、山引擎发布的面向企业的创作 AI 产品,智能创作云包括众多 AI 创作工具,比如图文转视频能力,用户只需输入文字即可生成视频,AI 通过理解文字内容,搭配适合的图片、音乐和转场等,快速生成一支专业的视频;比如视频模板,剪同款功能就是把优质视频内容抽象成脚本,用户只要会打开摄像头拍摄,就有了专业拍、剪视频的能力,极大降低了创作门槛,保障了内容生产的质量。业务应用业务应用金融风控图像识别广告投放商品推荐质量检测行为识别医疗预测安全安全API/SDK接口权限管理角色管理团队管理用户管理资源管理监控管理审计日志报警管理集成扩展服务集成扩展服务微服务平台大数据平台容器云平台混合云机房数据训练模型推理治理
216、构建流程的所有步骤(包括集成,测试,发布,部署和基础架构管理)中实现自动化和监控数据源数据清洗数据标注数据集市Jupyter分布式AutoML流水线模型转换模型评估模型优化数据对比推理图批处理场景服务在线测试灰度发布A/B测试版本回滚Kubernetes资源管理任务调度InfraCPU,GPU,NPU,FPGACeph,OSS,GlusterFS,HDFS多平面网络 55 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 70:智能创作云智能创作云 SaaS 产品产品 数据来源:火山引擎公众号,中信建投证券 字节旗下云服务平台云服务平台火山引擎提供有关音视频的智能美化特
217、效。智能美化特效基于自主研发的特效 SDK,提供多项图像渲染和算法,提供贴纸特效/美化滤镜/人像智能/计算机视觉基础检测识别等功能,用于拍照工具、直播、短视频、在线教育、体感游戏等场景。目前,智能美化特效拥有超过 200 个自研算法、具备小于 2ms 的人脸检测速度,提供超过 90 万个抖音同款特效贴纸和滤镜。此外,字节在内部的相关产品持续引入 AI。2022 年 5 月,字节推出海绵乐队 App,海绵乐队是一款手机端的便携式音频创作工具,在实现传统的录音、效果器同时,引入大量 AI 智能来协助创作,降低使用难度,提高创作趣味和效率。2023 年 4 月 12 日,飞书宣布将推出智能 AI 助
218、手“My AI”,My AI 包括自动汇总会议纪要、创建报告、优化和续写文字内容等。在飞书 App 中,My AI 也可以通过对话形式,帮助用户自动创建日程、搜索公司内部知识库等功能。飞书还表示,My AI 能做的远不止于此。未来,更强大的智能助手,也会让工作中的人们更强大。56 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。三、商业模式三、商业模式 当前全球大模型产业落地仍处于早期探索阶段。一方面,研发机构在大模型方面的技术研发已较为成熟,如算法架构、预训练和微调策略、计算并行加速等,但对落地场景不够熟悉,没有形成完善的商业化模式,需要与下游场景企业合作建立大模型商业模
219、式;另一方面,绝大多数下游场景的企业对大模型没有形成基本的概念和认知,同时也没有能够支撑模型微调的算力,以及定制、二次开发模型的人力资源和技术实力。此轮基于 ChatGPT 的大模型浪潮兴起伊始,结合我国 AI 产业链与竞争格局现状,一种判断是:基于大模型的通用和泛化性提高,未来手握通用基础大模型的巨头企业会逐渐侵蚀垂直领域厂商业务。这种压力长期来看的确存在,但大模型与产品结合,尤其在非检索或开放域交互等场景中,需要依赖垂直领域数据和行业know-how、应用场景和用户数据反哺、一站式端到端工程化能力等。在此窗口期,垂直领域与应用层厂商应积极将大模型能力整合入自己的技术栈,服务于产品功能优化,
220、建立“数据飞轮”壁垒。在下游丰富的基于大语言模型、AIGC 应用开发需求的影响下,还将分化出一类工具型或平台型厂商,主要提供基于各类大模型的开发平台服务,帮助客户实现便捷的 AIGC 应用开发与落地。图图 71:中国大语言模型产业参与厂商类型与定位逻辑中国大语言模型产业参与厂商类型与定位逻辑 数据来源:艾瑞咨询,中信建投证券 1、API 模式模式 API 模式指的是由大模型的研发主体(如科研机构)对完成的模型文件进行封装,将模型在各类任务上的推理能力封装成统一的应用程序接口,对外提供服务的模式。下游企业可以获得这些接口,并按照自身的业务需求,将接口作为可以调用的代码库、程序包等,植入已有的应用
221、和服务中,让大模型的 API 为整个程序进行赋能。API 模式的主要优势在于降低了企业应用大模型的成本。API 将大模型内部的所有技术细节进行封闭,企业不需要过多了解模型的技术细节,也不需要投入额外的开发人力和算力资源进行大模型调优。垂直基础大模型厂商:具备一定算力、资金和技术实力的垂直赛道厂商,可基于多家开源模型和数据,进行重直基础大模型自研。一般该类型厂商亦会横跨模型层与应用层应用开发厂南:不具备充足算力和资金的厂商,可基于API进行AIGC相关应用产品开发,依托巨头生态打磨产品与拓客工具层厂商:负责承担大模型调优工作,服务于应用开发或解决方案广商,可能逐步向平台型发展通用基础大模型在高商
222、业价值的内容输出方面能力较弱且在产出结果的可信程度上不可控,需要委直领域know-how与数据调优;在数据开放度低的行业领域,如能源、政务、金融、电力、通信等,通用基础大模型缺少高质量数据集支撑;在落地实施层面上,不具备调优与二次开发能力的人业需要端到端的大模型开发及部署服务,以控制部署成本通用基础大模型厂商通过海量数据自研自研大模型后,一般经过垂直领域数据调优、缩小模型量级首先服务于自身业务达到降本增效、提高营收等效果。后开放服务赋能B端或C端用户。大模型改变了AI产业的技术流通路径和生产方式。在促进AI工业化进程的同时优化了应用的产品功能,拓宽了应用层市场 大 模 型 是AIGC产业发展的
223、基石来自同赛道内部和外部巨头的竞争日益激烈未来可能国内只有1-2家完全跑通产生类OpenAI企业定位化原因参与应用开发 57 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。然而,API 模式本身依赖于研发机构强大的科研实力,如果模型本身性能不佳,API 将无法满足企业的常规推理任务需求,仍需要根据场景情况进行额外的微调。同时,API 本身不够灵活,其作为一种软件间进行交互的形式,本身难以承载高频、高通量的请求。当推理请求的次数和请求数据量过大时,API 的响应时间和返回数据质量将难以保证。最后,许多企业由于业务需要,无法将数据通过 API 传到模型中进行推理,因此不适用于
224、这一模式。目前大模型领域商业落地较为成功的案例是 GPT-3。在 OpenAI 在公开 GPT-3 论文后,也同时开放了模型的 API 申请通道,鼓励研究者、开发者、企业从业者研究“好玩”的 GPT-3 应用,以此促动大模型的产业场景发展。在开源社区培养了一批 GPT-3 的开发和用户人群后,OpenAI 对外开放 API 商业运营计划,让 GPT-3 成为营收来源。去年 9 月,OpenAI 公布了 BETA 版本的 GPT-3 模型 API 商业方案,分为“Explore”、“Create”、“Build”、“Scale”四个版本。其中 Explore 版本用户可以免费使用 3 个月,并有
225、 10 万 Token(每 1k 相当于 750 个词)的限额。付费版本的加工从 100 美元/月到 400 美元/月不等,并有调用量的限额。此外,每个方案分别提供包括API 试验场(Playground,用于测试各种 API 应用)、开发者工具、技术支持(仅限付费版本)等定制化服务,能够帮助企业更快上手 API 的开发工作。以“根据产品描述生成广告”API 为例。这一 API 的功能是将一段产品的描述提供给模型,模型会根据描述直接生成一段对应的广告词。GPT-3 商业版的 API 中有很多可以设定的参数,用户可以在 API 中提供包括最大返回 token 数、频次惩罚等参数,帮助模型提供更符
226、合需求的结果。目前 GPT-3 的商业化正在稳步进行中,据 OpenAI 公开的博客文章表示,截至 2021 年 3 月,已有 300 多个 APP 采用了 GPT-3 技术。全球使用 GPT-3的开发者数量上万。GPT-3 模型每天产生 45 亿个词汇,且数量还在不断增长。为了推广大模型的应用发展,OpenAI 也支持围绕 GPT-3 举办算法大赛,并提供 API 支持。2、PaaS 模式模式 大模型作为一种技术,将其集成在 AI 平台上,对外提供能力和服务,成为一些技术实力雄厚企业的选择。这种模式中,企业的主要落地产品的 PaaS 平台、开发工具、AI 服务等组合而成的套件,大模型是套件中
227、的一个重要的组成部分,但不是全部。用户购买或使用平台的过程中,可以利用平台提供的工具,对大模型进行开发和应用,集成于自有的体系中,为自身业务提供服务。需要注意的是,和 API 模式不同,PaaS 服务模式提供的是包括模型在内的一系列工具和平台,用户不能单独获得模型的能力。同时,用户虽然可以通过 PaaS 模式,获得对模型更高的开发和控制权,但往往需要为此付费,这为 PaaS 服务的供应商带来了一定的利润。PaaS 模式的优势在于,其将大模型直接封装成成熟的 API 服务,并为用户提供便利支持,帮助用户以相对开源更低的成本进行模型的开发和部署工作,为用户减少了很多开发方面的投入。但是需要注意的是
228、,有些 PaaS不一定提供算力资源,用户仍需要投入硬件成本。同时,当模型规模过大的时候,即使是提供 PaaS 服务,PaaS供应商仍需要为用户解决模型训练和推理所需的算力规模大,无法集成于用户已有业务体系的问题。PaaS 供应商也需要考虑技术的服务形态,如果是本地服务,则 PaaS 本身的规模绝不能过大,以免给用户带来负担,如果是云服务,则需要解决高请求频次和大规模通信方面的问题。国际上,英伟达迁移学习工具包(TLT)是一个用于进行预训练模型微调定制的综合平台,包括支持计算机视觉和自然语言处理两个领域的预训练模型,以及数据处理标注、模型训练、模型剪枝等方面的工具,以及支持模型训练和推理的加速组
229、件等。58 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。图图 72:TLT 进行预训练过程中的主要流程进行预训练过程中的主要流程 数据来源:英特尔,中信建投证券 以微调对话领域模型为例,英伟达提供了具体的部署流程。用户首先可以从云上下载已预训练好的模型,并结合场景数据集,利用 TLT 工具,对数据进行处理、增强,并对预训练模型进行微调,微调后利用平台进行测评。待测评结果符合实际应用要求后,可导出模型,进行下一步的使用(如后续用 RIVA 进行模型的应用).。目前 TLT 平台已经支持 BERT、Megatron 等预训练语言模型,以及计算机视觉领域多种任务的模型。英伟达
230、称,在 TLT 平台的支持下,相比非迁移学习,用户只需要使用十分之一的数据进行训练,模型部署效率提升 10 倍。TLT 平台本身是免费的,支持英伟达旗下的 A100、V100GPU 等硬件。国内也有大型科技企业推动 PaaS 模式的发展。例如,2020 年 7 月,百度发布了 NLP 开发与服务平台文心,其依托 ERNIE 预训练技术,为开发者提供 NLP 定制与应用能力。文心平台可通过公有云(如 EasyDL-NLP、BML 等)和私有化两种方式为产业提供服务。用户不需要关注计算开发环境的搭建和算法实现的底层实现细节。对于对场景要求更高的用户,百度提供全流程、可深度定制、可私有化部署的文心开
231、发套件。用户可以获得模型技术选型、本地化训练、离线部署等深度解决方案。截至目前,文心平台已累计支持 4 万开发者,及涵盖各行各业的 200 多家企业客户。达摩院的 AliceMind 平台囊括了该机构研发的一系列基础语言模型,覆盖通用语言模型、多语言、生成式、多模态、结构化、知识驱动、超大模型等领域,大部分已开源,支持训练、精调、蒸馏、测试、部署等功能,支持语言模型从训练到部署。目前 AliceMind 的日均调用量超过 50 亿次,活跃场景超过 200 个,已在跨境电商、客服、广告等数十个核心业务应用落地,以及医疗、能源、金融等行业。例如,浙江电网公司采用 AliceMind构建智能化运维平
232、台,用于变压器检修、供电抢修等场景。同时,达摩院也基于 M6 模型打造了多模态预训练服务平台,集成文到图像生成、视觉问答、图片描述、文本生成、跨模态检索等基础功能,并提供了 data2text文案生成等解决方案。京东科技的 NeuHub Foundry 平台内置了覆盖计算机视觉、自然语言处理在内的近百个预训练模型,提供图形式、脚本式编程方式,支持一键导入预训练模型,实现便捷快速的重训练和迁移学习。此外,NeuHubFoundry支持数据处理、训练到部署的全流程开发服务,训练完成的模型可一键部署并发布至 NeuHub 开放平台,提供鉴权、计量计费和安全防护等一站式后服务体系。目前 NeuHub
233、平台日均调用量峰值超千亿次,覆盖风控、客服、广告、阅读娱乐等几百个应用场景,服务上千家企业客户。59 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。3、MaaS 模式模式 MaaS 商业模式是以算力平台、模型仓库及数据集仓库为基础的,倡导零门槛的模型体验,提供简单快速的模型使用、完整的模型定制链路及模型云端部署服务,主要提供给 AI 的爱好者、开发者、研究员以及部分中小型转型企业的商业化模型使用。“模型单点工具应用场景”是“模型单点工具应用场景”是 MaaS 产业结构的核心。产业结构的核心。大模型是 MaaS 的最重要基座,例如 OpenAI提供的访问执行各种自然语言任务
234、的 GPT-3、将自然语言翻译成代码的 Codex、创建和编辑原始图像的 DALLE;单点工具是大模型应用的补充,例如 ChatGPT 是在 GPT-3.5 模型的基础上,产生出的能“对话”的 AI 系统;内容写作工具 Jasper 它基于开源的 GPT-3 模型,它使用人工智能为用户编写内容等;各种应用场景是大模型应用的变现,例如商汤科技的书生(INTERN)大模型可以让 AI 模型处理多样化的视觉任务;又如 GPT 模型系列作为基于互联网可用数据训练的文本生成深度学习模型,应用场景持续扩展。MaaS 公司的收费已经开始。多种大模型及其单点工具采取订阅制收费模式。例如,OpenAI 在 2
235、月 1 日正式官宣了 ChatGPT 的试点订阅计划,这项付费服务被命名为 ChatGPT Plus,每月收费 20 美元,订阅者将获得许多好处,包括(1)在高峰时段享有优先访问 ChatGPT 的权利;(2)更快的应用响应时间;(3)优先使用新功能和改进。类似的 AI 聊天公司 Jasper 以 GPT-3 为基座,通过在底层调用 GPT-3 模型研发出属于自己的文本生成 AI 模型,并推出了多项订阅服务。其中,订阅服务的收费主要分为三档:Starter 档的收费标准 29 美元月起,更为常用的 Boss Mode 会员则是 59 美元/月起,另外还有更高昂的企业级收费。即使是 59 美元/
236、月的 Boss Mode 最基础档,其也只提供 5 万字/月的服务,对比 ChatGPT 不限量的生成字数,我们认为,ChatGPT 这类产品的订阅收费未来的天花板远不止 20 美元,这背后自然是更为广阔的蓝海市场。而除了模型本身进行订阅收费以外,嵌入其他产品获得引流式收入也是模式之一,例如,微软宣布推出高级付费版 Microsoft Teams Premium,这项高级服务将在 6 月份每月收费 7 美元,然后在 7 月份恢复到正常的 10美元,订阅者可享用由 OpenAI GPT-3.5 提供支持的“智能回顾(Intelligent Recap)”这一重要功能,该功能将提供自动生成的会议记
237、录、推荐任务和个性化标亮;微软旗下 Dynamics 365 产品线宣布旗下客户关系管理软件Viva Sales 也将集成 OpenAI 的技术,通过人工智能帮助销售人员完成许多繁杂且重复的文字工作。虽然,GPT-3.5并未在 Viva Sales 中作为单独的收费项目存在,但是 Viva Sales 作为 CRM 产品本身每月就收费 40 美元,假设有 1000 万客户是因为 GPT-3.5 而选购 Viva Sales,则代表 GPT-3.5 每年能够为微软带来 48 亿美元的收入。其它的收费模式还包括不同的 Model 应对不同的客户需求和客户定价,如 OpenAI 在推出 ChatGP
238、T 以前,其主要收入来源于对外部客户开源自身大模型,通过提供 API 接口调用来收费。例如用于创建和编辑原始图像的 DALL E 模型,Mixtiles 利用 DALL E API 来创建和构建能引起情感共鸣的艺术品(图片);数字平台 CALA同样调用了 DALL E 模型,使得 CALA 的智能工具允许用户从自然文本描述或上传的参考图像中生成新的设计理念图。可以看出,相较于 Mixtiles,CALA 对于 DALL E 模型的应用更偏商业,对于细节的要求也更高,那在这种情况下,CALA 和 Mixtiles 两者调用 DALL E 模型的收费肯定是有所不同的。总结来说,不同的 Model
239、应对不同的客户需求和客户定价肯定也会有所不同,客户的要求越高,使用的模型越好,那么大模型的收费也将会更高。60 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。风险提示风险提示 新业务发展不及预期:新业务发展不及预期:AIGC 及相关新技术领域仍处于快速发展阶段,技术距离成熟存在较大差距,当前发展预期可能存在过度乐观的情况,业务实际发展仍存在较大不确定性。技术风险技术风险:大模型的部署和维护可能涉及技术上的挑战。需要强大的计算资源和存储能力来支持大模型的运行,这可能会增加成本。此外,大模型的训练和更新也需要大量的时间和人力投入。商业落地风险:商业落地风险:由于大模型业务处于
240、探索期或成长期,业务模式尚未成熟,同时宏观、行业环境可能发展变化,因此当前时点对未来的预判多数依赖上述环境变化不大或基本稳定的假设。大模型相关的监管尚未明确,可能涉及一些数据隐私、数据偏见、滥用等的法律风险 61 海外行业深度报告 互联网互联网 请务必阅读正文之后的免责条款和声明。分析师介绍分析师介绍 孙晓磊孙晓磊 海外研究首席分析师,北京航空航天大学硕士,游戏产业和金融业 7 年复合从业经历,专注于互联网研究,对腾讯、网易、阿里、美团、阅文等互联网巨头有较为深入的理解。2019 年新财富港股及海外最佳研究团队入围,2020 年、2021 年新财富港股及海外最佳研究团队第五名。崔世峰崔世峰 海
241、外研究联席首席分析师,南京大学硕士,6 年买方及卖方复合从业经历,专注于互联网龙头公司研究,所在卖方团队获得 2019-2020 年新财富传媒最佳研究团队第二名。2022 年新财富海外研究最佳研究团队入围。于伯韬于伯韬 FRM,香港大学金融学硕士,武汉大学经济学学士,5 年互联网及港股策略卖方从业经历,2021、2020 年新财富港股及海外方向第五名成员,2022 年新浪金麒麟港股及海外市场最佳分析师第三名,2020 年新浪金麒麟港股及海外市场新锐分析师第一名。海外行业深度报告 互联网互联网 评级说明评级说明 投资评级标准 评级 说明 报告中投资建议涉及的评级标准为报告发布日后6个月内的相对市
242、场表现,也即报告发布日后的 6 个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A 股市场以沪深300指数作为基准;新三板市场以三板成指为基准;香港市场以恒生指数作为基准;美国市场以标普 500 指数为基准。股票评级 买入 相对涨幅 15以上 增持 相对涨幅 5%15 中性 相对涨幅-5%5之间 减持 相对跌幅 5%15 卖出 相对跌幅 15以上 行业评级 强于大市 相对涨幅 10%以上 中性 相对涨幅-10-10%之间 弱于大市 相对跌幅 10%以上 分析师声明分析师声明 本报告署名分析师在此声明:(i)以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独
243、立、客观地出具本报告,结论不受任何第三方的授意或影响。(ii)本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明 本报告由中信建投证券股份有限公司及/或其附属机构(以下合称“中信建投”)制作,由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格,本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。本报告作者所持香港证监会牌
244、照的中央编号已披露在报告上海品茶。一般性声明一般性声明 本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础,不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料,但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断,该等观点、评估和预测可能在不发出通知的情况下有所变更,亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件,而任何假设条件都可
245、能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况,报告接收者应当独立评估本报告所含信息,基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策,中信建投都不对该等投资决策提供任何形式的担保,亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责
246、任。在法律法规及监管规定允许的范围内,中信建投可能持有并交易本报告中所提公司的股份或其他财产权益,也可能在过去 12 个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点,分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系,分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制
247、或引用本报告全部或部分内容。版权所有,违者必究。中信建投证券研究发展部中信建投证券研究发展部 中信建投(国际)中信建投(国际)北京 上海 深圳 香港 东城区朝内大街 2 号凯恒中心 B座 12 层 上海浦东新区浦东南路 528 号南塔 2103 室 福田区福中三路与鹏程一路交汇处广电金融中心 35 楼 中环交易广场 2 期 18 楼 电话:(8610)8513-0588 电话:(8621)6882-1600 电话:(86755)8252-1369 电话:(852)3465-5600 联系人:李祉瑶 联系人:翁起帆 联系人:曹莹 联系人:刘泓麟 邮箱: 邮箱: 邮箱: 邮箱:charleneliucsci.hk