《2023GPT4-Turbo技术原理、研发现状及未来应用潜力分析报告(46页).pdf》由会员分享,可在线阅读,更多相关《2023GPT4-Turbo技术原理、研发现状及未来应用潜力分析报告(46页).pdf(46页珍藏版)》请在三个皮匠报告上搜索。
1、2 0 2 3 年深度行业分析研究报告CYfWvZqWeXvXsVlYuWyX8OaOaQtRqQpNtQiNoPnMiNoMmPbRqRoQxNsOxPuOmOqP 1 技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 2.1 GPT-4 Turbo:多模态能力增强,使用成本降低 2.2 GPTs:加入Agents战场,与开发者共享收益 目 录 2.3 Assistant API:解决API开发者痛点,拓展OpenAI收入来源 1.1 图像理解能力提升:三大视觉学习方法 1.2 视觉生成:多模态内容理解和生成的闭环 3.1 算力&存力端:流量激增+多模态生成拉大算力缺口,同时带动存力
2、需求 2 当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣 3 未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键 3.2 应用端:强化垂类属性&满足长尾需求,数量有望实现快速增长 3.3 数据端:专业数据或成关键,重视垂类数据留存及知识产权价值 2 1 技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 章 节 小 结 技术原理 图像理解 标签监督 文本到图像(T2I)视觉生成 基于文本的图像编辑 CLIP 语言-图像编辑 HiCLIP STAIR 资料来源:西南证券 仅图像自监督 ImageBind 视频Q&A应用 对比学习 非对比学习 遮盖图像建模 3 资
3、料来源:Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction,西南证券整理 1.1 图像理解能力提升:三大视觉学习方法 为打造视觉大模型,建立高效视觉预训练体系以提升图像理解能力至关重要,这影响到从图像整体(如分类、图文检索、标注)到部分区域(如物体识别、短语定位)及到像素细节(如语义、实例、全景分割)的各项任务。通用视觉预训练方法主要可归纳为三大类。1)标签监督:此方法在每张图片都配有对应标签的数据集上进行训练,如图像分类中,一张狗的照片会对应“狗”的标签,模型的核心任务是准确预测此标签。2
4、)语言-图像监督:利用完整的文本描述来引导模型学习,使模型能够深入挖掘图像内容与文本语义间的关联。3)仅图像自监督:利用图像本身固有的结构和信息来学习有意义的表示,而不依赖于显式的人工注释标签。图像编码器图像编码器 Image Image EncoderEncoder 图像编码器图像编码器 Image Image EncoderEncoder 文字编码器文字编码器 TextText EncoderEncoder 图像编码器图像编码器 Image Image EncoderEncoder 图像编码器图像编码器 Image Image EncoderEncoder 图像图像 标签标签 图像图像 文
5、字文字 模型的目标是在给出模型的目标是在给出图片时正确预测标签图片时正确预测标签 (1 1)监督学习)监督学习 (2 2)语言语言-图像监督图像监督 (CLIPCLIP)(3 3)仅图像自监督仅图像自监督学习学习 图像图像 语言监督利用图像语言监督利用图像&完整的文本描完整的文本描述之间述之间关联关联来训练模型来训练模型 三大视觉学习方法 图像既作为输入又作为监督信号图像既作为输入又作为监督信号 4 资料来源:The History Began from AlexNet:A Comprehensive Survey on Deep Learning Approaches,西南证券整理 1.1.
6、1 图像理解能力提升:标签监督 监督式预训练已成为机器学习和计算机视觉领域的核心技术。在这种策略中,模型首先在大规模标注数据集上进行预训练,随后针对特定任务进行精细调整。这种方法充分利用了如ImageNet这样的大型人工标注数据集,为模型赋予了高度可迁移的视觉特征。其核心原理是将图像与预设的标签相对应,这些标签往往代表某一视觉物体。多年来,这种策略在各类视觉基础架构,如AlexNet、ResNet以及ViT的发展中都发挥了不可或缺的作用。监督式预训练为计算机视觉领域带来了革命性的进步,从基础的图像分类和物体检测,到更为高级的视觉问答和图像标注任务。受限于人工标注的高成本,这些模型所学习到的特征
7、会受到预训练数据集的规模和多样性的制约。ImageNet数据集 超过超过1,0001,000万个手工标注的高分辨率图像,涵盖万个手工标注的高分辨率图像,涵盖2 2万多个类别万多个类别 每个图像都被详细地标注为某一特定的类别,如“狗”、“猫”或“汽车”每个图像都被详细地标注为某一特定的类别,如“狗”、“猫”或“汽车”AlexNet 深度神经网络 5 资料来源:Learning Transferable Visual Models From Natural Language Supervision,Zero-Shot Text-to-Image Generation,西南证券整理 1.1.2 图像
8、理解能力提升:语言-图像监督预训练 CLIP CLIP(对比性语言-图像预训练)利用图像的“alt-text”(一种为图像提供文字描述的方法,常用于网页以增强无障碍访问)来进行训练。此阶段的训练涵盖了大量图像与其相关文本描述的匹配对,确保模型精确捕捉到文本与图像间的关联性。如果图片和文字有对应关系,那么在高维特征空间中代表两者的点就会非常接近。经过无数图像-文本配对训练的文本编码器可以接受任何给定的文本标签并产生一个独特的向量表示。当提供一个图像时,其对应的向量表示将与这些文本向量进行比较,以分配最合适的类别。CLIP在零样任务中展现出卓越的泛化性能和对于领域偏移的高度鲁棒性。CLIP不仅能够
9、应对视觉识别和图像-文本的联合检索任务,更在接受适当的提示后表现出强大的视觉-语言推断能力。由于CLIP基于简单的跨模态交互,它在推理效率上超越了基于交叉注意力的视觉-语言模型。(1 1)对比预训练)对比预训练 文本文本 编码器编码器 文本文本 编码器编码器 图像图像 编码器编码器 图像图像 编码器编码器 生成图像的特征表示生成图像的特征表示 处理相应的文本描述处理相应的文本描述 优化编码器,使相关的图像优化编码器,使相关的图像-文本对在嵌入文本对在嵌入空间中的空间中的表示表示比不相关的对更为接近比不相关的对更为接近 CLIP(对比性语言-图像预训练)(2 2)从标签文本创建数据集分类器)从标
10、签文本创建数据集分类器 假设有三个文本注释:假设有三个文本注释:狗狗、猫猫 和和 鸟鸟。你的模型中的文本。你的模型中的文本编码器可以接受这些标签并将编码器可以接受这些标签并将它们转换为独特的向量表示。它们转换为独特的向量表示。可以将这些向量视为每个单词可以将这些向量视为每个单词的独特签名或指纹。的独特签名或指纹。给定一个新的动物图像,图像编码器为这个图像产生一个向量表示。为了对这个图像进行分类,模型将比给定一个新的动物图像,图像编码器为这个图像产生一个向量表示。为了对这个图像进行分类,模型将比较图像的向量与文本注释的向量。假设图像的向量最接近较图像的向量与文本注释的向量。假设图像的向量最接近
11、狗狗 的向量。那么,模型将把图像分类为的向量。那么,模型将把图像分类为 狗狗。(3 3)零样本推理)零样本推理 6 资料来源:Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction,西南证券整理 1.1.3 图像理解能力提升:图像自监督预训练 对比/非对比学习 在没有标签的无监督学习场景中,对比学习通过将正例(相似的样本)和负例(不相似的样本)对比,强化模型对于相似性和差异性的判别能力。通过这种方法,即便在没有明确的类别标签的情况下,模型也能够被训练成可识别出哪些特征更有可能来自同一分布或类别。
12、对比学习的成功归功于其能够捕捉到数据的内部结构和模式。在图像处理中,对比学习可以用来学习视觉表征,这些表征能够区分不同的物体和场景。一旦模型学习有区分性的特征,它将可以被用于多种下游任务,如分类、检索和聚类,并展现出强大的泛化能力。近年来,非对比学习逐渐崭露头角,不再重视明确的样本对比,而是致力于挖掘数据的内在结构和不变特性。例如基于Siamese架构的模型,可以有效处理多个数据视图,而不必过多地依赖样本之间的对比性质,这为模型训练带来效率与扩展性的双重优势。视觉表征对比学习框架 从同一数据增强族中分别采样两从同一数据增强族中分别采样两种不同的数据增强操作种不同的数据增强操作 (t T t T
13、 和和 t Tt T)最大化一致性最大化一致性(Maximize(Maximize agreement)agreement):确保两个相似或增:确保两个相似或增强版本的输入(例如图像)的表强版本的输入(例如图像)的表示在嵌入空间中接近。相反,不示在嵌入空间中接近。相反,不相似输入的表示应该相距较远。相似输入的表示应该相距较远。通过最大化一致性,模型旨在将通过最大化一致性,模型旨在将相似输入的表示拉近,同时将不相似输入的表示拉近,同时将不相似输入的表示推开。相似输入的表示推开。g(.)g(.):代表一个投影头。在获:代表一个投影头。在获得表示(得表示(h_i h_i 或或 h_jh_j)之后,)
14、之后,这个函数进一步将表示转化或这个函数进一步将表示转化或投影到另一个空间,实际的对投影到另一个空间,实际的对比比较就发生在这里。比比较就发生在这里。7 资料来源:Multimodal Foundation Models:From Specialists to General-Purpose Assistants,西南证券整理 1.2 视觉生成:多模态内容理解和生成的闭环 在多模态大型模型的发展过程中,视觉生成技术是整合视觉内容与文本信息的关键手段。拥有理解和生成视觉内容的能力使模型能够参与到更深层次和细致的任务中,如图像标注、视觉叙事以及复杂的设计任务。由于人类的理解和沟通本质上是多模态的,
15、通过整合视觉生成功能,模型能够以更接近人类认知的方式处理和生成信息。此外,多模态融合也为虚拟现实、增强现实以及交互式数字平台等领域奠定基础,未来将实现更为自然、无缝且高效的用户界面。“人类行为对齐”旨在融合人类的认知过程和AI驱动的视觉内容生成。传统视觉生成模型仅依赖数据,导致输出内容往往缺乏人类的逻辑思维和行动模式。例如,在生成繁忙的街道图像时,传统模型只机械地排列车辆、行人和商店,无法捕捉人类对繁忙的深刻理解,例如行人的匆忙步伐、车辆的密集流动和商店的热闹场景。而通过引入人类行为对齐,模型可确保生成的视觉内容不仅准确,更与人类的感知和期望相符合,推动模型向更以用户为中心的方向转变,使系统在
16、思考和感知方面更符合人类需求。在遵循人类意图合成所需视觉内容的图像生成模型方面,主要涉及四个方向:1)空间可控的T2I生成;2)基于文本的图像编辑;3)更好地遵循文本提示;4)在T2I生成中实现物体定制化。(1)空间可控的T2I生成(2)基于文本的图像编辑(3)更好地遵循文本提示(4)在T2I生成中实现物体定制化 8 资料来源:Position-Enhanced Visual Instruction Tuning for Multimodal Large Language Models,Enabling Multimodal Generation on CLIP via Vision-Lang
17、uage Knowledge Distillation西南证券整理 1.2.1 视觉生成:文本到图像(T2I)在人工智能领域,文本到图像(T2I)生成技术的目标是根据输入的文本语义生成视觉质量高的图像。目前主流的图像生成技术包括生成对抗网络(GAN)、变分自编码器(VAE)、离散图像标记预测和扩散模型。GAN:包括生成器和判别器两个关键组件。生成器从随机噪声输入创建合成图像,并根据文本条件调整噪声输入以生成与文本语义相关的图像。判别器的任务是区分合成生成的图像和真实图像。VAE:通过编码器和解码器网络模块来生成图像。编码器优化将图像编码成潜在表示,解码器则将采样的潜在表示转换回新图像。VQ-V
18、AE通过离散的潜在空间和向量量化进一步改进VAE。离散图像标记预测方法:核心是图像标记器和去标记器的配对。VQ-GAN将连续的视觉信号转换成离散标记,进而转化为离散标记预测任务。自回归Transformer逐行生成视觉标记,最终通过去标记化得到图像预测结果。扩散模型:通过随机微分方程将随机噪声变为图像,经过多次迭代的去噪过程,基于输入文本的条件精炼图像。T2I生成技术发展历程 9 资料来源:Prompt to-prompt image editing with cross-attention control,西南证券整理 1.2.2 视觉生成:基于文本的图像编辑 基于文本的图像编辑技术依赖于已
19、有的图片和文本描述来合成新图像。其核心目的是维持图像的主体视觉内容,对特定区域进行微调,如局部物体的调整或全局的风格改变,以更准确地满足用户的意图。基于文本的编辑领域有3种主流功能。1)针对图像的特定区域进行修改:如物体的增减或属性更改。用户所提供的区域蒙版与图像生成中的空间潜在变量操作结合。2)针对图像的特定区域进行修改2.0:用户简单描述所需区域外观,即可作为明确的编辑指示,例如指导“将图像中的A物体替换为B物体”。3)专业模块融合:相较于单一T2I模型的编辑扩展,某些编辑系统已开始融合多种专业模块,包括图像分割模型和大型语言处理模型。基于文本的图像编辑示例 原始图像原始图像 将篮子换成碗
20、将篮子换成碗 将篮子换成盒将篮子换成盒 将篮子换成锅将篮子换成锅 指令指令 针对针对区域区域修改修改效果效果 原始图像原始图像 指令:指令:潮湿环境潮湿环境下的蘑菇下的蘑菇 或或 指令:指令:塑料材质塑料材质的蘑菇的蘑菇 指令指令:“:“将房间变成将房间变成彩色的彩色的”大模型自动调整权重给大模型自动调整权重给“彩色的彩色的”指令指令 10 目 录 11 1 技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 2.1 GPT-4 Turbo:多模态能力增强,使用成本降低 2.2 GPTs:加入Agents战场,与开发者共享收益 2.3 Assistant API:解决API开发者痛点,拓
21、展OpenAI收入来源 1.1 图像理解能力提升:三大视觉学习方法 1.2 视觉生成:多模态内容理解和生成的闭环 3.1 算力&存力端:流量激增+多模态生成拉大算力缺口,同时带动存力需求 2 当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣 3 未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键 3.2 应用端:强化垂类属性&满足长尾需求,数量有望实现快速增长 3.3 数据端:专业数据或成关键,重视垂类数据留存及知识产权价值 资料来源:西南证券 2 GPT4-Turbo模型优化,GPTs生态加速繁荣 章 节 小 结 2)如何使用 当前变化 GPT-4-Turbo GP
22、Ts 6)更高的频率限制 1)函数调用 Assistant API 3)如何创建 1)什么是GPTs 2)检索功能 3)代码解释器 7)大幅降低开发者成本 1)更长的上下文 2)更丰富的世界知识 3)更多的控制 4)多模态支持 5)定制化 支持开发者完成更多工作支持开发者完成更多工作 以更低的成本实现更强的性能以更低的成本实现更强的性能 可以支持更长的工作流可以支持更长的工作流 知识储备能够实现迅速更新知识储备能够实现迅速更新 开发者能更准确地控制函数和开发者能更准确地控制函数和APIAPI 图片图片/语音理解能力和创作效率提升语音理解能力和创作效率提升 特定领域的训练和应用进一步发展特定领域
23、的训练和应用进一步发展 4)如何分发 5)OpenAI Agent生态 VS Open source Agent生态 减轻开发者调用函数工作,助力减轻开发者调用函数工作,助力AIAI赋能赋能UIUI 助手获取更多知识,简化环节推动使用效率提升助手获取更多知识,简化环节推动使用效率提升 赋予赋予AIAI写作能力、及时执行代码、甚至生成文件写作能力、及时执行代码、甚至生成文件 语言指令方便简捷,程序集成赋予多模态能力语言指令方便简捷,程序集成赋予多模态能力 无需编程即可构建,大幅降低创作门槛无需编程即可构建,大幅降低创作门槛 用户定制化用户定制化ChatGPTChatGPT,实现私人化和场景化,实
24、现私人化和场景化 GPT StoreGPT Store推出在即,推出在即,OpenAIOpenAI与开发者收益共享与开发者收益共享 iOS VS iOS VS 安卓安卓 12 1)更长的上下文(Context Length):GPT-4-turbo支持的上下文窗口(128k)相较于GPT-4-8k提升16倍,相较于GPT-4-32k提升4倍,即GPT-4-turbo可在单个prompt中处理超过300页的文本,且GPT-4-turbo模型在较长的上下文中更加准确。我们认为GPT-4-turbo更长且更准确的上下文处理能力将支持更长的工作流,在B端有能力承担更多的工作负载,提升用户体验。2)更丰
25、富的世界知识(Better Knowledge):外部文档和数据库的截止更新日期从21年9月更新至23年4月,意味着OpenAI的大模型在半年内已学习互联网一年半的知识,学习速度极快。GPT-4-turbo更新知识截点至23年4月 资料来源:OpenAI开发者大会,西南证券整理 GPT-4-turbo支持更长上下文窗口 2.1.1 GPT-4 Turbo:文本理解能力再次提升,知识储备迅速更新 0306090120150提升4倍 提升16倍 资料来源:OpenAI官网,西南证券整理 从2021年9月更新至2023年4月 13 3)更多的控制(More Control):支持JSON Mode新
26、模式:在JSON模式下,新的API参数response_format使模型能够约束模型输出,以生成语法正确的JSON对象。更好的Function calling:用户可以在发送一条消息时请求多个操作,且函数调用的准确性提升。Reproduceable outputs:通过 seed 参数控制输出可重复的内容。我们认为,开发人员通过运用GPT-4-turbo模型将对函数和API有更准确、更高的控制能力。BeforeBefore:GPTGPT-4 4在一条消息请求中只能调用其中一个函数、完成一个操作,完成多个操作需要进一步请求;AfterAfter:GPTGPT-4 4-turboturbo在一条
27、信息请求可以调用多个函数并完成多个操作,且函数调用的准确性得到提升。Json Mode 下开发者可以更方便的调用 API GPT-4 Turbo支持更好的function calling GPT-4 Turbo支持JSON Mode新模式 打开车窗打开车窗&打开收音机打开收音机 打开车窗打开车窗 打开收音机打开收音机 资料来源:OpenAI开发者大会,西南证券整理 资料来源:OpenAI开发者大会,西南证券整理 2.1.2 GPT-4 Turbo:多工具帮助调用函数,开发者控制能力进一步加强 14 2.1.3 GPT-4 Turbo:推出多个API,多模态能力实现跨越 4)【多模态能力文生图】
28、GPT-4 Turbo+DALLE 3:开发者只需指定DALLE 3作为模型,即可以通过Images API将DALLE 3直接集成到开发者的应用程序和产品中。根据大会演示,Snap、可口可乐和Shutterstock等公司已经使用DALLE 3为客户生成图像和设计。当前API已内置适度的审核功能,帮助开发者保护其应用程序免受滥用。价格:每张图像0.04美元起,根据不同的格式和质量而定。资料来源:OpenAI,机器之心,西南证券整理 用户:创建一个考拉举着一个牌子的照用户:创建一个考拉举着一个牌子的照片,上面与着“片,上面与着“GPT4 TurboGPT4 Turbo很酷”很酷”DALLE 3
29、DALLE 3以编程的以编程的方式生成图像和设计方式生成图像和设计 图片大小:图片大小:1024 x 10241024 x 1024 图片质量:图片质量:HDHD高清高清 15 资料来源:OpenAI,机器之心,西南证券整理 4)【多模态能力图生文or图生图】GPT-4 Turbo+GPT-4V:OpenAI于2023年9月25日发布视觉多模态大模型GPT-4V,GPT-4V既能像原版 ChatGPT一样通过文字聊天,也能读懂用户在聊天中给到的图像,通过开放GPT-4V API,开发者可以用OpenAI最新的GPT-4 Turbo(视觉版)来开发新应用。图像理解能力提升&创作大幅提效:以设计U
30、I界面为例,几个小时的工作变成几分钟。图像草稿图像草稿 代码编程代码编程 设计成形设计成形 2.1.3 GPT-4 Turbo:推出多个API,多模态能力实现跨越 16 4)【多模态能力文字生成语音】GPT-4 Turbo+TTS:开发者可以通过文本转语音API生成高质量的语音。新TTS模型提供六种预设的语音选择,以及两种模型变体(TTS-1和TTS-1-HD)。TTS针对实时应用进行优化,而TTS-1-HD针对质量进行优化。价格:定价从每1,000个字符的输入开始,价格为0.015美元。资料来源:OpenAI,新智元,西南证券整理 TTS可根据标点符号生成不同语气的语音 GPT-4V+TTS
31、:完成足球解说视频 “hello worldhello world(无标点符号)”(无标点符号)”=语气平缓语气平缓 “hello world hello world!”!”=语调略高语调略高 “hello world hello world?”?”=略带疑问语气略带疑问语气 “hello world hello world”=语气低沉语气低沉 提取视频帧创建结构化提示;发送GPT请求;制作语音解说提示 生成语音解说脚本 TTS API发送请求将脚本转换为音频 将音频和视频相结合 2.1.3 GPT-4 Turbo:推出多个API,多模态能力实现跨越 视频共视频共11311131帧,帧,每每1
32、010帧选帧选1 1张图张图 足球比赛视频足球比赛视频AIAI解说共花费解说共花费30$30$资料来源:OpenAI,新智元,西南证券整理 17 2.1.4 GPT-4 Turbo:微调推动定制化发展,速率翻倍加速任务运行 5)定制化(Customization):开发者可以针对GPT-4和GPT-3.5进行微调,并面向大公司推出深度定制的Custom Models,定制化模型意味着针对特定领域的训练和应用将进一步发展。6)更高的频率限制(Higher rata limits):GPT-4付费客户的每分钟令牌限制将翻倍,并且可以在API设置中申请更高的频率限制。通常,速率限制有五种衡量方式:R
33、PM(每分钟请求)、RPD(每天请求)、TPM(每分钟令牌)、TPD(每天令牌)和IPM(每分钟图像)。更高的频率限制将支持开发者完成更多工作。资料来源:OpenAI开发者大会,西南证券整理 每分钟可请求得的tokens数翻番 OpenAI部分老模型的速率限制 资料来源:OpenAI官网,西南证券整理 18 2.1.5 GPT-4 Turbo:更强的性能,更低的成本 0.03 0.06 0.01 0.06 0.12 0.03 0.000.050.100.15GPT-4-8KGPT-4-32KGPT-4-Turbo-128Kinputoutput0.0015 0.003 0.001 0.002
34、0.004 0.002 00.0010.0020.0030.0040.005GPT-3.5-Turbo-4K GPT-3.5-Turbo-16K GPT-3.5-Turbo-16Kinputoutput 7)大幅降低开发者成本。GPT-4-Turbo的输入令牌价格比GPT-4-8K便宜3倍,价格为$0.01,输出价格则便宜2倍,价格为$0.03。GPT-3.5-Turbo-16K的输入价格比之前的16K模型便宜3倍,价格为$0.001,输出标记便宜2倍,价格为$0.002。通过微调,新的GPT-3.5-Turbo-fine tuning模型支持与4K相同价格的16K上下文,且GPT-3.5-T
35、urbo-4K-fine tuning模型的输入价格减少4倍为$0.003,输出价格降低2.7倍为$0.006。GPT-4 Turbo价格较GPT-4更低 GPT-3.5 Turbo新模型价格更低 旧模型 新模型 旧模型 新模型 0.008 0.008 0.012 0.003 0.016 0.006 0.0000.0050.0100.0150.020GPT-3.5-Turbo-4K-fine tuningGPT-3.5-Turbo-4K&16K-fine tuningtraininginputoutputGPT-3.5 Turbo微调新模型价格更低 旧模型 新模型 资料来源:OpenAI官网,
36、西南证券整理 1k tokens 资料来源:OpenAI官网,西南证券整理 资料来源:OpenAI官网,西南证券整理 19 什么是GPTs:GPTs是指“针对特定目的定制的ChatGPT”,用户可以通过自定义行为创建一个定制版的ChatGPT,定制版的ChatGPT具备带有任何功能的可能性(在保证隐私和安全的情况下)。不论是开发者还是不会写代码的普通人,都可以拥有自定义版本的GPT。更加个性化、私人化、场景化,每个人都可以拥有自己的AI Agent。GPTs通过结合说明/Instruction+扩展的知识/Expand knowledge+操作/Actions,能够在很多情况下更好地工作,并且
37、为用户提供更好地控制,用以帮助用户轻松完成各种任务、或者获得更多乐趣。2.2.1 什么是GPTs:用户定制化ChatGPT,实现私人化和场景化 OpenAI首批上线的16个AI Agent 资料来源:OpenAI开发者大会,西南证券整理 GPTs结合说明、扩展的知识、及操作 combination 资料来源:OpenAI官网,西南证券整理 20 2.2.2 如何使用GPTs:语言指令方便简捷,程序集成赋予多模态能力 如何使用GPTs:在ChatGPT中直接调用任意GPTs,用户提出要求,并可以通过继续聊天使GPTs生成的答案不断迭代或完成一系列指令。目前仅向ChatGPT Plus和Enter
38、prise用户开放。灵活集成外部程序,提升多模态能力。例如ChatGPT可通过集成Code.org帮助教师规划课程、通过集成Zapier AI实现日程管理,以及可以通过集成Canva设计并微调海报等。选择Zapier AI,并与用户的日历连接 用户向Zapier AI询问:今日的行程安排是什么?Zapier AI根据用户的日历生成当日行程安排,并提示有冲突的行程 针对有冲突的行程,用户需提前告知Sam自己要早点离开 连接至用户与Sam的对话框,并让Zapier AI发送用户要说的话 Sam成功收到消息 资料来源:OpenAI开发者大会,西南证券整理 OpenAI演示如何使用Zapier AI进
39、行日程管理 21 2.2.3 如何创建GPTs:无需编程即可构建,大幅降低创作门槛 如何创建GPTs:OpenAI推出GPTs制作工具GPT Builder。ChatGPT Plus和Enterprise用户只需要与GPT Builder进行语言交谈就可以进行定制化构建,用户向GPT Builder阐述需求,描述想要构建的GPT,GPT Builder即能生成专属GPT。大幅降低开发门槛,推动社区活跃与繁荣。GPTs将由广泛的社区构建,用户无论是何种职业、无论是否知道如何制作工具或编程,均可以通过聊天对话打造一个专属于自己的个性化GPT,用户只需要提供基本信息、上传额外文件、明确要求即可。我们
40、认为,GPTs不要求用户掌握编程,仅通过自然语言聊天即可打造专属GPT,将大大降低创作门槛、推动用户积极实践、AI Agent有望实现百花齐放,从而对市场上的AI Agent应用产生一定的威胁。资料来源:OpenAI开发者大会,西南证券整理 GPT Builder界面 Sam Altman演示构建“创业导师”用户通过向GPT Builder描述要求,生成用户专属GPT 自定义设置 可上传文件并提出问题 资料来源:OpenAI开发者大会,西南证券整理 22 2.2.4 如何分发GPTs:GPT Store推出在即,OpenAI与开发者收益共享 如何分发GPTs:OpenAI计划于11月末推出GP
41、T Store,用于收录并共享GPTs。未来,用户在创建个性化GPT之后,可以选择公开并共享,那么该GPT将进入商店、且变得可搜索。随着各种GPT在GPT Store汇集,ChatGPT Plus和Enterprise用户可以直接获取开箱即用的定制版ChatBot或AI Agent。以此同时,也将产生最受欢迎的GPT,并可能在排行榜上不断攀升。与开发者共享收益,构建完整生态。未来,OpenAI将进一步推出收益计划,GPTs的构建者在提供定制化GPT后可以赚取一定的收益,并与OpenAI共享。该收益机制将大力推动创作社区的积极性,构建GPTs的盈利模式,完善Agent生态系统。OpenAI GP
42、T Store预期示意图 资料来源:OpenAI开发者大会,西南证券整理 资料来源:GPTs Hunter(截至中国时间2023.11.20 9:00),西南证券整理 GPTs Hunter已收录16000+GPTs 23 2.2.5 OpenAI Agent生态 VS Open source Agent生态 OpenAI Agent生态GPTs Store GPTs store有望如同Apple APP store,通过鼓励开发者创建应用并在商店中展示,进行收入分成。以抖音充值斗币为例,苹果手机抖音APP中1人民币可购买7斗币;而安卓手机的抖音APP中1人民币可购买10斗币;苹果抽取约3成。
43、规模优势:预计OpenAI生态的AI Agent将在数量上具备绝对优势。根据GPTs Hunter数据,截至中国时间11月13日21:30,GPTs Hunter已收录八千多个GPTs。资料来源:OpenAI官网,西南证券整理 Open source Agent生态 以Meta和Huggingface为代表,如同手机时代的安卓生态。破局之道:价格/成本优势:GPT-4 Turbo的输入token比GPT-4便宜3倍,为0.01$/1000 tokens,输出token便宜2倍,为0.03$/1000 tokens,尽管价格已显著下降,但相较于开源生态的大模型和Agent工具,价格仍然高出几倍。
44、专业任务方面的优势:开源AI Agent可以在特定任务方面打造高质量和轻量化优势。24 2.3 Assistant API:解决API开发者痛点,拓展OpenAI收入来源 针对开发者在开发API中的痛点,OpenAI推出Assistant API,致力于为开发者赋能。根据此前市场上推出的各种API,我们可以发现API通过接入各种程序和应用,有助于帮助应用实现特定功能。例如,Shopify的Sidekick允许用户在平台上进行操作;Discord的Clyde允许discord版主设置自定义人格;Snap my AI作为定制聊天机器人工具,可以添加至群聊中并提出建议。但以上API的构建可能需要开发
45、者耗费几个月的时间、并由数十名工程师搭建,而目前Assistant API的推出将使其变得容易实现。定价:除常规的tokens计费外,部分组件还需收取额外费用。其中,代码解释器/Code interpreter定价为单次0.003美元;检索/Retrieval定价为0.20美元/GB/助理/天。OpenAI Assistant API 核心组件 OpenAI Assistant API 收费标准 资料来源:OpenAI官网,西南证券整理 资料来源:OpenAI开发者大会,西南证券整理 25 2.3.1 Assistant API-函数调用 1)函数调用/Function calling:在一次
46、API调用/call中,用户可以描述函数/functions,让模型输出JSON对象来调用一个或多个函数。GPT-4-turbo经过训练,既可以检测何时应该调用函数(取决于输入),也可以保证JSON输出不会有延迟。减轻开发者调用函数工作,助力AI赋能UI:该集成允许开发者通过自然语言就能与各种应用程序的组件和功能进行流畅的交互,实现AI与UI的更好融合。与此同时,开发者可以将自身更多的精力放在想法的创新,无需自己分析并调用函数,将脏活累活交给助手。用户提问“去巴黎必做的用户提问“去巴黎必做的1010件事”件事”OpenAI开发者大会演示:在旅行应用中使用“函数调用”助手调用函数以在地图上进行标
47、注助手调用函数以在地图上进行标注 资料来源:OpenAI开发者大会,西南证券整理 去巴黎必须打卡的10件事 在巴黎地图上标出打卡地点 助手回答用户问题助手回答用户问题 26 2.3.2 Assistant API-检索功能 2)知识库检索/Retrieval:用户首先将文件上传至助手/Assistant,然后文件将在后台被自动分块、索引、存储和嵌入,助手再实施向量搜索以检索相关内容,最终结合用户要求回答问题。助手可以获取更多知识:助手通过获取模型以外的文件信息,增强助手的专业化或个性化功能。用户无需自己解析文件:助手具备解析长格式文档的能力,从普通文本到特定格式。省去部分环节&提升效率:过去,
48、开发者需要计算embeddings、设置分块算法、并在每次调用API时重新发送整个历史对话记录,例如设置键值存储(key value store)以处理上下文窗口和序列消息;而现在,助手可以帮助开发者省去以上环节,进一步提升效率。去黑盒化:开发者可以在Dashboard的线程中看到历史步骤,如调用的函数和上传的文件等。用户上传已经订好的机票用户上传已经订好的机票PDFPDF 资料来源:OpenAI开发者大会,西南证券整理 机票信息将呈现在屏幕上,并与地图界面相结合机票信息将呈现在屏幕上,并与地图界面相结合 后台“检索”读取文件后台“检索”读取文件 用户上传机票PDF 机票信息与地图相结合 Op
49、enAI开发者大会演示:在旅行应用中使用“检索”功能 27 2.3.3 Assistant API-代码解释器 3)代码解释器/Code interpreter:代码解释器允许Assistant API在沙盒执行环境中编写和运行Python代码。该工具可以处理具有不同数据和格式的文件,并生成具有数据和图形图像的文件。代码解释器允许用户的助手迭代运行代码,以解决具有挑战性的代码和数学问题。当助手编写的代码无法运行时,它可以通过尝试运行不同的代码来迭代此代码,直到代码执行成功。代码解释器赋予人工智能写作的能力,并及时执行代码、甚至生成文件。OpenAI开发者大会演示:在旅行应用中使用“代码解释器”
50、资料来源:OpenAI开发者大会,西南证券整理 如果去巴黎一共有四个人住在这家Airbnb民宿,加上机票我需要承担多少费用?代码解释器通过计算在巴黎的旅游天数、人员数量、汇率等,向用户给出答案代码解释器通过计算在巴黎的旅游天数、人员数量、汇率等,向用户给出答案 用户提出需要进行计用户提出需要进行计算或编写代码的问题算或编写代码的问题 代码解释器即时编写代代码解释器即时编写代码进行运算并得出答案码进行运算并得出答案 代码解释器意识到需要代码解释器意识到需要编写代码来回答问题编写代码来回答问题 代码解释器根据问题编写代码代码解释器根据问题编写代码 28 29 1 技术原理:图像理解+视觉生成持续发
51、展,助力多模态能力提升 2.1 GPT-4 Turbo:多模态能力增强,使用成本降低 2.2 GPTs:加入Agents战场,与开发者共享收益 目 录 2.3 Assistant API:解决API开发者痛点,拓展OpenAI收入来源 1.1 图像理解能力提升:三大视觉学习方法 1.2 视觉生成:多模态内容理解和生成的闭环 3.1 算力&存力端:流量激增+多模态生成拉大算力缺口,同时带动存力需求 2 当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣 3 未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键 3.2 应用端:强化垂类属性&满足长尾需求,数量有望实现快速增长
52、 3.3 数据端:专业数据或成关键,重视垂类数据留存及知识产权价值 3 未来影响:算力存力亟需扩容,AI应用潜力无限,垂类数据或成关键 章 节 小 结 强化垂类属性:只需投喂垂类数据即可打造垂类GPTs 未来影响 算力端 应用端 用户流量激增&多模态生成 算力供不应求&亟需扩容 专业数据是构建GPTs竞争力的核心要素 数据端 满足长尾需求:定制化GPTs使满足长尾需求成为可能 应用百花齐放:GPTs数量有望实现非线性增长 垂类数据留存成为构建数据库的关键 GPTs背后的知识产权价值有望提升 云侧龙头地位稳固、端侧竞争格局加剧、大厂自研趋势明显 资料来源:西南证券 算力瓶颈拉动存力需求,HBM成
53、为提升性能的高效途径 存力端 30 1)用户流量激增导致算力供不应求:OpenAI旗下GPT-4-Turbo、GPTs和Assistant API等产品的推出已打开新流量入口,更多的用户和开发者希望参与其中,巨大的流量对算力底座提出更高的要求。2023年11月7-9日,ChatGPT及API出现多次宕机,面对开发者大会后的巨大用户流量,OpenAI的算力基础设施频繁遇到容量瓶颈;11月15日,创始人Sam Altman在推特上表示,在开发者大会召开后,ChatGPT及一系列新产品的使用量出现激增,且远超内部预期,其算力负载短期难以为继,OpenAI为确保现有用户体验,决定停止ChatGPT P
54、lus新用户注册,近期OpenAI服务器的不稳定以及对用户数量的限制已经表明全球算力亟需扩容。资料来源:OpenAI官网,西南证券整理 11月7日ChatGPT&API宕机 11月8日ChatGPT&API宕机 11月9日ChatGPT&API宕机 3.1.1 算力端:用户流量激增+多模态生成,算力亟需扩容 31 2)多模态生成大幅提高算力需求:图片等多模态生成所要求的tokens计算量将远高于文本模态,从而大幅提升模型训练和推理的算力需求。根据OpenAI官网信息,1000个tokens大约为750个words,因此在文本方面,1个单词对应为1.33个tokens。而多模态方面,在GPT-4
55、-Turbo的Vision pricing calculator高保真度模式下,1张图片则需要765或1105个tokens,对应来看,1张图片所产生的tokens数大约是1个单词的570或830倍。资料来源:OpenAI官网,西南证券整理 高保真度模式下的高保真度模式下的1024 x 1024 x 10241024图像:图像:由于1024小于2048,因此不用调整初始大小;由于最短边是1024,因此系统将图像缩小到768 x 768;因此需要4个512px的方形图块表示图像;因此最终的tokens数为4 x 170+85=765 tokens。高保真度模式下的高保真度模式下的1024 x 1
56、024 x 10241024图像:图像:由于1024小于2048,因此不用调整初始大小;由于最短边是1024,因此系统将图像缩小到768 x 768;因此需要4个512px的方形图块表示图像;因此最终的tokens数为4 x 170+85=765 tokens。高保真度模式下1024x1024图像tokens数 高保真度模式下2048x4096图像tokens数 图像输入以图像输入以tokentoken计量和收费。计量和收费。图像token成本由两个因素决定:图像的大小;图片的保真度要求(low or high resolution)。在低保真度模式下:在低保真度模式下:图像每张花费85个to
57、ken。在高保真度下:在高保真度下:模型首先将图像缩放至适合2048 x 2048的正方形,并保持其纵横比;然后对图片进行缩放,使图像最短边为768像素;最后计算图像应该由多少个512px的正方形组成,每个512px的方格花费170个token,且另外85个token始终会添加到最终总数中。3.1.1 算力端:用户流量激增+多模态生成,算力亟需扩容 32 1)云侧芯片龙头:英伟达龙头地位稳固,AMD加速发展。英伟达:2023年11月13日,英伟达推出H200,内存方面首次采用HBM3e,容量高达141GB,带宽实现大幅提升;性能方面着重强化推理能力和HPC性能,可将Llama2模型的推理速度提
58、高近一倍,相较于H100可降低50%的TCO和能耗成本。2023年以来,英伟达AI芯片已发布多个产品,在云侧算力芯片领域龙头优势明显。AMD:2023年6月,AMD正式发布MI300系列,MI300将CPU、GPU和内存封装为一体,大幅缩短DDR内存行程和CPU-GPU PCIe行程,提高性能和效率;MI300采用Chiplet设计,拥有13个基于3D堆叠的小芯片(5nm:3个CPU,6个GPU;4个6nm芯片),包括24个Zen4 CPU内核,同时融合CDNA 3和8个HBM3显存堆栈,集成5nm和6nm IP,总共包含128GB HBM3显存和1460亿个晶体管。对比MI250加速卡,MI
59、300可带来8倍AI性能和5倍每瓦性能的提升(FP8),使ChatGPT和DALL-E等超大AI模型的训练时间可以从几个月缩短到几周。类别类别产品名称产品名称H200 SXMH200 SXMH100 SXMH100 SXMA100 SXMA100 SXMAMD MI250AMD MI250AMD MI250XAMD MI250XAMD MI300AMD MI300发布时间发布时间2023H22022/3/222020/5/142021/11/82021/11/82023H2GPU架构GPU架构HopperHopperAmpereCDNA2CDNA2CDNA3专用显存专用显存141 GBHBM3
60、e80 GBHBM380 GBHBM2e128GBHBM2e128GBHBM2e128GBHBM3总版卡功耗(TBP)总版卡功耗(TBP)Up to 700W(configurable)Up to 700W(configurable)400W(for standardconfiguration)560W Peak560W Peak600W Peak峰值单精度(FP32)性能峰值单精度(FP32)性能67 TFLOPS67 TFLOPS19.5 TFLOPS45.3 TFLOPS47.9 TFLOPS/峰值双精度(FP64)性能峰值双精度(FP64)性能34 TFLOPS34 TFLOPS9.7
61、 TFLOPS45.3 TFLOPS47.9 TFLOPS/互联互联PCIe Gen5:128GB/s;NVLink:900GB/sPCIe Gen5:128GB/s;NVLink:900GB/sPCIe Gen4:64GB/s;NVLink:600GB/sPCIe 4.0 x16;Fabric Link:100GB/sPCIe 4.0 x16;Fabric Link:100GB/s/英伟达主要AI芯片 英伟达主要AI芯片 AMD MI系列芯片AMD MI系列芯片资料来源:英伟达官网,AMD官网,西南证券整理 英伟达主要AI芯片和AMD MI系列芯片参数情况 3.1.2 算力端:云侧龙头地位稳
62、固、端侧竞争格局加剧、大厂自研趋势明显 33 3.1.2 算力端:云侧龙头地位稳固、端侧竞争格局加剧、大厂自研趋势明显 2)端侧芯片格局:对于AI PC端侧适用芯片,英特尔进展保持领先,高通有望实现从0到1。英特尔:PC主芯片包括CPU和GPU。GPU方面,根据Statista数据,英特尔在22Q4全球PC GPU市场中占据71%的市场份额;CPU方面,根据Counterpoint Research数据,英特尔在2022年全球Notebook CPU/SoC市场中占据69.6%的市场份额,当前英特尔在PC主芯片市场中处于主导地位。23H2,英特尔推出Meteor Lake处理器,助力PC效能提
63、升,专为AI任务设计,在AI PC主芯片市场中具备先发优势。高通:2023年10月,高通于骁龙峰会上推出骁龙X Elite芯片,可支持130亿参数大模型,为Windows-on-Arm笔记本设计,预计在2024年中期发布。算力方面,AI PC对PC芯片的算力要求更高,高通在端侧AI推理能力优于英特尔。与此同时,生态方面,2022年至今Windows开始支持高通,已发布多轮支持Arm架构芯片的操作系统。未来,高通在以骁龙X Elite为代表的AI PC芯片的助力下,将在PC领域实现重要突破,逐步抢占市场份额。厂商厂商芯片芯片CPUCPUGPUGPUNPUNPU其他其他英特尔英特尔Meteor L
64、ake处理器Meteor Lake处理器1)采用Intel 4制程工艺;2)具有快速响应能力,适合需要快速决策和低延迟的轻量级AI任务;1)采用台积电N5工艺构建的Arc GPU系统;2)具有性能并行性和高吞吐量;3)擅长处理与媒体、3D应用程序和图形渲染有关的任务,能够同时运行处理大量AI任务;1)Intel首款集成式NPU;2)专门为AI任务设计;3)节能、可持续运行和处理AI任务;采用 Foveros 封装技术,在芯片内实现极低功耗和高密度的晶片连接高通高通骁龙X Elite骁龙X Elite1)采用Oryon CPU内核,由台积电4nm工艺代工;2)CPU性能表现远超英特尔13代酷睿i
65、7处理器及苹果M2处理器;3)功耗较低;1)采用自研Adreno GPU;2)是英特尔酷睿i7-13800H中集成的GPU性能2倍,峰值功耗降低74%;3)比AMD Ryzen 9 7940HS中的Radeon 780M GPU快80%,峰值功耗降低80%;1)采用自研HexagonNPU;2)最高可提供 45 TOP(每秒万亿次运算)算力;3)可在设备上以“惊人的速度”运行超过13B参数的生成式AI LLM;1)内存带宽136GB/s;2)缓存总数42MB;3)节能效果突出,可实现长达数天的电池续航;4)通过5G和Wi-Fi7连接,可快速下载文件、流式传输和同步;资料来源:英特尔ON技术创新
66、峰会,2023高通峰会,西南证券整理 英特尔和高通在AI PC芯片上的布局 34 3)大厂自研趋势:科技巨头加速自研,优先服务于自身云服务业务及AI条线。微软于23年11月16日Ignite技术大会上发布两款自研芯片Azure Maia 100和Azure Cobalt 100,分别用于大语言模型的训练推理和通用云服务的支持。近年来,各大科技厂商纷纷自研芯片,一是为了降低自身对第三方芯片和外部供应链的依赖;二是自研芯片可帮助各大厂商克服一定的通用芯片局限,通过CPU+GPU+DPU+定制芯片等结合方案,提升全系统整合效率、实现业务赋能;三是提高计算能效、减少长期硬件成本。各大厂自研AI芯片和C
67、PU产品情况 厂商厂商GoogleGoogleMetaMetaTeslaTeslaMicrosoftMicrosoft芯片芯片Cloud TPU v5eAWS Inferentia 2AWS TrainiumMTIA v1Dojo D1Azure Maia 100推出时间推出时间2023年8月29日2019年2022年2023年5月18日2021年2023年11月16日代际代际第五代第二代第一代第一代第一代第一代工艺&制程工艺&制程最多允许256个芯片互连,总带宽超过400 Tb/s,INT8性能达到100 petaOps5nm5 nanometer7nm;内部内存可以从128MB扩展到128
68、GB 7nm;500 亿个晶体管;400W TDP5nm;1050亿个晶体管用途用途专用于大中型训练与推理;支持Google cloud和聊天机器人Bard等应用产品推理芯片训练芯片推理芯片训练芯片;用于搭建TeslaDojo超算平台,以支持自动驾驶和机器人业务专门用于云端训练和推理;支持Microsoft Azure OpenAI服务和Microsoft Copilot(Bing Chat)等应用产品AI芯片布局AI芯片布局AmazonAmazon厂商厂商AmazonAmazon芯片名称芯片名称CypressGraviton 3推出时间推出时间预计2025年部署上线2021年代际代际第一代第
69、三代工艺&制程工艺&制程5nm;基于Arm5nm;550亿个晶体管用途用途自研用于运营数据中心的 PlanA 处理器云原生通用处理器第一代5nm;基于Arm;128核旨在用于执行常规计算任务,如为微软Teams提供动力;暂时没有销售计划,更倾向于供内部使用第一代5nm;基于Arm自研用于运营数据中心的Plan B 处理器GoogleGoogleCPU芯片布局CPU芯片布局Maple预计2025年部署上线MicrosoftMicrosoftAzure Cobalt 1002023年11月16日资料来源:The information,各公司官网,西南证券整理 3.1.2 算力端:云侧龙头地位稳固
70、、端侧竞争格局加剧、大厂自研趋势明显 35 3.1.3 算力端:算力瓶颈拉动存力需求,HBM成为提升性能的高效途径 资料来源:英伟达官网,西南证券整理 单位算力存储需求提升,HBM实现功耗降低&带宽提升。HBM3e是一种基于3D堆叠工艺的DRAM存储芯片,AI服务器对其需求强烈。从英伟达H200芯片参数来看,H200首次搭载HBM3e,拥有141GB的内存及4.8TB/秒的带宽,HBM容量提升76%,而算力保持不变。此外,根据官网披露数据,相较于H100,H200可以使Llama-70B的推理性能几乎翻倍,运行GPT3-175B的效率可以提升60%。可以看出,在算力到达一定瓶颈的情况下,AI芯
71、片将逐步通过堆叠HBM以提升性能,未来芯片将通过存力升级进行优化迭代,实现单位算力存储能力的大幅提升,因此,HBM等存力需求也将迎来暴增,从而刺激存储产品进一步涨价。英伟达H100和H200算力和存力对比 存力大幅提升:存力大幅提升:+76%+76%算力保持不变算力保持不变 海力士HBM实现带宽提升&功耗下降 资料来源:海力士官网,西南证券整理 产品名称产品名称H200 SXMH200 SXMH100 SXMH100 SXMGPU ArchitectureGPU ArchitectureHopperHopperGPU MemoryGPU Memory141 GBHBM3e80 GBHBM3GP
72、U Memory BandwidthGPU Memory Bandwidth4.8 TB/s3.35 TB/sINT8|FP8 Tensor CoreINT8|FP8 Tensor Core3958 TFLOPS3958 TFLOPSBF16|FP16 Tensor Core*BF16|FP16 Tensor Core*1979 TFLOPS1979 TFLOPSTF32 Tensor Core*TF32 Tensor Core*989 TFLOPS989 TFLOPSFP32FP3267 TFLOPS67 TFLOPSFP64FP6434 TFLOPS34 TFLOPSTDPTDPUp to
73、 700W(configurable)Up to 700W(configurable)36 3.2.1 应用端:AI应用市场潜力无限,数量有望实现非线性增长 大模型将由少数大厂垄断,应用有望百花齐放。底层架构方面:类比互联网时代,PC操作系统和移动操作系统在发展初期面临激烈竞争,但PC操作系统最终仅由Windows和Mac OS系统主导、移动操作系统由iOS、安卓系统、鸿蒙系统主导,我们认为AI时代的底层架构,即大模型,也将由当前百模大战的局面向寡头垄断的方向发展。应用市场方面:类比移动互联网时代,无论是iOS系统还是安卓系统,其中的应用数量均达数百万款。根据工信部数据,截至22H1,我国国内
74、市场上监测到的APP数量多达232万款,APP应用生态繁荣。我们认为AI时代的应用市场也将如同移动互联网时代具备无限潜力,且GPTs的创作门槛比APP的开发门槛更低,与百模大战相比,未来AI应用的数量将达到更高的量级,并在发展初期有望实现非线性的高速增长,而原生AI应用的繁荣,则是人类真正进入AI时代的标志。资料来源:工信部,前瞻产业研究院,西南证券整理 应用市场百花齐放:中国移动应用在架数量 底层架构大浪淘沙:操作系统最终由寡头垄断 BeOS MS DOS Windows CP/M FreeBSD Mac OS Linux Ubuntu Mac OS Windows PC时代的操作系统 移动
75、时代的操作系统 Web OS Palm OS Windows Mobile iOS 塞班系统塞班系统 黑莓系统黑莓系统 安卓系统安卓系统 Windows phone iOS 安卓系统安卓系统 Yun OS 鸿蒙系统鸿蒙系统 Firefox OS 资料来源:洞见数据研究院,西南证券整理 鸿蒙系统鸿蒙系统 403 452 367 357 252 230 0050020020202122H137 3.2.2 应用端:GPTs垂类属性加强,有望覆盖更多长尾空间 强化垂类属性:根据GPTs Hunter,当前GPTs应用的赛道布局主要包括生产力工具、开发者工具
76、、客服助手、教育助手、医疗健康助手、营销工具、语言学习助手、创业工具、代码&写作助手、文字转语音和人力资源工具等。OpenAI的GPTs通过提供API,开发者只需喂给大模型更多的垂类数据,即可打造垂类AI应用,对此前开源生态中的垂类AI应用以及传统软件都将产生一定威胁。满足长尾需求:与AI应用相比,传统软件孤岛特征明显,应用开发相对受限,难以满足长尾需求。而OpenAI的GPTs使满足任何人的长尾需求成为可能,开发者和用户可以通过上传自身的个性化数据,链接模型和特征数据,生成定制化助手。此外,个人助手还可以通过中间层的一次性代码调用其他二级Agent,完成其他任务,实现只需唯一助手即可满足复杂
77、和长尾的个人需求。资料来源:Consumer,西南证券整理 GenAI产品月访问量Top50 GPTs Hunter特色GPTs榜单 资料来源:GPTs Hunter官网,西南证券整理 38 2023年11月16日,微软在Ignite技术大会上宣布开启Copilot时代:1)Bing Chat更名为Copilot(可类比为OpenAI的ChatGPT):Bing Chat和Bing Chat for Enterprise版本均更名为Copilot,后续不仅可以通过浏览器网页进行访问,还会上线移动设备。可以免费使用GPT-4、DALLE 3功能,并且拥有独立网站,Copilot将嵌入微软旗下所有
78、应用中。2)推出低代码工具Microsoft Copilot Studio(可类比为OpenAI的GPTs):Copilot Studio允许用户通过低代码开发方式在网页中构建、部署、分析和管理内容,通过拖放等简单易懂的方式,直接构建和发布插件。Copilot Studio可集成OpenAI的GPTs和第三方应用数据源,用户可通过提供关键业务数据,定制开发Copilot功能,生成自定义应用。个性化程度有望日益丰富。3.2.3 应用端:微软Copilot赋能旗下产品,先发优势&头部地位突出 微软将Copilot嵌入旗下所有应用中 微软推出Copilot Studio开发助手 资料来源:微软 Ig
79、nite 2023,西南证券整理 资料来源:微软 Ignite 2023,西南证券整理 39 微软Copilot有望率先成为AI颠覆性应用。GPTs浪潮将推动未来涌现众多的垂类应用开发者和创业者。而在垂类领域之外,微软Copilot有望率先成为大的颠覆者之一。相较于OpenAI的GPTs,微软Copilot Studio功能更强、应用更广:1)与企业办公软件深度集成:用户可以通过自己的数据、文件(包含Word、PPT、PDF等15种类型)、SharePoint站点来开发助手,开发后的助手可以通过SAP、Workday和ServiceNow等1100多个预制连接器无缝集成在CRM、ERP、OA等
80、日常办公系统中,并与微软的Power Bi、Power Virtual Agents、Microsoft Teams等产品实现深度集成,提供可视化数据分析等商业服务,帮助企业生产提效。2)提供带有安全管理和控制的可视化后台界面:管理员可实时监控自定义助手的使用情况并进行数据分析,同时通过后台控制来选定谁可以使用自定义助手,从而进一步加强数据安全管理。3.2.3 应用端:微软Copilot赋能旗下产品,先发优势&头部地位突出 Copilot Studio提供后台实时可视化界面 资料来源:微软 Ignite 2023,西南证券整理 资料来源:微软 Ignite 2023,西南证券整理 Copilo
81、t Studio可集成于微软产品系统中 40 3.2.4 应用端:热门AI应用流量周度跟踪 周度日均访问量TOP20总览:11.05-11.11全球AI应用日均访问量前20排名与上周相同,环比各有升 降,前 三 分别 为 ChatGPT、New Bing以 及 Canva Text to Image,环比 分 别+3.79-0.86/+7.64%,其他AI应用日均访问量均处于1000万次以下,其中AI+生产力应用Gamma获得本周前20榜单中最高增速,环比+9.58%。应用领域 名称 11.05-11.11 日均访问量(万次)环比 名次较上周变化 11.05-11.11 日均访问时长(秒)环比
82、 AI+聊天机器人 ChatGPT 5654.4 3.79%0 508 9.96%AI+搜索引擎 New Bing 4246.4-0.86%0 423-0.24%AI+图像 Canva Text to Image 1849.7 7.64%0 624 0.16%AI+聊天机器人 Bard 884.5 7.11%0 355-9.44%AI+写作 Deepl 837.6 2.42%0 546-1.80%AI+教育 Q-chat 506.3-0.02%0 420-1.64%AI+办公 Notion AI 499.7-0.82%0 465-0.43%AI+办公 Slack 396.5 4.57%0 77
83、8 1.97%AI+生产力 Jambot 275.9 2.95%0 950 3.83%AI+教育 Duolinguo 254.5 0.51%0 610-0.65%AI+写作 Grammarly 216.8-1.38%0 200-4.76%AI+写作 Quillbot 214.9 2.45%0 363 4.01%AI+聊天机器人 Poe 207.6 1.20%0 426-7.59%AI+图像 Remove.bg 195.7 3.87%0 343-0.29%AI+搜索引擎 Perplexity.ai 174.2-0.26%0 603 8.45%AI+教育 Khancademy 156.0-1.14
84、%0 495 3.34%AI+搜索引擎 Feedly 106.2-3.05%0 508 2.83%AI+聊天机器人 Claude 88.7-1.08%0 297-3.26%AI+生产力 Gamma 87.6 9.58%0 199 5.85%AI+编程 Replit 73.2 0.14%0 420-5.19%数据来源:Similarweb,西南证券整理 41 细分赛道1AI+图像:Canva text to image在AI+图像应用中日均访问量最高,11.05-11.11日均访问量达1849.7万次,环比+7.64%;平均访问时长624秒,环比+0.16%。该应用是一款在线图片编辑工具,可以帮
85、助用户将文字转化为图片、轻松地创建高质量的图像。用户可以在此应用上自由选择字体、颜色、背景等元素,并添加各种图形、效果和滤镜,以丰富其图片设计。细分赛道2AI+聊天机器人:ChatGPT是目前AI+聊天机器人应用中日均访问量最高的应用,同时也是所有AI应用中流量最高的,11.05-11.11日均访问量达到5654.4万次,环比+3.79%;平均访问时长508秒,环比-9.96%。AI+图像周度日均访问量(万次)数据来源:Similarweb,西南证券整理 0.0400.0800.01200.01600.02000.00.050.0100.0150.0200.0250.02023/42023/5
86、2023/62023/72023/82023/92023/102023/11Adobe FireflyRemove.bgFotorCanva Text to Image(右轴)0.01000.02000.03000.04000.05000.06000.07000.00.0200.0400.0600.0800.01000.02023/42023/52023/62023/72023/82023/92023/10 2023/11BardClaudePoeChatGPT(右轴)文心一言 AI+聊天机器人周度日均访问量(万次)3.2.4 应用端:热门AI应用流量周度跟踪 42 细分赛道3AI+写作:De
87、epl是目前AI+写作应用中日均访问量最高的应用,11.05-11.11日均访问量达到837.6万次,环比+2.42%;平均访问时长546秒,环比-1.80%。Deepl是一家德国的AI翻译公司,成立于2009年,前身为Linguee,致力于将人工智能技术赋能写作翻译领域。细分赛道4AI+教育:Q-chat是目前AI+教育应用中日均访问量最高的应用,11.05-11.11日均访问量达到506.3万次,环比-0.02%;平均访问时长420秒,环比-1.64%。Q-chat是Quizlet推出的AI应用,定位于在线学习平台,可以帮助学生轻松学习各种内容,从学术到职业,覆盖各个领域。Quizlet可
88、以创建和记忆各种内容,包括词汇、概念、图片、视频、音频等,让学习变得更加高效和有趣。Quizlet还提供各种测验和游戏,帮助用户巩固所学知识,提高学习效果。数据来源:Similarweb,西南证券整理 AI+写作周度日均访问量(万次)AI+教育周度日均访问量(万次)0.0200.0400.0600.0800.01000.02023/42023/52023/62023/72023/82023/92023/10 2023/11QuillbotGrammarlyDeepl0.0100.0200.0300.0400.0500.0600.02023/42023/52023/62023/72023/820
89、23/92023/10 2023/11DuolinguoKhancademyQ-chatTurnitin3.2.4 应用端:热门AI应用流量周度跟踪 43 细分赛道5AI+办公:Notion AI是目前AI+办公应用中日均访问量最高的应用,11.05-11.11日均访问量达到499.7万次,环比-0.82%;平均访问时长465秒,环比-0.43%。Notion是一款功能强大的工作协作应用程序,用户可以使用它创建和组织笔记、任务清单、数据库、文档等多种类型的内容。Notion AI是Notion应用程序中内置的人工智能功能,通过使用机器学习技术,以帮助用户更高效地组织和管理他们的内容。细分赛道6
90、AI+生产力:Jambot是目前AI+生产力应用中日均访问量最高的应用,11.05-11.11日均访问量达到275.9万次,环比+2.95%;平均访问时长950秒,环比+3.83%。Jambot是一个在线设计协作平台Figma为其白板工具FigJam最新推出的AI插件,借助ChatGPT的AI能力可帮助设计人员或团队激发灵感快速进行头脑风暴和生成思维导图。数据来源:Similarweb,西南证券整理 0.0100.0200.0300.0400.0500.0600.02023/42023/52023/62023/72023/82023/92023/10 2023/11Notion AISlack
91、0.0100.0200.0300.0400.02023/42023/52023/62023/72023/82023/92023/10 2023/11JambotGammaZapierAI+办公周度日均访问量(万次)AI+生产力周度日均访问量(万次)3.2.4 应用端:热门AI应用流量周度跟踪 44 细分赛道7AI+搜索引擎:New Bing是目前AI+搜索引擎应用中日均访问量最高的应用,也是AI应用全品类中仅次于ChatGPT的应用,11.05-11.11日均访问量达到4246.4万次,环比-0.86%;平均访问时长423秒,环比-0.24%。New Bing是微软在2023年推出的一款搜索引
92、擎,它基于GPT-4技术,可以提供更加智能和强大的搜索和语言交互功能。与传统的搜索引擎相比,New Bing不仅可以提供网页链接和简单的文本信息,还可以生成更加丰富和多样化的回答,并且能够根据用户的意图和上下文进行更加智能的回答。3400.03600.03800.04000.04200.04400.04600.00.050.0100.0150.0200.02023/42023/52023/62023/72023/82023/92023/102023/11Perplexity.aigptgo.aiFeedlyYouWolframAlphaNew Bing(右轴)数据来源:Similarweb,西
93、南证券整理 AI+搜索引擎周度日均访问量(万次)3.2.4 应用端:热门AI应用流量周度跟踪 45 专业数据是构建GPTs竞争力的核心要素之一:OpenAI发布的GPTs包含Knowledge的功能,该功支持用户上传个人或专业数据,有助于提升AI应用的定制化使用效果和用户体验。我们认为,在GPTs模式下,专业知识与大模型通用能力的结合将成为未来的重中之重,私域数据库或专业数据库方向将会不断产生新需求、新热点。垂类数据留存成为构建数据库的关键:当前垂类数据分布相对分散,难以形成系统的数据集,GPTs模式有望收集更多垂类和专业数据,而如何在合规前提下留存以上数据并构建体系化数据库或成为关键。此外,面对业务连续性的要求,OpenAI和微软等AI应用和技术提供商需要在硬件端构建完善的数据存储系统,即使出现设备宕机,也应保障计算任务实现连续运行,避免因服务器故障或者网络故障导致数据丢失等问题。GPTs背后的知识产权价值有望提升:在GPTs模式下,开发者和用户在制作专属GPTs时,可能需要调用个人、专业或垂类数据库的知识和信息,未来随着GPTs大规模的爆发和应用,知识产权的确权和保护议题将变得愈发重要,知识产权的价值有望大幅提升。3.3 数据端:专业数据或成关键,重视垂类数据留存及知识产权价值 46