上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

计算机行业AIGC系列报告(四):聚焦落地AIGC赛道披沙简金-230526(58页).pdf

编号:127053 PDF 58页 4.11MB 下载积分:VIP专享
下载报告请您先登录!

计算机行业AIGC系列报告(四):聚焦落地AIGC赛道披沙简金-230526(58页).pdf

1、-1-刘玉萍刘玉萍S02聚焦落地,聚焦落地,AIGCAIGC赛道披沙简金赛道披沙简金AIGC系列报告(四)2023.5.26证券研究报告证券研究报告|行业深度报告行业深度报告信息技术信息技术|计算机计算机周翔宇周翔宇S01-2-要点概览要点概览本篇报告系统地解析了本篇报告系统地解析了AIGC产业链的投资机会产业链的投资机会,结合海内外发展情况对每个环节甄选标的的要素进行了思考总结结合海内外发展情况对每个环节甄选标的的要素进行了思考总结,除了二级市场标的除了二级市场标的外外,我们也对一些一级市场初创公司进行了梳理我们也对一些一级市场初创公司进行了梳理,

2、以期构建以期构建AIGC产业一二级市场的投资图谱产业一二级市场的投资图谱。大模型大模型的竞争要素是什么的竞争要素是什么?我们从思考AIGC带来的技术变革意义,以及为什么是OpenAI引领此次变革出发,对比当前国内外通用大模型,总结了几个主要的竞争要素:模型规模、训练效率、使用便利性、商业模式等,目前GPT-4多方面领先;国内的大模型目前在使用效果上和GPT-4仍有差距,算力资源是额外需要考虑的一个竞争要素,当然,专业的AI人才是必备的基础条件。算力基础设施是算力基础设施是AIGC的的“卖铲人卖铲人”。我们把AIGC产业分为上游的算力及数据服务,中游的MaaS,及下游的应用。在AIGC系列报告(

3、二)中,我们详细测算了大模型训练及推理需要多少算力,英伟达在全球AI算力环节竞争格局最为突出。数据是大模型的“饲料”,数据工程不只是模型finetune和对齐需要的高质量标注数据集,也包括增强模型“记忆”能力,提高计算效率等相关的技术创新。MaaS垂直场景化赋能百业垂直场景化赋能百业。通用大模型是高技术、高资本壁垒的,我们预计未来大概率会头部集中,但垂直行业的场景化开发需求可能派生出丰富多样的垂直小/专模型。大模型的轻量化赋能IOT端也是一个重要的趋势,如具身智能将跨界变革带来众多行业机遇。应用是被赋能还是被颠覆应用是被赋能还是被颠覆?GPT的生态化意味着重新定义人机交互界面/应用入口的重新洗

4、牌,什么样的应用能不被颠覆而是有AIGC+的商业前景?我们概括为两类:一是提升生产工作效率的通用工具,应用场景对生成结果准确度要求不高,AIGC对内容供给速度有实质性的提升,可将人从基础/重复性工作中解放;二是可能改变行业格局的场景应用,我们也概括为“有场景的C端,有数据的B端”,即要求个性化生成和高频时效交互的C端场景,和行业差异化、专业化要求高的垂直B端,通过垂直长尾数据来建立竞争壁垒。投资建议:投资建议:全球AIGC产业蓬勃发展,当前算力和部分应用环节已进入实质落地阶段,我们建议聚焦国内外有“落地”的AIGC产业链环节,优选竞争格局突出的标的,应用侧重点推荐金山办公、科大讯飞、彩讯股份、

5、同花顺,算力侧重点推荐寒武纪、海光信息、中科曙光、浪潮信息,数据服务重点关注星环科技;同时AIGC的发展也伴随着数据安全等风险问题,监管必与发展同行,监管服务重点关注美亚柏科。风险提示:风险提示:AI应用研发进度不及预期;AI芯片供应链风险以及自研不及预期风险;AI相关上市公司短期涨幅过大风险。VXeXqYjWmUtRtRnQ6MdNaQsQoOtRoNeRqQnQeRsQzR7NnPpPvPsRqOxNnMsM-3-OpenAIOpenAI引领引领AIAI产业变革,大模型百花齐放产业变革,大模型百花齐放 AIAI的发展历程:识别类的发展历程:识别类通用通用AGIAGI 为什么为什么AIGCA

6、IGC是一次重大的技术变革是一次重大的技术变革?为什么是为什么是OpenAIOpenAI引领此次变革?引领此次变革?大模型的竞争要素?大模型的竞争要素?AIGC风靡一二级市场,标的选择大浪淘沙 风险防微杜渐,监管与发展同行风险防微杜渐,监管与发展同行 投资建议投资建议目录目录-4-1.1 1.1 什么是什么是AIGCAIGC?识别类生成类AIGC定义:AI-Generated ContentGenerated Content,基于预训练大模型、对抗式生成网络(GAN)等AI技术,通过数据/信息的运算,并通过适当的泛化能力生成相关内容的技术。资料来源:Arxiv、NovelAI、招商证券编程代写

7、邮件创作-5-1.2 1.2 为什么为什么AIGCAIGC是一次重要技术变革?是一次重要技术变革?数数据据量量时时 间间 轴轴19901990年年全球互联网普及全球互联网普及19741974年年第一台第一台PCPC诞生诞生19941994年年中国接入互联网中国接入互联网20062006年年亚马逊第一次出售亚马逊第一次出售弹性云计算资源弹性云计算资源20102010年年iPhone4iPhone4推出推出20132013年年4G4G商用商用移动互联网普及移动互联网普及20192019年年5G5G商用商用20222022年年AIGCAIGC大模型元年大模型元年IT发展 数据量指数级增长 AI发展加

8、速数据产生加速数据产生 提高数据处理效率提高数据处理效率 帮助帮助“思考思考”思考思考决策行动决策行动数据数据/信息信息人类认知探索世界机器用数据/信息解决问题资料来源:信息论、陆奇新范式、新时代、新机会、招商证券-6-1.2 1.2 摩根大通基于摩根大通基于ChatGPTChatGPT推出用于政策讯息解析的推出用于政策讯息解析的AIAI模型模型23年4月,摩根大通发布基于ChatGPT语言模型的Robo-Fedwatchers模型模型,用于分析美联储释放出的政策讯息,探明政策信号的“鹰鸽”信号,并从中寻找潜在交易信号。以近25年来美联储政策和发言人讲话的鹰鸽得分数据来看,当模型显示美联储发言

9、人在两次会议之间的鹰派立场上升时,下一份政策声明就会变得更加鹰派,一年期政府债券的收益率也会上涨。这表明Robo-Fedwatchers模型可以成功分析政策讯息,预测政策走向,并发现潜在的交易信号。欧洲中央银行和英格兰银行等也可以使用鹰鸽评分方式,预计未来几个月这一模型将进一步推广,用于预测全球 30 多家中央银行的政策走向。Robo-Fedwatchers模型预测的鹰鸽指数模型预测的鹰鸽指数资料来源:Bloomberg、招商证券美联储发言人讲话的鹰鸽得分美联储发布的政策声明的鹰鸽得分模型近期预测结果分析:模型近期预测结果分析:4.28,美联储讲话的读数虽然呈下降趋势,但仍徘徊在二十年来的最高

10、水平,这是持续鹰派的明显迹象。彭博社对经济学家进行的预测调查也显示,美联储下周将再次调高基准利率25个基点至5.25%。AI预测预测结果与经济学家预测结果吻合。结果与经济学家预测结果吻合。5月4日,美联储宣布加息25个基点,AI预测结果与实际政策结果预测结果与实际政策结果吻合。吻合。-7-1.2 AI1.2 AI的发展演进历程:算法架构的不断迭代的发展演进历程:算法架构的不断迭代AGI是Artificial General Intelligence的缩写,即通用人工智能。AGI的目标是实现人类般的通用智能,这意味着AI可以像人类一样理解任意通用任务,并以人类的智力水平执行完成。1942阿西莫夫

11、提出“机器人三定律”2017.1Facebook开源PyTorch2015OpenAI成立;Google开源了Tensor Flow2018.6OpenAI发布GPT12017.122017.12GoogleGoogle发布发布Attention is all you Attention is all you needneed,Transformer,Transformer架构诞生架构诞生2016AlphaGo战胜李世石2014.122014.12对抗式生成对抗式生成网络(网络(GANGAN)诞生诞生2012Google吴恩达使用1.6万个CPU训练AI绘制猫脸图片,训练数据来自YouTube

12、的1000万个猫脸图片2009Image Net发布,拉开计算机视觉新篇章19981998现代卷积神现代卷积神经网络网络经网络网络(CNN(CNN)诞生)诞生1956达特茅斯会议召开1950图灵提出“图灵测试”19971997LSTMLSTM提出,循环神经网络(提出,循环神经网络(RNNRNN)普及)普及2006杰弗里辛顿提出“深度学习”2018.10Google发布BERT2019.2OpenAI发布GPT2。2020.52020.5OpenAIOpenAI发布发布GPT3GPT32020.62020.6DDPMDDPM模型发布,模型发布,取代取代GANGAN成为成为AIAI绘画大模型绘画大

13、模型的主流技术。的主流技术。2022.6涌现理论2022.112022.11OpenAIOpenAI发发布布ChatGPTChatGPT资料来源:CSDN、招商证券OpenAI是AGI发展的里程碑!-8-1.21.2 NLPNLP算法迭代算法迭代的主要阶段的主要阶段机器翻译机器翻译机器学习机器学习BERTAttentionTransformerGPTT5Sequence to SequenceFNNRNN循环神经网络循环神经网络WordEmbeddingELMOMulti-taskLearningCNN卷积神经网络卷积神经网络LSTM1950年开始1980年开始1990年-2016年2017年

14、至今RNN算法机制有两个缺点,第一个是语言的长距离信息会被弱化,第二个是串行处理机制所带来的计算效率低。使用双向的RNN及LSTM长时间的短期记忆网络,比传统RNN在长距离信息识别上有更好的表现。相较于RNN和CNN,Attention注意力机制的原理就是在每一层的计算中都考虑了词与词之间的全连接关系,在模型的并行化运算的同时,能够很好的解决长距离信息依赖的问题。资料来源:CSDN、Attention is all you need、大语言模型介绍、招商证券-9-OpenAI成立于2015年,2022年11月30日发布聊天机器人ChatGPT,两个月注册用户就突破1亿,成为史上成长最快的消费级

15、应用。GPT-4为目前综合表现最好的自然语言大模型,OpenAI成为全球估值最高的AI初创公司。坚定坚定技术创新投入:技术创新投入:Transformer架构下和Google不一样的技术路径,坚持扩大模型规模训练到“涌现”出现。开源的理念开源的理念:OpenAI创立之初宗旨是推动AI普惠,侧重开源研究和开发。开源的模型可以得到广泛的反馈和建议;也可与其它研究机构、公司建立合作关系,得到更多的资源和知识;同时提升透明度和信任度。1.3 1.3 为什么是为什么是OpenAIOpenAI引领此次变革?引领此次变革?资料来源:ChatGPT官网、OpenAI官网、百度官网、大语言模型介绍、招商证券应用

16、应用用户破亿用时(月)用户破亿用时(月)ChatGPT2TikTok9Instagram30WhatsApp42Meta54Twitter60ChatGPT是史上最快破亿应用是史上最快破亿应用Transformer架构的发展和演变架构的发展和演变涌现效应-10-自然语言处理任务的准确率与训练量紧密相关,自然语言处理任务的准确率与训练量紧密相关,“大力大力出奇迹出奇迹”!根据最新的论文研究,当模型训练量小于1022时,在几个自然语言处理任务上的准确率都在0附近,而当训练量超过1024后,模型的准确率大幅提升,该效应称之为“涌现”“涌现”。GPT4大模型在参数量及数据集较GPT3有大幅提升,GPT

17、4在自然语言任务处理上所表现出的优异性能进一步表明,通过提高模型参数量、扩大数据集来提高模型性能的方法仍然没有碰到天花板,因此因此持续持续扩大模型规模是提升自然语言处理能力的有效手段扩大模型规模是提升自然语言处理能力的有效手段。当然,不断扩大的模型规模需要的计算资源将指数当然,不断扩大的模型规模需要的计算资源将指数级提升。级提升。1.31.3 涌现理论:扩大模型规模是提升自然语言处理能力的有效手段涌现理论:扩大模型规模是提升自然语言处理能力的有效手段各类模型涌现效应出现时训练量对比各类模型涌现效应出现时训练量对比资料来源:“Wei J,Tay Y,Bommasani R,et al.Emerg

18、ent abilities of large language modelsJ.arXiv preprint arXiv:2206.07682,2022.”、OpenAI官网、招商证券-11-持续技术迭代:持续技术迭代:从GPT-1到GPT-4,更大的数据集和更多的模型参数,每一代都有技术突破。GPT-1和GPT-2只采用无监督预训练;GPT-3加入了基于监督学习的微调;GPT-3.5之后进一步加入基于人类反馈的强化学习(RLHF)来提升模型表达能力。单模态走向多模态:单模态走向多模态:Dall-E从文本走向图像;GitHub Copilot具备了代码生成能力;GPT-4接受文本或图像输入。生

19、态化生态化:插件功能ChatGPT Plugin代表模型走向生态化(新的人机交互界面!新的人机交互界面!),近期ChatGPT正式推出iOS APP,加快C端商业化。1.3 GPT1.3 GPT发展史:持续迭代,多模态、生态化发展发展史:持续迭代,多模态、生态化发展资料来源:微软官网、OpenAI官网、招商证券GPT发展历程发展历程非营利性组非营利性组织织Open AI成立。成立。发布发布GPT,以,以大数据、无监督的大数据、无监督的方式方式训练模型,以训练模型,以较小的受监督较小的受监督数据集数据集对模型进行微调。对模型进行微调。2019.2发布发布大规模无监督语言模型大规模无监督语言模型G

20、PT-2,能够生成连贯的文本段落,并执行基能够生成连贯的文本段落,并执行基本的阅读理解、机器翻译等工作。本的阅读理解、机器翻译等工作。GPT-3进一步加入进一步加入基于监督学习的微调基于监督学习的微调技术技术,撰写文本能力,撰写文本能力与人类无异。与人类无异。Gpt-3商业化商业化内测版内测版API,提供“文本输入、文本输提供“文本输入、文本输出”界面。出”界面。微软发布微软发布Azure&AI服务。服务。发布发布多模态大模型多模态大模型GPT-4,可以接受文可以接受文本或图像输入。本或图像输入。微软发布接入微软发布接入GPT-4的的Office Copilot,能在,能在办公全办公全家桶家桶

21、中自动生成内容中自动生成内容。微软发布基于微软发布基于GPT-4的的Security Copilot首个首个生成型人工智能安全产品,结合微软庞大的威胁生成型人工智能安全产品,结合微软庞大的威胁数据访存足迹,帮助网络安全团队工作。数据访存足迹,帮助网络安全团队工作。2018.62015.122020.52020.62021.12022.112023.12023.22023.3.62023.3.92023.3.152023.3.162023.3.28发布插件功能发布插件功能ChatGPTPlugin,可连接第三方,可连接第三方应用程序。应用程序。2023.3.24微软取得微软取得Gpt-3的独的独

22、家许可证。家许可证。2020.9发布发布DALL-E,可以通,可以通过文本描述生成图像过文本描述生成图像发布基于发布基于 GPT-3.5 的语言模型聊的语言模型聊天机器人天机器人 ChatGPT,迄今为止迄今为止最最快达到快达到1亿月活用户的程序。亿月活用户的程序。微软计划对微软计划对Open AI加大投资加大投资100亿亿美元。美元。微软推出基于微软推出基于 OpenAI 大语言大语言模型“普罗米修斯模型”运行模型“普罗米修斯模型”运行的的BING AI侧边栏预览版。侧边栏预览版。微软发布接入微软发布接入Chatgpt的的Dynamics copilot。发布发布GitHub Copilot

23、,可以帮助用户自动补可以帮助用户自动补全代码全代码2021.10-12-1.4.1 1.4.1 海外大模型对比:模型规模、训练成本、使用难度、商业模式等海外大模型对比:模型规模、训练成本、使用难度、商业模式等资料来源:相关公司官网、招商证券类型类型公司公司模型模型参数参数预训练语料集预训练语料集模型特点模型特点模型训练模型训练/推理消耗推理消耗使用难度使用难度商业化进程商业化进程NLPOpenAIGPT4ChatGPT plus约1800B-生成和推理能力突出,正向多模态发展。基于微软Azure,需要大量英伟达AI芯片支撑。简单易上手。C端订阅收费;微软合作收入(Office/BING等);开

24、放Plugins(第三方APP,如 Expedia、Kayak 和Instacart),生态繁荣后可能按流量/API提成收费。MetaLLAMA7B13B33B65B1.4T灵活、高效和可解释。LLaMA-13B可在单块GPU上运行,为赋能消费费级硬件打下基础。缺少RLHF,低参数模型的使用较依赖Prompt水平。开源大模型,支持非商业许可下提供给政府、社区和学术界的研究人员和实体工作者。GooglePaLM2.0340B3.6T自然语言处理能力大幅提升,并加入图像等多模态应用。TPU v4超级计算机(4000块TPU)/基于H100 GPU的AI超级计算机A3。体积最小的Gecko支持移动端

25、部署。-赋能25款谷歌产品,包括对话机器人Bard,Duet AI及协作办公Workspace全线产品等。在健康医疗及网络安全领域分别推出基于PaLM 2的细分场景AI模型Med-PaLM 2、Sec-PaLM 2。DatabricksDolly2.012B15K(纯人工)代码和训练数据都是开放的。训练仅需要30美元、一台服务器、三个小时。开发者可自由对其进行修改和调优。开源模型,可用于研究及商业用途。CVMetaSAM0.636BSA-1B(1100万张高分辨率的图像,11亿个高质量的分割掩码)面向通用场景的图像分割模型。预训练需要高算力支撑/实际落地支持C端使用。开箱即用,通过合理的pro

26、mpt即可完成图像分割任务,但普通PC使用SAM体验感较差。开源模型,Meta已经在内部使用SAM,如给照片加标签、审核违禁内容等。StabilityAIStable Diffusion约1BLAION-5B(58.5亿个图像文本)输出更加稳定及可控。预训练需要高算力支撑/使用消费级的显卡便能迅速实现文生图。使用需要调整参数,Prompt要求较高。开源模型,SD已有超过20万开发者下载和获得授权,各渠道累计日活超过1000万。面向消费者的Dream Studio已获得了超过150万用户,已生成超过1.7亿图片。Midjourney Midjourney 5-图片效果精美,有非常强的商业可行性。

27、预训练需要高算力支撑/消费级显卡可实现。Prompt要求低。用户可免费生成 25 张照片,之后按照订阅制收费。月付制为 10/30/60 美元/月,年付制为 8/24/48 美元/月。-13-1.4.2 1.4.2 国内大模型对比:算力资源、训练数据集、评测体验、商业模式国内大模型对比:算力资源、训练数据集、评测体验、商业模式资料来源:相关公司官网及公告、招商证券公司公司模型模型参数参数算力资源算力资源训练数据集训练数据集评测体验评测体验商业化进程商业化进程百度文心一言260B百度阳泉智算中心,建设规模为4exaFLOPS AI算力。万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均

28、调用数据,以及5500亿事实的知识图谱整体使用较为顺畅,但在文本语义一致性、句式多样性、情感色彩准确性等特定领域仍有欠缺。计划融入百度所有业务线。截至3月16日,已有650家合作伙伴接入文心一言阿里通义千问千亿级别阿里云张北超级智算中心,总建设规模为12exaFLOPS,是全球最大智算中心。万亿级别的中英文文本,其中还包括了多语种的句子、段落、文章等。目前仅限文字交互的单模态,语言理解能力较强,在商业、科技领域领域有较强逻辑,文学领域句式略显刻板。钉钉、天猫精灵等已接入,后续阿里旗下所有产品将全线接入“通义千问”;4月26日发布通义千问合作伙伴计划,首批包含7家。科大讯飞星火50B已建成4城7

29、中心深度学习计算平台。公司在不同行业多年的规模化应用积累了超过50TB的行业语料和每天超10亿人次用户交互数据。语义理解能力较强,翻译准确度较高,遇到较复杂的数学、代码和逻辑问题时回答有一定困难。率先落地教育、办公、汽车、数字员工四大方向,未来将进一步赋能医疗、城市、司法、工业等行业。商汤日日新180B临港AIDC数据中心共有约2.7万块GPU,可输出5.0 exaFLOPS总算力。-在问诊与编程等垂域表现突出,模型能做到知识自动及时更新。已面向合作伙伴开展内测,未来主要面向B端业务。华为盘古千亿级别鹏城云脑II超级计算机为华为盘古大模型提供算力支撑。NLP预训练模型使用40TB中文文本数据重

30、点面向矿山、气象等行业应用。CV:工业质检、物流仓库监控;NLP:智能文档搜索、智能ERP;科学计算:气象预报,海浪预测。昆仑万维天工千亿级别采购价值4400万美元的硬件设备作为算力支撑。从数十万亿的数据中清洗、筛选出了3万亿个中文单词数据在推理和数学领域较强,文史知识能力偏弱。“天工”记忆力强,语义理解和文本写作能力较好。发布作画、编程、作曲等应用。三六零360智脑千亿级别 已有千余台8卡AI服务器。已积累500PB搜索数据,计划提取45T有效训练数据集。根据中文通用大模型基准(SuperCLUE)发布最新评测结果,360智脑在基础能力、中文特性、学术与专业能力三个方面位列国内第一。应用于城

31、市智能中枢、消费者产品、政府及企业端,toB端具备私有化部署的能力。-14-资料来源:各公司官网、36Kr、华尔街见闻、招商证券国内国内GLM大模型:大模型:ChatGLM-6B已开源;纯文本;底层通用估值45亿元+自研大模型:自研大模型:非开源;多模态;通用估值达10亿美元海外海外估值270-290亿美元(2023)通用大模型:通用大模型:GPT系列系列图像生成:图像生成:DALL E系列系列语音生成:语音生成:Whisper估值41亿美元(2023)聊天机器人:聊天机器人:Claude估值20亿美元(2023)文本检索文本检索文本生成文本生成文本分类文本分类CPM:非开源;纯文本;通用获数

32、千万元天使轮融资孟子大模型:孟子大模型:已开源;多模态;通用获数亿元Pre-A轮融资金融、医疗健康、电商等垂直领域应用人工智能大模型1.4.3 1.4.3 初创大模型竞争要素:算力及人才门槛,训练时间及模型性能初创大模型竞争要素:算力及人才门槛,训练时间及模型性能算力资源?专业人才?训练时间?性能:计算效率、可用性、可信度等-15-OpenAIOpenAI引领引领AIAI产业变革,大模型百花齐放产业变革,大模型百花齐放 AIGCAIGC风靡一二级市场,标的选择大浪淘沙风靡一二级市场,标的选择大浪淘沙 大模型产业链梳理大模型产业链梳理 算力基础设施:算力基础设施:AIGCAIGC的“卖铲人”的“

33、卖铲人”MaaSMaaS:垂直场景化赋能百业,轻量化变革垂直场景化赋能百业,轻量化变革IOTIOT 应用:被赋能还是被颠覆?应用:被赋能还是被颠覆?风险防微杜渐,监管与发展同行风险防微杜渐,监管与发展同行 投资建议投资建议目录目录-16-内容型行业内容型行业2.1 AIGC2.1 AIGC产业链梳理产业链梳理AIAI服务器服务器垂直化、场景化垂直化、场景化通用通用大模型大模型内容生产内容生产内容设计内容设计业务数据打通业务数据打通GPUGPUFPGAFPGACPUCPUASICASIC素材数据整理素材数据整理数据分析数据分析数据标注数据标注数据库数据库数据服务数据服务数据采集数据采集数据处理数

34、据处理算力算力AIAI芯片芯片智算中心智算中心内容分发内容分发行业行业文本生成文本生成图片生成图片生成音频生成音频生成视频生成视频生成代码生成代码生成跨模态生成跨模态生成视觉设计视觉设计文案设计文案设计结构设计结构设计搜索、宣传等搜索、宣传等金融、医疗等行业金融、医疗等行业电商、教育等场景电商、教育等场景模型及服务(模型及服务(MaaSMaaS)应用场景应用场景资料来源:非凡产研、招商证券应用应用计算机视觉(计算机视觉(CVCV)自然语言处理(自然语言处理(NLPNLP)多模态多模态调优调优赋能赋能智能终端、具身智能智能终端、具身智能游戏、影视等行业游戏、影视等行业&-17-2.2.1 2.2

35、.1 算力算力AIGCAIGC的“卖铲人”的“卖铲人”资料来源:OpenAI官网、大语言模型介绍、招商证券训练训练推理推理预训练预训练Finetune日常运营日常运营ChatGPT总算力需求总算力需求GPT-1GPT-2GPT-3GPT-4SFT监督学习PPO强化学习RM奖励模型迁移学习参数加载推理计算信息交互预训练预训练是指使用大规模未标注的数据来训练模型,以使模型能够学习到普遍的特征和结构。推理训练推理训练是指使用微调后的模型进行推理任务的训练,以进一步提高模型的性能和泛化能力。Finetune是指在已经预训练好的模型上,用标注数据对模型进行有监督的微调有监督的微调,以适应特定的任务。在F

36、ine-tuning阶段,微调可以使用较少的标注数据在相对较短的时间内完成模型训练。-18-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.2.1 2.2.1 大模型训练算力总需求测算大模型训练算力总需求测算根据“Kaplan,J.,McCandlish,S.,Henighan,T.,Brown,T.B.,Chess,B.,Child,R.,Gray,S.,Radford,A.,Wu,J.and Amodei,D.,2020.Scaling laws for neural language”的论文,基于transformer的自然语言处理(NLP)大模型可分为三类:Encoder-

37、Only(E),Decoder-Only(D)和Encoder-Decoder(ED)。模型的训练算力需求可根据以下公式计算:训练算力需求=模型参数量数据集数系数其中,的取值取决于模型种类,如果模型种类为Encoder-Only或Decoder-Only,则=6;如果模型种类为Encoder-Decoder,则=3。以GPT3大模型为例,总参数量(parameters)约等于175B(175*109);数据集token数约等于300B(300*109),GPT3大模型是Decoder-Only(D),因此我们测算GPT3大模型训练算力需求量为:(175*109)(300*109)6=3.15

38、1023=315 ZettaFLOPS资料来源:“Kaplan,J.,McCandlish,S.,Henighan,T.,Brown,T.B.,Chess,B.,Child,R.,Gray,S.,Radford,A.,Wu,J.and Amodei,D.,2020.Scaling laws for neural language”、OpenAI官网、招商证券转换为单日算力需求:3.15 1023 24 365=3646 PFDays-19-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.2.1 2.2.1 大模型训练算力总需求测算大模型训练算力总需求测算modelParameter

39、s(亿)(亿)token in dataset(亿)(亿)domain模型类型模型类型kZflops(1021)pf*day(1015)GoogleBERT481033NLPencoder-only610110PaLM54007800NLPdecoder-only6252729250magen110多模态(文本+图像)lambda13701680NLPdecoder-only61381598Parti200多模态(文本+图像)decoder-only6MicrosoftFlorence6.4多模态(文本+图像)Turing-NLG1702700NLPencoder-only628319Face

40、bookOPT-175B17501800NLPdecoder-only61892188M2M-100150NLPencoder-decoder3Deep MindGopher28003000NLPencoder-only65045833AlphaCode4149670NLPencoder-decoder31201390OpenAIGPT317503000NLPdecoder-only63153646ChatGPT1751NLPdecoder-only6GPT41750-2800多模态(文本+图像)NvidiaMegatron-Turing NLG53002700NLPdecoder-only6

41、8599938百度ERNIE26003000NLPdecoder-only64685417资料来源:腾讯AIGC白皮书、招商证券表:目前已知大模型训练算力总需求表:目前已知大模型训练算力总需求-20-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.2.1 2.2.1 大模型训练费用测算大模型训练费用测算根据单卡峰值算力,我们可以通过以下公式测算训练模型所需时间:其中,算力利用率与芯片数量成反比,与芯片架构迭代成正比。以GPT3为例,若10000张英伟达V100芯片训练,算力利用率为20%,则训练GPT3所需训练时间为:我们认为得出训练GPT3模型一次的资金需求公式为:训练时间=训练

42、总计算量 单卡峰值算力 算力利用率 芯片卡数芯片芯片单卡峰值算力单卡峰值算力算力利用率算力利用率训练训练GPT3GPT3所需时间(天)所需时间(天)V100125TFlops20%14.59A100312TFlops35%3.34训练价格=训练总时长 X(单卡价格($/小时)X 24)X 芯片数芯片芯片微软微软AzureAzure服务器(服务器($/$/小时)小时)单卡价格(单卡价格($/$/小时)小时)芯片数芯片数训练时长(天)训练时长(天)训练训练GPTGPT模型价格(百万美元)模型价格(百万美元)V10010.7961.3501000014.594.723A10018.8292.3541

43、00003.341.8863646 PFDays 125TFlops 20%10000=14.59 Days表:英伟达表:英伟达V100/A100训练训练GPT3模型分别需要天数模型分别需要天数根据目前微软Azure服务器租赁价格测算,我们测算用10000颗V100训练GPT3模型一次的资金需求公式为:14.59 X(1.350($/小时)X 24)X 10000=4.72 Million USD表:英伟达表:英伟达V100/A100训练训练GPT3模型价格模型价格资料来源:微软Azure、英伟达官网、OpenAI官网、招商证券-21-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2

44、.2.1 2.2.1 大模型训练费用测算大模型训练费用测算资料来源:微软Azure、英伟达官网、OpenAI官网、腾讯AIGC白皮书、招商证券公司公司模型模型算力需求算力需求(PF(PF*day)*day)一万张一万张V100V100总时间总时间(天)天)一万张一万张A100A100总时间总时间(天)(天)V100V100价格价格(百万美元)(百万美元)A100A100价格价格(百万美元)(百万美元)谷歌BERT1100.440.100.1430.057PaLM29250117.0026.7937.89415.130Lambda15986.391.462.0710.827微软Turing-NL

45、G3191.280.290.4130.165FacebookOPT-175B21888.752.002.8341.132Deep MindGopher583323.335.347.5573.017AlphaCode13905.561.271.8010.719OpenAIGPT3364614.583.344.7231.886英伟达Megatron-Turing NLG993839.759.1012.8745.140百度ERNIE541721.674.967.0172.802表:目前已知大模型通过英伟达表:目前已知大模型通过英伟达A100/V100训练所需金额训练所需金额自建一个类自建一个类GPT

46、3GPT3大模型算力基础设施成本超过大模型算力基础设施成本超过2.52.5亿美元。亿美元。以10000张英伟达A100芯片为例,英伟达DGX A100服务器内涵8张英伟达A100芯片,服务器定价约20万美元,10000张A100对应1250台服务器,总价约为2.5亿美元,约17.17亿元人民币。-22-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.2.1 2.2.1 推理所需要的算力需求及成本测算推理所需要的算力需求及成本测算大模型除训练需求外,在日常问答应用中将产生大量推理需求。根据“Scaling laws for neural language”的论文,模型的推理算力需求可

47、根据以下公式计算:推理算力需求=模型参数量(“输入输出”数)系数其中,的取值取决于模型种类,如果模型种类为Encoder-Only或Decoder-Only,则=2;如果模型种类为Encoder-Decoder,则=1。以GPT3大模型为例,总参数量(parameters)约等于175B(175*109);1000个token的推理算力需求为:(175*109)(1000)2=3.5 1014=350 TFLOPS资料来源:“Kaplan,J.,McCandlish,S.,Henighan,T.,Brown,T.B.,Chess,B.,Child,R.,Gray,S.,Radford,A.,W

48、u,J.and Amodei,D.,2020.Scaling laws for neural language”、英伟达官网、招商证券假设使用一颗A100芯片推理,使用TF32峰值算力156TFLOPS,则消耗时间约为:350 TFLOPS 156 TFLOPS=2.24 second已知A100单卡价格为$2.354/小时,则在GPT3模型中,1000token的推理成本为:$2.354/h 3600 2.24=$0.0015/1k token-23-标题XXXXXXXXXXXXXXXXXXXXXXXXXX2.2.1 2.2.1 模型模型APIAPI接口调用价格测算接口调用价格测算目前,Ch

49、atGPT及GPT4都已上线API接口,其中ChatGPT API价格为0.2美分/1k token,而GPT4 API价格较ChatGPT大幅提升。此外,百度API接口调用价格初定为0.012元/1k token。资料来源:ChatGPT、OpenAI官网、百度文心一言、招商证券模型模型输入端输入端输出端输出端ChatGPT$0.002/1k token$0.002/1k tokenGPT4-8K$0.03/1k token$0.06/1k tokenGPT4-32K$0.06/1k token$0.12/1k token百度文心一言¥0.012/1k token¥0.012/1k toke

50、n表:目前已知模型表:目前已知模型API接口调用费用测算接口调用费用测算以左图为例,我们通过询问ChatGPT一个问题并得到答案测算以上模型调用API的费用,其中问题“2014年巴西世界杯冠军是谁?”共计15个token;回答“2014年巴西世界杯冠军是德国”共计16个token(包含标点符号)。模型模型输入端输入端tokentoken数数输入端价格输入端价格输入端金额输入端金额输出端输出端tokentoken数数输出端价格输出端价格输出端金额输出端金额总金额总金额ChatGPT15$0.002/1k token$0.00003 16$0.002/1k token$0.000032$0.000

51、062 GPT4-8K15$0.03/1k token$0.00045 16$0.06/1k token$0.00096$0.00141 GPT4-32K15$0.06/1k token$0.0009 16$0.12/1k token$0.001920$0.00282 百度文心一言15¥0.012/1k token0.00018 16¥0.012/1k token0.000192 0.000372 表:目前已知模型表:目前已知模型API接口调用价格接口调用价格-24-2.2.1 2.2.1 算力基础设施相关标的算力基础设施相关标的资料来源:英伟达官网、招商证券注:数据中心部分标的由通信及传媒覆

52、盖;AI芯片部分标的与电子联合覆盖;服务器部分标的由通信及电子覆盖。数据中心数据中心服务器服务器AIAI芯片芯片二级市场:寒武纪二级市场:寒武纪、海光信息海光信息、Nvidia、AMD、Intel一级市场:华为海思一级市场:华为海思、燧原科技燧原科技、壁仞科技壁仞科技、摩尔线程摩尔线程、平头哥平头哥二级市场:中科曙光二级市场:中科曙光、浪潮信息浪潮信息、工业富联工业富联、紫光股份紫光股份、中兴通讯中兴通讯、四川长虹四川长虹、神州数码神州数码、同方股份同方股份、联想联想、戴尔戴尔一级市场:超聚变一级市场:超聚变、宁畅宁畅二级市场:中国电信二级市场:中国电信、中国中国联通联通、中国移动中国移动、宝

53、信软件宝信软件、世纪互联世纪互联、光环新网光环新网、数据数据港港、世纪华通世纪华通、云赛智联云赛智联英伟达GPGPU是目前最适合做AI训练的芯片。围绕英伟达芯片,我们认为算力基础设施的投资机会可以分为以下三个方向。1.AI芯片:芯片:英伟达的替代品。建议关注寒武纪、海光信息。2.服务器:服务器:英伟达的下游。建议关注中科曙光、浪潮信息。3.数据中心:数据中心:算力的载体。-25-根据大模型的应用领域的侧重点不同根据大模型的应用领域的侧重点不同,在预训练阶段需要不同结构的数据集来满足大模型训练需求在预训练阶段需要不同结构的数据集来满足大模型训练需求。2.2.2 2.2.2 大模型预训练阶段数据种

54、类大模型预训练阶段数据种类资料来源:A Survey of Large Language Models、招商证券-26-数据是大模型的数据是大模型的“饲料饲料”,AI工程工程=数据工程数据工程+模型工程模型工程。数据资源对模型的成熟度有很大影响,数据资源和有效的数据加工处理将提高大模型的准确度和效率。数据工程系 AI 工程的前置且基础环节,核心在于高效的数据标注。2.2.2 2.2.2 数据服务及数据服务及基础设施开发工具基础设施开发工具资料来源:CSDN、整数智能、招商证券数据采集数据采集数据标注数据标注模型工程模型工程数据存储数据存储 互联网公开资料:维基百科、百度百科、公开的搜索结果等;

55、书籍库:Gutenberg Book、Bibliotik Journey;内容聚合商:Reddit;Common Crawl网络爬虫开放数据库;模型训练开源数据集:各高校、Databricks等;垂类私域数据厂商:电商、旅行等。海外:Appen 二级:海天瑞声 一级:慧听科技、标慧听科技、标贝科技贝科技对模型输出的数据进行存储;增强模型“记忆”能力,提高计算效率等相关技术创新。二级:星环科技、Vearch(京东)海外:Pinecone、WeaviateBV、Chroma、Qdrant;国内:Milvus、TensorDB、Om-iBASE预训练阶段(无监督预训练阶段(无监督学习)学习)微调(监

56、督学习)微调(监督学习)模型对齐(模型对齐(RLHFRLHF等)等)无标注的海量互联网无标注的海量互联网数据数据需要高质量标注数据集高质量标注数据集需要人工对大模型回答进行评分,形成rankingranking数据集数据集-27-向量数据库向量数据库实验管理实验管理特征管理特征管理模型管理模型管理2.2.2 2.2.2 数据服务相关标的:需紧跟最新技术革新数据服务相关标的:需紧跟最新技术革新资料来源:信通院、招商证券AIGC大模型带来的爆发式数据需求的增长大模型带来的爆发式数据需求的增长,以及版本持续迭代的需求以及版本持续迭代的需求,我们认为我们认为,其对其对AI工具链带来的潜在增长环节主要包

57、工具链带来的潜在增长环节主要包括向量数据库括向量数据库、实验管理实验管理、特征管理特征管理、模型管理模型管理。对大模型输出的数据进行存储,目前向量数据库是主流的存储方式,方便进行输出结果的相似性追溯对环境、特征、参数、指标、模型信息等进行管理,保证实验的可重复性,通过实验结果对比,帮助提升模型探索效率。对特征的元数据、数据来源、计算逻辑、版本等进行管理,提高模型训练和推理服务的一致性。通过标准化的模型接口,将自训练模型和第三方模型进行统一集中管理工具链能力工具链能力海外厂商海外厂商国内厂商国内厂商向量数据库Pinecone(估值(估值7.5亿美元)、亿美元)、Weaviate(估值(估值2亿美

58、元)、亿美元)、Chroma(估值(估值7500万美元)万美元)Milvus(母公司(母公司Zilliz目前已进入目前已进入B轮,获得投资总额超轮,获得投资总额超1.13亿美元)亿美元)、Vearch(京东)、TensorDB(母公司爱可生准备挂牌北交所)、Om-iBASE(母公司联汇科技(母公司联汇科技在上市辅导阶段)在上市辅导阶段)实验管理MLflow(Databricks)、Neptune AI、Microsoft Azure、Amazon Sagemaker、Weights and Biases(估值(估值10亿美元)亿美元)、DagsHub百度智能云企业AI开发平台、九章云极九章云极

59、DataCanvas AOS机器学习平台(完成机器学习平台(完成C+轮轮融资,估值超融资,估值超1亿美元,具体未披露)亿美元,具体未披露)特征管理Google Feast、Featuretools、AWS Feature Store、Tecton.ai(累计融资总额达到(累计融资总额达到1.6亿美元,估值未知)亿美元,估值未知)、Hopswork.ai百度智能云企业AI开发平台、九章云极九章云极DataCanvas AOS机器学习平台机器学习平台、第四范式OpenMLDB模型管理Google Vertex AI、Microsoft Azure AI builder、AWS SageMaker、

60、Dataiku(估值(估值14亿美元)亿美元)、MLflow华为云ModelArts、百度智能云企业AI开发平台、中国移动九天可视化建模平台数据版本管理DagShub、Databricks(估值(估值380亿美元)亿美元)、DVC百度智能云企业AI开发平台、九章云极九章云极DataCanvas AOS机器学习平台机器学习平台-28-2.3.1 2.3.1 MaaSMaaS:垂直场景化赋能百业,轻量化变革:垂直场景化赋能百业,轻量化变革IOTIOT通用类大模型(高技术、高资本壁垒,头部集中)金融电商教育医疗资料来源:天猫精灵官网、谷歌官网、招商证券智能终端具身智能 按生成量收费;按会员订阅收费;

61、按资源调用量收费;API分成。本地化部署项目收费;按资源调用量收费。终端授权;按资源调用量收费;订阅收费。-29-2.3.2 2.3.2 具身智能:有身体并支持物理交互的智能体具身智能:有身体并支持物理交互的智能体什么是具身智能(什么是具身智能(Embodied AIEmbodied AI)?)?根据中国计算机学会,具身智能是有身体并支持物理交互的智能体,更侧重关注智能体与环境的“交互”,如家用服务机器人、根据中国计算机学会,具身智能是有身体并支持物理交互的智能体,更侧重关注智能体与环境的“交互”,如家用服务机器人、无人车等。无人车等。1950年,图灵在论文Computing Machiner

62、y and Intelligence中首次提出了具身智能的概念;斯坦福大学的李飞飞教授称“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能”;而根据上海交大卢策吾教授的说法,人类是第一人称视角的智能。在Held和Hein所做的实验中,主动猫是具身的智能,可以在环境中自由行动,最终获得了学习行走的能力;而被动猫是旁观的智能,只能被动观察世界,最终失去行走能力。结合李飞飞和卢策吾教授的说法,具身具有物理身体,但不局限于载体形式,具有与人一样的身体体验的能力,其重点在于与环境的实践性“交互”,可以进行主动式感知与获取数据。资料来源:基于形态的具身智能研究:历史回顾与前沿进展、上

63、海交通大学教授卢策吾机器之心AI科技年会演讲、北京大学前沿计算研究中心、招商证券具身智能是以第一人称视角进行主动式感知的智能:实验中,具身智能是以第一人称视角进行主动式感知的智能:实验中,主动猫学会了正常行走,但被动猫失去行走能力主动猫学会了正常行走,但被动猫失去行走能力具身智能强调“感知具身智能强调“感知行动回路”(行动回路”(perceptionperception-action loopaction loop)区别于非具身智能区别于非具身智能:非具身智能是指不需要物理交互、不考虑具体形态、专注抽象算法开发的智能,如AlphaGo下棋、AI预测蛋白质结构等。非具身智能聚焦于智能中表征与计算

64、的部分,具身智能具备主动式感知能力,强调“感知行动回路”。具身智能具身智能旁观的智能旁观的智能-30-2.3.2 2.3.2 具身智能:产业链包含感知具身智能:产业链包含感知-想象想象-执行三个环节执行三个环节具身智能涉及跨智能学科多个方向:具身智能涉及跨智能学科多个方向:根据北京大学前沿计算研究中心,具身智能涉及众多学科,如机器人工程用于设计和构建具有自主行动和感知能力的机器人;计算机视觉让具身智能能够像人类一样理解和分析图像和视频;计算机图形学开发的物理仿真环境给具身智能提供了真实物理世界的替代;自然语言给具身智能带来了与人类交流、从自然文本中学习的可能。产业链可分为感知产业链可分为感知-

65、想象想象-执行三个环节:执行三个环节:感知即模拟人对视觉、语音、触感等全方面的感知,主要涉及传感器;想象是指模拟人的思考决策过程,主要涉及机器视觉、语义识别等AI算法;执行是模拟人的行动过程,主要涉及控制器、减速机、电机、执行件、芯片等。资料来源:上海交通大学教授卢策吾机器之心AI科技年会演讲、招商证券具身智能涉及具身感知、具身想象、具身执行三个环节具身智能涉及具身感知、具身想象、具身执行三个环节具身感知具身感知具身想象具身想象具身执行具身执行模拟人对视觉、触感等的感知模拟人对视觉、触感等的感知传感器相关标的传感器相关标的模拟人的思考决策过程模拟人的思考决策过程机器视觉、语音识别等机器视觉、语

66、音识别等AI算算法相关标的法相关标的模拟人的行动过程模拟人的行动过程控制器、减速器、伺服电机、控制器、减速器、伺服电机、机器人本体等相关标的机器人本体等相关标的流程简介流程简介标的梳理标的梳理视觉、力觉、触觉传感等视觉、力觉、触觉传感等计算机视觉、语音识别、机器计算机视觉、语音识别、机器学习、自然语言处理、认知科学习、自然语言处理、认知科学、物理学(仿真)等学、物理学(仿真)等机器人学、芯片设计、软件机器人学、芯片设计、软件工程等工程等涉及学科涉及学科-31-2.3.2 2.3.2 具身智能:各大厂在多维层面实现技术突破具身智能:各大厂在多维层面实现技术突破谷歌谷歌PaLMPaLM-E E:2

67、023年3月6日,谷歌推出参数量达5620亿的具身多模态语言模型PaLM-E,集成了参数量540B的 PaLM 和参数量22B的视觉Transformer(ViT)。在实验中,该模型在很多任务中表现出了强大的能力,比如在机器人任务中,可以帮助人类从抽屉里拿东西并走过去递给人类,以及将积木按颜色分类到不同的角落等等。特斯拉人形机器人“擎天柱”特斯拉人形机器人“擎天柱”:2023年5月17日,马斯克在股东大会上展示特斯拉正在开发的人形机器人“擎天柱”(Optimus),Tesla Bot已能够实现流畅行走以及多个bot一起行走。马斯克表示,Tesla Bot未来将能够在特斯拉的高级辅助驾驶系统软件

68、和计算机上运行,并预测人形机器人的需求可能会达到100亿台甚至更多。Nvidia VIMANvidia VIMA:2023年5月17日,在ITF World 2023半导体大会上,黄仁勋表示,人工智能的下一个浪潮将是具身智能(Embodied AI),即能理解、推理、并与物理世界互动的智能系统;并公布了Nvidia VIMA一个多模态具身人工智能系统,能够在视觉文本提示的指导下执行复杂的任务,例如机器可以识别两个不同的物体,并能学会把一个小部件放进一个容器中。PaLMPaLM-E E 将积木按颜色分类到不同的角落将积木按颜色分类到不同的角落PaLMPaLM-E E 将红色积木推到咖啡杯旁将红色

69、积木推到咖啡杯旁资料来源:机器之心、ITF World 2023、特斯拉股东大会、招商证券实现多个实现多个Tesla BotTesla Bot一起行走一起行走-32-2.4 2.4 哪些应用能真的被大模型哪些应用能真的被大模型“赋能赋能”?什么样的应用什么样的应用AIGC+有商业前景有商业前景?那些应用可能被颠覆那些应用可能被颠覆?类别一:类别一:提升生产工作效率的通用工具提升生产工作效率的通用工具(连接打通可能再创造增量价值连接打通可能再创造增量价值)对结果准确度要求不高,AIGC对内容供给速度有实质性的提升。比如降低内容创作门槛,代替人工完成基础性创作工作,人能够参与到高价值的内容创作流程

70、中。类别二:类别二:可能改变行业格局的场景应用可能改变行业格局的场景应用(有场景的有场景的C端端,有数据的有数据的B端端)带来一个增量产业的崛起(如教育、医疗分诊,个性化生成,高频时效交互)B端对行业差异化和专业化要求更高,垂直行业长尾数据帮助finetune模型,容易建立壁垒。-33-资料来源:量子位、招商证券2.4.1 2.4.1 类别一:提升生产工作效率的通用工具类别一:提升生产工作效率的通用工具AIGC赋能的第一类场景为提升生产工作效率的通用工具赋能的第一类场景为提升生产工作效率的通用工具。在此类场景中,AIGC能在基础性工作中帮助或替代人力。此类场景对AIGC生成内容的准确度要求不高

71、,主要通过生成式AI提升内容供给速度、降低内容创作门槛,从而帮助人员专注于高价值的工作及创作流程,提升工作效率。提升生产提升生产工作效率工作效率的通用的通用工具工具协作办公协作办公办公场景内有大量多模态内容生成需求,且部分内容有较为明确的格式规定,利用AIGC可以自动化基础性文本生成,大幅提高工作效率,让员工专注高价值工作,提高生产力。营销营销通过用AIGC自动化营销图片、文本及数据洞察的生成,减少基础工作,提高营销人员效率。内容资讯内容资讯通过用AIGC自动抓取资讯、自动生成内容,以及辅助写作等功能,实现内容资讯生成的自动化,帮助人员专注于高价值内容产出。影视传媒影视传媒自动图片生成、自动视

72、频生成、自动3D建模生成等工具大幅提升传媒内容生成效率,从而让创作者只需专注于创意。游戏游戏通过AI Game Bot、自动化策略生产等产品自动化游戏制作过程,提高游戏可玩性。代码生成代码生成AI代码生成将程序员从基础代码工作中解放,大幅提升编程效率。-34-Excel:Copilot提供数据分析提供数据分析2.4.1 2.4.1 AIGC+AIGC+办公:办公:Microsoft 365 CopilotMicrosoft 365 CopilotAIAI时代的生产力革命时代的生产力革命资料来源:微软官网、招商证券PowerPoint:Copilot自动生成演示文稿自动生成演示文稿Word:Co

73、pilot根据提示自动生成文档根据提示自动生成文档Teams:Copilot帮助总结会议要点帮助总结会议要点Outlook:Copilot自动撰写回复邮件自动撰写回复邮件-35-2.4.1 2.4.1 AIGC+AIGC+办公:金山办公办公:金山办公AIGCAIGC能力应用最优质场景能力应用最优质场景资料来源:机器之心、金山办公公众号、APPSO公众号、招商证券金山办公拥有办公应用套件金山办公拥有办公应用套件WPS Office,为对标为对标Microsoft 365的的AIGC+办公软件应用落地优质场景办公软件应用落地优质场景,公司沉淀公司沉淀了大量用户文档数据了大量用户文档数据,具有潜在的

74、应用价值具有潜在的应用价值,同时也构建起坚实的数据壁垒同时也构建起坚实的数据壁垒,AIGC+WPS值得期待值得期待。AIGC+文档应用率先落地文档应用率先落地:金山办公WPS AI率先登陆在线协同编辑工具轻文档,实现知识分析、内容生成、文本处理三大功能;目前WPS AI已全面结合表格、文字、演示、PDF四大应用。WPS实机演示三分钟自动生成实机演示三分钟自动生成PPT:在百度“文心千帆”模型现场demo中,金山办公为百度提供了WPS的API接口,通过问答形式,实现三分钟自动生成PPT。“文心千帆”使用“文心千帆”使用WPS三分钟自动生成三分钟自动生成PPTWPS AI入口,能够生成多类型文档入

75、口,能够生成多类型文档-36-2.4.1 2.4.1 AI+AI+图像图像/营销:营销:AdobAdobe Sensei e Sensei GenAIGenAIAIGCAIGC提升数字营销能力提升数字营销能力资料来源:Adobe官网、招商证券无缝切换无缝切换AI服务功能服务功能,提升数字营销能力提升数字营销能力。Adobe Sensei GenAI将AI引入Adobe的云端产品,以提升企业的效率和生产力。具体功能包括可实现基于文本的图片生成、视频剪辑及自定义矢量图的Firefly,可实现AI文案撰写的Adobe Experience Manager Sites,聊天机器人AdobeMarket

76、o Engage,以及一系列数据分析功能等。AIGC与图像处理等工具类应用结合与图像处理等工具类应用结合,能大幅提升产品易用性能大幅提升产品易用性,降低使降低使用者门槛用者门槛,拓宽产品客群拓宽产品客群。AIGC与创意营销软件结合带来的营销内容与创意营销软件结合带来的营销内容生成及数据分析能力生成及数据分析能力,则能协助将用户的部分工作流程自动化则能协助将用户的部分工作流程自动化,且深且深度利用系统沉淀的数据度利用系统沉淀的数据,提高用户工作效率提高用户工作效率。AI图像生成:图像生成:Adobe FireflyAI客户洞察:客户洞察:Adobe Real-Time CDPAI文案撰写:文案撰

77、写:Adobe Experience Manager Sites AI营销分析:营销分析:Customer Journey Analytics-37-资料来源:量子位、招商证券2.4.2 2.4.2 类别二:改变行业格局的场景应用类别二:改变行业格局的场景应用AIGC赋能的第二类场景为可能改变行业格局的场景应用赋能的第二类场景为可能改变行业格局的场景应用。通用AIGC应用领域目前处于高度竞争阶段,同类产品间的相对优势不显著,但拥有垂类数据的厂商在竞争中则拥有相对牢固的壁垒,一方面垂类数据积累优势较难被超越,另一方面垂直行业长尾数据集能帮助训练模型,提升模型在垂直场景的精准度,帮助企业通过AIG

78、C能力进一步释放数据价值,加深护城河。在这一场景中,除降本增效的逻辑之外,AI个性化教育、AI问诊等AIGC带来的新功能还能创造新的业务空间,为企业打开成长天花板。改变改变行业格局行业格局的的场景应用场景应用教育教育教育场景沉淀了大量行业垂类数据及用户个人学习数据,行业数据能持续帮助finetune模型,个人数据+AIGC能力提升产品个性化水平,让教育软件不断接近因材施教,提高用户体验和用户粘性。电商电商电商沉淀大量用户购物数据,包括宏观购物趋势及个人购物偏好,通过将场景数据与大模型结合,实现购物过程的个性化定制推荐产品、广告、客服等,可为顾客带来更好的销售体验,并提高商家销售效率。金融金融金

79、融领域积累大量垂类数据,通过将金融数据与AIGC能力结合,能够进一步释放数据价值,放大公司的垂类数据壁垒,从而提高产品的竞争优势。医疗(医疗(AI问诊)问诊)医疗行业专业壁垒高,垂类数据积累丰富,外部玩家难以进入,而本身拥有医疗数据的公司结合AIGC能力,可迅速建立专业壁垒,将AIGC能力应用于辅助诊疗、AI问诊、AI影像判读等场景,形成竞争优势。-38-2.4.2 2.4.2 AIGC+AIGC+教育:多邻国教育:多邻国AIGCAIGC实现在线个性化交互式教学实现在线个性化交互式教学教育场景为另一个性化需求旺盛的场景教育场景为另一个性化需求旺盛的场景,AIGC帮助教育类应用实现帮助教育类应用

80、实现1V1个性化定制交互式教学个性化定制交互式教学,让教育软件效让教育软件效果不断接近果不断接近“因材施教因材施教”,提升教学质量和用户体验提升教学质量和用户体验。多邻国新产品接入多邻国新产品接入GPT-4,帮助使用者与帮助使用者与AI互动学习互动学习。2023年3月16日,多邻国推出与GPT-4合作的新产品Duolingo Max,包含“解释我的回答”和“角色扮演”两大新功能,给用户带来个性化定制的交互式学习体验,并进一步提升多邻国在个性化定制方面的产品竞争力。目前,Duolingo Max的订阅费为30美元/月或168美元/年。解释我的回答:解释我的回答:当使用者完成一个练习之后,可以点击

81、“解释我的回答”按钮,进入与猫头鹰Duo的聊天,获得关于答案的解释,并可以要求举例或进一步说明。角色扮演:角色扮演:当使用者想要练习真实的场景对话时,点击“角色扮演”按钮,系统会生成一个虚拟对话者和场景,例如练习在咖啡馆或机场等地方进行,虚拟对话者可以和使用者进行多轮对话互动。最后,使用者还能得到关于他们写作技巧的反馈,并得到一些鼓励。资料来源:多邻国Blog、招商证券“解释我的回答”功能界面示意“解释我的回答”功能界面示意“角色扮演”功能界面示意“角色扮演”功能界面示意-39-2.4.2 2.4.2 AIGC+AIGC+教育:教育:科大讯飞科大讯飞AIGCAIGC助力实现因材施教助力实现因材

82、施教资料来源:科大讯飞公众号、科大讯飞星火大模型发布会、招商证券讯飞星火大模型能力帮助学习机产品实现作文精批讯飞星火大模型能力帮助学习机产品实现作文精批和英语口语自由对话练习和英语口语自由对话练习,进一步实现个性化定制进一步实现个性化定制的因材施教体验的因材施教体验。结合星火大模型后,讯飞学习机实现语文作文高级批改,能识别错别字、语句不通,及根据作文要求评价内容,快速完成普通教师30分钟的批改量;英文作文纠正拼写错误、词汇用法和句型结构;并提供AI开放式英文对话练习功能星火大模型星火大模型+学习机实现英语作文精批学习机实现英语作文精批星火大模型星火大模型+学习机实现语文作文精批学习机实现语文作

83、文精批星火大模型实现星火大模型实现AI开放式英语口语练习开放式英语口语练习-40-2.4.2 2.4.2 AIGC+AIGC+医疗:应用场景覆盖药物开发与辅助诊疗多个环节医疗:应用场景覆盖药物开发与辅助诊疗多个环节资料来源:清华大学AIGC发展研究、招商证券案例:案例:文心 生物计算大模型+索智生物/立德百克、盘古医学大模型+微芯生物、BullFrog AI的 bfLEAP 等关关怀怀陪陪伴伴诊后环节诊后环节诊诊断断治治疗疗辅助诊断辅助诊断病例报告生成病例报告生成治疗方案生成治疗方案生成影像读片影像读片药药物物研研发发药物发现药物发现临床研究临床研究案例:案例:医联medGPT、卫宁健康win

84、-GPT、文心大模型+GBI打造GBIbot、微软+Nuance自动化病例等;药物销售药物销售蛋白质结构预测、药物分子发现等生成式AI可被用于生成新的化合物结构,以尝试探索未知的化学空间模拟仿真和营销内容创作;智能药物问答等AI问诊、AI辅助诊断等自动生成病历文书缩短数据标注和分析时间,提升影像精细程度自动生成手术或治疗方案等医生端完成随访等服务性工作;医疗文书撰写、资料录入等行政性工作;病例数据统计分析等。病患端实现自动生成个性化诊后管理计划、自动执行诊后管理计划、全天候应答咨询保障等。模模型型层层通用大模型通用大模型垂直行业大模型垂直行业大模型医疗垂类数据预训练GPT-2谷歌PaLM文心大

85、模型ERNIE-Health讯飞星火大模型盘古大模型GPT-4等微软BioGPT(larger版参数15亿,PubMedQA 准确率81%)MedPaLM(1.0 USMLE准确率67.2%;2.0准确率85.4%)ERNIE-Health/文心 生物计算大模型讯飞医疗专业大模型盘古医学大模型案例:案例:智云健康(9955.HK)慢病管理领域大型语言模型CIouDPT等AI在药品研发在药品研发、诊断治疗等领域应用场景多元诊断治疗等领域应用场景多元,可以辅助临床诊断和早期筛查可以辅助临床诊断和早期筛查、缩短药物研发周期缩短药物研发周期、赋能院内信赋能院内信息化等息化等。此外此外,医疗行业专业壁垒

86、高医疗行业专业壁垒高、垂类数据积累丰富垂类数据积累丰富,是是AI落地的极佳场景落地的极佳场景。-41-2.4.2 2.4.2 AIGC+AIGC+金融:金融:BloombergGPTBloombergGPT金融金融GPTGPT加速落地,垂类数据优势凸显加速落地,垂类数据优势凸显彭博用英文财务文件中提取的数据集训练了拥有500亿参数的语言模型BloombergGPT,该模型支持金融行业内的各类任务,在执行金融任务上的表现远超过同规模现有模型,在通用场景上的表现也与现有模型相当。BloombergGPT将帮助彭博改进现有金融NLP任务,如市场情绪分析、命名实体识别、新闻分类和问答等。此外,Bloo

87、mbergGPT还将通过调用整合彭博终端上大量可用数据从而更好地为客户提供数据价值。Bloomberg以大量金融数据为核心优势以大量金融数据为核心优势,垂类数据积累价值凸显垂类数据积累价值凸显。Bloomberg根据公司收集的金融材料,创建了一个由英文财务文件组成的包含3630亿token的综合数据集,再结合3450token的公共数据集,创建了一个拥有超过7000亿个token的大型训练语料库。因此我们认为,BloombergGPT之所以能在金融领域应用表现远超其他产品之所以能在金融领域应用表现远超其他产品,本质是其拥有的大量优质数据储备本质是其拥有的大量优质数据储备,结合大模型能力结合大模

88、型能力,可以被可以被AIGC充分赋能充分赋能。资料来源:Bloomberg官网、招商证券BloombergGPT 在金融领域表现超过同规模现有模型在金融领域表现超过同规模现有模型-42-2.4.2 2.4.2 AIGC+AIGC+金融:同花顺金融:同花顺拥有拥有B B端垂类数据优势,迎来量价齐升契机端垂类数据优势,迎来量价齐升契机公司将公司将AI相关成果运用到金融信息产品和服务中相关成果运用到金融信息产品和服务中,重点打造了重点打造了i问财和问财和AI开放平台两大落地场景开放平台两大落地场景。i问财:问财:具备多轮对话能力,可以为投资者提供智能选股诊股、选基诊基、资产配置、理财知识百科等理财助

89、理、理财投顾服务。AI开放平台:开放平台:面向客户提供智能客服机器人、智能会议转写、智能投顾、金融文档审核系统等40余项人工智能产品及服务,应用于证券、基金、银行、运营商、科研院所、政府部门等多个行业。拥有垂类专业数据壁垒拥有垂类专业数据壁垒,迎来量价齐升契机迎来量价齐升契机。截至22年底,同花顺金融服务网累计注册用户约6.14亿人,每日使用同花顺网上行情免费客户端的人数平均约为1463万人,每周活跃用户数约为1942万人。公司坐拥千万级别的日活用户,积累了各类交易品种的基本资料、财务信息、高频数据等垂直专业数据,具有垂直领域数据积累和技术优势。随着后续大模型与AI进一步赋能导流,公司将迎来量

90、(用户数&付费率)价(ARPU)齐升的契机。资料来源:公司公告、同花顺公众号、同花顺官网、招商证券i问财:智能投顾问答机器人问财:智能投顾问答机器人AI开放平台:覆盖全行业的开放平台:覆盖全行业的AI解决方案解决方案-43-2.4.2 2.4.2 AIGC+AIGC+电商:电商:ShopifyShopify多环节赋能电商多环节赋能电商电商场景不仅拥有标准内容生成及数据洞察的需求电商场景不仅拥有标准内容生成及数据洞察的需求,顾客所需要的个性化推荐顾客所需要的个性化推荐、个性化广告个性化广告、个性化客服等需个性化客服等需求更为求更为AIGC应用留下了广阔空间应用留下了广阔空间,可在减轻商家工作量的

91、同时为顾客带来更好的销售体验可在减轻商家工作量的同时为顾客带来更好的销售体验,从而提高销售效率从而提高销售效率。2023年3月1日,Shopify率先接入ChatGPT的API接口,ChatGPT在Shopify中应用场景广泛,可以用于聊天机器可以用于聊天机器人人、推荐系统推荐系统、广告内容生成等多环节中广告内容生成等多环节中,从而改善顾客购物体验从而改善顾客购物体验,并帮助商家提高销售效率并帮助商家提高销售效率:聊天机器人聊天机器人:为客户提供咨询服务,对商品进行描述,为商家节省互动时间,帮助客户改善购物体验,优化互动流程同时提高转化率。个性化推荐个性化推荐:根据客户输入的历史查询内容,实现

92、个性化定制推荐,提高购物体验。广告内容生成广告内容生成:帮助商家生成促销电子邮件、广告和社交媒体帖子等营销内容,提升营销效率。平台商品评论数据分析平台商品评论数据分析:帮助商家解析商品评论,将数据归档分类,给商家优化商品提供建议。资料来源:Shopify官网、招商证券ChatGPT帮助分析客户评价(可同时应用于帮助分析客户评价(可同时应用于Shopify及及Amazon)AI自动生成产品简介自动生成产品简介-44-2.4.3 2.4.3 海外一级海外一级AIGCAIGC代表应用:通用工具类发展较快代表应用:通用工具类发展较快资料来源:界面、36氪、腾讯新闻、第一财经、量子位、招商证券文本文本图

93、像图像其它其它视频视频市场营销及销售市场营销及销售聊天机器人聊天机器人RPA垂直行业应用垂直行业应用10亿美元(2023)A轮融资2100万美元(2023)10亿美元(2023)15亿美元(2023)新一轮融资估值可能达到10亿美元(2023)10亿美元(2022)4000万美元(2022)15亿美元(2022)首轮融资1000万美元(2022)ARR突破1000万美元(2022)21亿美元(2021)知识管理知识管理10亿美元(2022)1.1亿美元(2022)写作写作AI21 Labs估值6.64亿美元(2022)代码代码Replit估值11.6亿美元(2023)融资1550万美元(202

94、2)音视频音视频5.5亿美元(2022)开源社区开源社区20亿美元(2022)103亿美元(2021)暂无估值信息-45-2.4.3 2.4.3 国内一级国内一级AIGCAIGC应用:雨后春笋般涌现应用:雨后春笋般涌现应用层应用层数字人数字人/元宇宙元宇宙3D游戏游戏估值达10亿美元获千万元天使轮融资获1.2亿美元A与A+轮融资估值上亿美元,获数千万美元B轮融资获数百万美元pre-A轮融资诗云科技深氧科技Pre-A轮融资金融未公布,获数千万元天使+轮融资估值超10亿美元,获数亿人民币C轮融资获3亿元A轮融资图像图像获近千万美元A轮融资估值达100亿元,获13.6亿元D轮融资估值超10亿美元,获

95、数千万美元D轮融资获800万美元A轮融资获数千万元天使轮融资获数千万元融资文本文本获1.5亿元A轮融资获数千万元pre-A轮融资秘塔科技估值1亿美元估值5亿元,获近亿元天使轮融资心识宇宙估值超10亿美元,获1.8亿美元D轮融资获超亿元B2轮融资获千万元pre-A轮融资获近千万元A+轮融资估值20亿美元,获10亿元A+轮融资语音语音视频视频获数千万元天使轮融资右脑科技资料来源:界面、36氪、腾讯新闻、第一财经、量子位、招商证券-46-目录目录 OpenAIOpenAI引领引领AIAI产业变革,大模型百花齐放产业变革,大模型百花齐放 AIGCAIGC风靡一二级市场,标的选择大浪淘沙风靡一二级市场,

96、标的选择大浪淘沙 风险防微杜渐,监管与发展同行风险防微杜渐,监管与发展同行 AIGCAIGC潜在的风险潜在的风险 国内外大模型的监管国内外大模型的监管 OpenAIOpenAI的应对之策的应对之策 投资建议投资建议-47-数据安全风险数据安全风险 AIGC将带来数据安全、个人信息保护等方面的风险,可能造成信息滥用和泄露。AIGC可能利用个人影像和信息进行虚假宣传和欺骗。社会信任风险社会信任风险 AIGC可能被用于制造虚假信息误导公众。AIGC技术可能被恶意人士用于开发新型网络攻击、恶意软件和病毒。AIGC技术可能增加电信诈骗等犯罪手段的甄别难度。知识产权风险知识产权风险 模型训练过程中可能使用

97、未经许可的原创作品,导致侵权。AIGC存在使用或复制原创作品的风险。开发者对于开源模型缺乏掌控力,易引发争议。伦理风险伦理风险 AIGC可能包含性别、种族、社会地位等方面的歧视,导致社会不平等加剧。随着AIGC技术的日益强大,AI服务目的难以判断、AI自我意识觉醒等伦理风险持续增加。资料来源:清华大学AIGC发展研究、招商证券随着随着AIGC应用的持续发展,其带来的潜在安全风险也不断升级。应用的持续发展,其带来的潜在安全风险也不断升级。具体包括AIGC技术将带来的个人隐私泄露等数据安全风险,AIGC生成虚假内容带来的社会信任风险,模型训练数据及生成内容中的知识产权风险,以及随着AIGC技术发展

98、持续增强的伦理风险等。3.1 AIGC3.1 AIGC的潜在安全风险的潜在安全风险-48-目前目前,海外对生成式海外对生成式AI监管尚无明确政策落地监管尚无明确政策落地,美国美国、欧盟等为代表的地区正在积极推进相关的监管政策制定欧盟等为代表的地区正在积极推进相关的监管政策制定,核心围绕输核心围绕输出内容价值观出内容价值观、输入数据与输出内容的版权问题输入数据与输出内容的版权问题、个人隐私保护等方面个人隐私保护等方面。3.2.1 3.2.1 海外大模型监管海外大模型监管资料来源:观察者网、华尔街见闻、新浪财经、凤凰财经、36氪、澎湃新闻、招商证券地区地区监管政策监管政策欧盟针对ChatGPT等生

99、成式AI设立专门监管制度,要求像ChatGPT这样的生成基础模型必须遵守额外的透明度要求,比如披露内容是由披露内容是由AI生成的生成的,设计模型以防止其生成非法内容设计模型以防止其生成非法内容,以及发布用于训练的受版权保护数据的摘要等发布用于训练的受版权保护数据的摘要等。加拿大4月4日,OPC(隐私专员办公室)宣布将对OpenAI展开调查,涉及“OpenAI未经同意收集、使用和披露个人信息”的指控。美国5月4日,白宫与谷歌、微软、OpenAI、Anthropic的CEO会面,讨论其在确保AI产品安全和保护美国公民隐私方面的基本责任;同时,政府表示其收到了包括Anthropic、谷歌、Huggi

100、ng Face、微软、NVIDIA、OpenAI和 Stability AI在内的公司将参与AI系统的公开评估的承诺。4月11日,美国商务部就相关的问责措施正式公开征求意见,包括具有潜在风险的新型AI模型在发布前是否应该进行核准认证程序等。意大利4月12日,意大利个人数据保护局围绕数据安全问题向OpenAI提出了一系列要求,要求其公开ChatGPT的数据处理逻辑、对用户年龄进行筛查、明确数据主体拥有的权利等。西班牙4月13日,西班牙国家数据保护局发表声明,因ChatGPT“可能不符合通用数据保护条例规范”而对OpenAI启动了初步调查程序,称其“可能对个人权利产生重大影响”,但影响是全球范围的

101、,因此至少需要“在欧洲层面采取统一和协调的行动”。印度5月19日,印度政府称正在考虑对人工智能制定监管框架,包括与算法偏差和版权有关的领域。除各国政府外除各国政府外,大型企业针对大模型数据泄露等风险大型企业针对大模型数据泄露等风险,也开始在企业内部提出对也开始在企业内部提出对chatGPT大模型禁用等情况大模型禁用等情况。企业企业事件事件苹果5月19日,苹果公司已经限制使用ChatGPT和其他外部AI工具,公司担心员工使用这类程序可能会泄露机密数据,此外要求不要使用微软Copilot,因Copilot可以自动编写软件代码。三星3月,三星电子引入聊天机器人ChatGPT不到20天,便曝出机密资料

102、外泄,如半导体设备测量数据、产品良率等内容,随后集团便发布了ChatGPT使用禁令。-49-2023年年4月月11日日,国家网信办发布国家网信办发布生成式人工智能服务管理办法生成式人工智能服务管理办法(征求意见稿征求意见稿),重点对生成式重点对生成式AI的生成内容的生成内容价值观统一价值观统一、模型生成过程中的价值观统一模型生成过程中的价值观统一、知识产权保护知识产权保护、生成内容真实性生成内容真实性、信息保护等几方面做了重点明确信息保护等几方面做了重点明确。3.2.2 3.2.2 国内大模型监管国内大模型监管资料来源:网信办、招商证券 应当体现社会主义核心价值观,不得含有颠覆国家政权、推翻社

103、会主义制度,煽动分裂国家、破坏国家统一,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情信息,虚假信息,以及可能扰乱经济秩序和社会秩序的内容。生成内容价值观统一 在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取措施防止出现种族、民族、信仰、国别、地域、性别、年龄、职业等歧视。模型生成价值观统一 尊重知识产权、商业道德,不得利用算法、数据、平台等优势实施不公平竞争。知识产权保护 利用生成式人工智能生成的内容应当真实准确,采取措施防止生成虚假信息。生成内容真实性 防止伤害他人身心健康,损害肖像权、名誉权和个人隐私,侵犯知识产权。禁止非法获取、披露、利用个人信息和隐私、

104、商业秘密。信息保护-50-3.3 OpenAI3.3 OpenAI的安全保障手段的安全保障手段资料来源:OpenAI官网、GPT-4 Technical Report、招商证券措施措施具体方法具体方法严格测试严格测试在发布任何新系统之前,OpenAI都进行严格的测试,并征求外部专家的反馈,使用诸如RLHF等技术改进模型行为,并构建广泛的安全监控系统。例如GPT-4在公开发布前进行了长达 6 个月的测试。尊重隐私尊重隐私剔除训练数据集中的个人信息,不利用训练数据来销售服务或广告或建立个人档案提高事实提高事实准确性准确性避免大模型给出错误回复,与GPT-3.5相比,GPT-4生成事实内容的可能性提

105、高了40%保护儿童保护儿童设置使用年龄限制,不允许技术用于生成仇恨、骚扰、暴力或成人等内容,与GPT-3.5相比,GPT-4响应不允许内容的可能性减少了82%在实际使用中持续提高保障措施,并对在实际使用中持续提高保障措施,并对AI安全问题进行安全问题进行持续研究和参与持续研究和参与从大模型厂商角度,以从大模型厂商角度,以OpenAI为例,其通过专家对抗性测试、奖励模型等技术手段,实现在大模型训练、使用为例,其通过专家对抗性测试、奖励模型等技术手段,实现在大模型训练、使用及后续研究阶段加强对安全问题的关注,来避免及后续研究阶段加强对安全问题的关注,来避免AIGC可能带来的安全隐患。可能带来的安全

106、隐患。技术手段技术手段技术技术具体方法具体方法通过领域专通过领域专家进行对抗家进行对抗性测试性测试为了提高GPT-4在某些专业领域上的安全性,训练团队组织了50多位来自长期从事AI生成一致性、网络安全、生物风险和国际安全等领域的专家来对模型进行对抗性测试基于规则的基于规则的奖励模型奖励模型RBRMs训练团队为GPT-4加入了一组额外的安全相关的RLHF训练prompt,还提出了一种基于安全规则的奖励模型(rule-based reward models,RBRMs),奖励GPT-4拒绝生成有害请求的行为,相反也可以奖励GPT-4不拒绝生成安全性可靠的内容的行为。细粒度个性细粒度个性化的风险信化

107、的风险信息响应息响应对于一些风险性较低的问题情景中,应该允许模型响应,并且可以根据实际情况生成细粒度的健康建议实现效果实现效果-51-目录目录 OpenAIOpenAI引领引领AIAI产业变革,大模型百花齐放产业变革,大模型百花齐放 AIGCAIGC风靡一二级市场,标的选择大浪淘沙风靡一二级市场,标的选择大浪淘沙 风险防微杜渐,监管与发展同行风险防微杜渐,监管与发展同行 投资建议投资建议-52-投资建议投资建议本篇报告系统地解析了本篇报告系统地解析了AIGC产业链的投资机会产业链的投资机会,结合海内外发展情况对每个环节甄选标的的要素进行了思考总结结合海内外发展情况对每个环节甄选标的的要素进行了

108、思考总结,除了二级市场标的除了二级市场标的外外,我们也对一些一级市场初创公司进行了梳理我们也对一些一级市场初创公司进行了梳理,以期构建以期构建AIGC产业一二级市场的投资图谱产业一二级市场的投资图谱。大模型大模型的竞争要素是什么的竞争要素是什么?我们从思考AIGC带来的技术变革意义,以及为什么是OpenAI引领此次变革出发,对比当前国内外通用大模型,总结了几个主要的竞争要素:模型规模、训练效率、使用便利性、商业模式等,目前GPT-4多方面领先;国内的大模型目前在使用效果上和GPT-4仍有差距,算力资源是额外需要考虑的一个竞争要素,当然,专业的AI人才是必备的基础条件。算力基础设施是算力基础设施

109、是AIGC的的“卖铲人卖铲人”。我们把AIGC产业分为上游的算力及数据服务,中游的MaaS,及下游的应用。在AIGC系列报告(二)中,我们详细测算了大模型训练及推理需要多少算力,英伟达在全球AI算力环节竞争格局最为突出。数据是大模型的“饲料”,数据工程不只是模型finetune和对齐需要的高质量标注数据集,也包括增强模型“记忆”能力,提高计算效率等相关的技术创新。MaaS垂直场景化赋能百业垂直场景化赋能百业。通用大模型是高技术、高资本壁垒的,我们预计未来大概率会头部集中,但垂直行业的场景化开发需求可能派生出丰富多样的垂直小/专模型。大模型的轻量化赋能IOT端也是一个重要的趋势,如具身智能将跨界

110、变革带来众多行业机遇。应用是被赋能还是被颠覆应用是被赋能还是被颠覆?GPT的生态化意味着重新定义人机交互界面/应用入口的重新洗牌,什么样的应用能不被颠覆而是有AIGC+的商业前景?我们概括为两类:一是提升生产工作效率的通用工具,应用场景对生成结果准确度要求不高,AIGC对内容供给速度有实质性的提升,可将人从基础/重复性工作中解放;二是可能改变行业格局的场景应用,我们也概括为“有场景的C端,有数据的B端”,即要求个性化生成和高频时效交互的C端场景,和行业差异化、专业化要求高的垂直B端,通过垂直长尾数据来建立竞争壁垒。投资建议:投资建议:全球AIGC产业蓬勃发展,当前算力和部分应用环节已进入实质落

111、地阶段,我们建议聚焦国内外有“落地”的AIGC产业链环节,优选竞争格局突出的标的,应用侧重点推荐金山办公、科大讯飞、彩讯股份、同花顺,算力侧重点推荐寒武纪、海光信息、中科曙光、浪潮信息,数据服务重点关注星环科技;同时AIGC的发展也伴随着数据安全等风险问题,监管必与发展同行,监管服务重点关注美亚柏科。风险提示:风险提示:AI应用研发进度不及预期;AI芯片供应链风险以及自研不及预期风险;AI相关上市公司短期涨幅过大风险。-53-风险提示风险提示 技术发展不及预期:技术发展不及预期:若底层大语言模型相关技术发展不及预期,可能影响上层应用发展。AI应用研发进度不及预期应用研发进度不及预期:若相关公司

112、AI应用研发进度不及预期,可能影响相关产品落地,从而影响公司市场竞争力及业绩增速。宏观环境变化风险宏观环境变化风险:AI相关技术及应用研发成本较高,若宏观环境出现变化导致相关公司经营情况出现波动,可能影响相关公司研发投入。AIAI服务器供应链风险:服务器供应链风险:北美时间3月2日,美国商务部发布公告,将28个中国实体列入实体清单,其中包括浪潮集团。如果未来我国AI服务器相关企业无法向美国购买核心零部件则对公司未来业务发展有较大不利影响。AIAI芯片研发不及预期风险:芯片研发不及预期风险:目前我国AI芯片与英伟达仍存在较大差距,若我国AI芯片研发进度不及预期,则对我国AIGC产业发展有较大不利

113、影响。AIAI相关上市公司短期涨幅过大风险:相关上市公司短期涨幅过大风险:目前AI相关上市公司短期涨幅较快,股价波动较大。-54-参考报告参考报告1、AIGC应用:应用:C端赋能场景,端赋能场景,B端数据筑基端数据筑基AIGC系列报告(三)系列报告(三)2023-04-062、算力算力:AIGC时代的“卖铲人”时代的“卖铲人”AIGC系列报告(二)系列报告(二)2023-04-023、微软引领微软引领AI+办公应用史诗级革命办公应用史诗级革命AI+系列报告三系列报告三2023-03-184、ChatGPT快速流行,重构快速流行,重构AI商业模式商业模式AIGC系列报告(一)系列报告(一)202

114、3-02-08-55-负责本研究报告的每一位证券分析师,在此申明,本报告清晰、准确地反映了分析师本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与,未来也将不会与本报告中的具体推荐或观点直接或间接相关。团队介绍:团队介绍:刘玉萍:刘玉萍:计算机行业首席分析师,北京大学汇丰商学院金融学硕士。2017年加入招商证券研究所,2020年入围水晶球最佳分析师,2022年水晶球最佳分析师第一名。周翔宇:周翔宇:计算机行业分析师,三年中小盘研究经历,获得2016/17年新财富中小市值团队第五、第二名。孟林:孟林:计算机行业分析师,中科院信息工程研究所硕士,两年四大行技术部工作经验,两年一级市场投资经验,

115、2020年加入招商证券。石恺:石恺:计算机行业研究助理,康奈尔大学电子与计算机工程、香港科技大学金融数学双硕士,华盛顿大学电子工程学士,2021年加入招商证券。分析师承诺分析师承诺-56-报告中所涉及的投资评级采用相对评级体系,基于报告发布日后6-12个月内公司股价(或行业指数)相对同期当地市场基准指数的市场表现预期。其中,A股市场以沪深300指数为基准;香港市场以恒生指数为基准;美国市场以标普500指数为基准。具体标准如下:股票股票评级评级强烈推荐:预期公司股价涨幅超越基准指数20%以上增持:预期公司股价涨幅超越基准指数5-20%之间中性:预期公司股价变动幅度相对基准指数介于5%之间减持:预

116、期公司股价表现弱于基准指数5%以上行业评级行业评级推荐:行业基本面向好,预期行业指数超越基准指数中性:行业基本面稳定,预期行业指数跟随基准指数回避:行业基本面转弱,预期行业指数弱于基准指数评级说明评级说明-57-本报告由招商证券股份有限公司(以下简称“本公司”)编制。本公司具有中国证监会许可的证券投资咨询业务资格。本报告基于合法取得的信息,但本公司对这些信息的准确性和完整性不作任何保证。本报告所包含的分析基于各种假设,不同假设可能导致分析结果出现重大不同。报告中的内容和意见仅供参考,并不构成对所述证券买卖的出价,在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。除法律或规则规定必须承担的责任外,本公司及其雇员不对使用本报告及其内容所引发的任何直接或间接损失负任何责任。本公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行业务服务。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突。本报告版权归本公司所有。本公司保留所有权利。未经本公司事先书面许可,任何机构和个人均不得以任何形式翻版、复制、引用或转载,否则,本公司将保留随时追究其法律责任的权利。重要声明重要声明-58-感谢您宝贵的时间Thank You

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计算机行业AIGC系列报告(四):聚焦落地AIGC赛道披沙简金-230526(58页).pdf)为本站 (好好学习) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部