《计算机行业:多模态大模型方向确定从通用到垂直场景智能化升级的统一和差异-230609(58页).pdf》由会员分享,可在线阅读,更多相关《计算机行业:多模态大模型方向确定从通用到垂直场景智能化升级的统一和差异-230609(58页).pdf(58页珍藏版)》请在三个皮匠报告上搜索。
1、 识别风险,发现价值 请务必阅读末页的免责声明 1 1/5858 Table_Page 深度分析|计算机 证券研究报告 计算机行业计算机行业 多模态大模型多模态大模型方向确定方向确定,从通用到从通用到垂直垂直场景场景智能化升级的统一和差异智能化升级的统一和差异 核心观点核心观点:多模态多模态大大模型是模型是 AI 大模型的发展方向,也是大模型的发展方向,也是 AI 厂商竞争的关键领域。厂商竞争的关键领域。相较于自然语言类模型,多模态模型在训练阶段融合了文字、图像、三维物体等多维度数据的训练,可交互的信息类型较多,通用性得到了大大增强,可应用的场景有较大拓展。我们判断,多模态大模型的技术迭代、产
2、品设计和商业模式的探索将成为下一阶段各厂商竞争的关键。多模态大模型融合了多种类型的数据,技术壁垒高、消耗算力大。多模态大模型融合了多种类型的数据,技术壁垒高、消耗算力大。多模态大模型给 AI 行业带来的变革如下:(1)算法方面:多模态大模型需要对多种类型数据进行编码、配对、拟合,训练过程更加复杂、技术壁垒更高。(2)数据方面:多模态大模型的训练数据量庞大、数据类型多样,需要大数据产品的支持。(3)算力方面:多模态大模型需要处理的非结构化数据较多,在训练和推理阶段消耗的成本更大,所需的算力支持更高。多模态大模型多模态大模型的的开放推动各垂直应用领域智能化升级加速。开放推动各垂直应用领域智能化升级
3、加速。在不同场景中,垂直领域厂商通过调用多模态大模型的 API 进行二次开发,可实现既有应用的快速智能化升级。多模态大模型的开放将大大降低各垂直领域厂商开发 AI 应用的门槛,各场景智能化升级有望呈现出加速和扩散的趋势。在通用行政办公、软件开发、创意设计、金融、医疗等方面已经展现出较好的应用前景。受限于数据安全、技术壁垒以及监管要求,各行业智能化升级的节奏受限于数据安全、技术壁垒以及监管要求,各行业智能化升级的节奏和实现方式有所区别。和实现方式有所区别。消费服务和通用行政办公等 To C 领域由于数据相对容易获取,应用壁垒偏低和行业特征较弱等属性,使得相应领域在接入通用 AI 大模型后的应用产
4、品化落地较快,普适性较高。下游应用相应也面临较大的同质化挑战。而医疗、金融、工业等 To B 领域的性能功能壁垒、数据敏感和私密性以及法律合规性上的高要求导致 AI 功能的开发和应用都呈现私域封闭的特点。相关领域更多借鉴通用 AI 大模型的技术原理,结合自身专业数据积累,打造属于企业内部的模型,相应商业化节奏略慢、行业特征较为明显。投资建议投资建议:建议关注(1)AI 基础技术类公司:寒武纪、星环科技;(2)AI 行业应用受益公司:金山办公、石基信息、同花顺、卫宁健康、金蝶国际、科大讯飞、万兴科技。风险提示风险提示:技术处于发展早期,尚未形成成熟的商业化落地模式;技术开源导致行业竞争加剧的风险
5、;AI 生成内容存在有害和敏感信息可能性的风险;AI 芯片存在供应链不稳定的风险。行业评级行业评级 买入买入 前次评级 买入 报告日期 2023-06-09 相对市场表现相对市场表现 分析师:分析师:刘雪峰 SAC 执证号:S0260514030002 SFC CE No.BNX004 分析师:分析师:周源 SAC 执证号:S0260523040001 请注意,周源并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管活动。相关研究:相关研究:计算机行业:算力资源整合优化新进展-全国一体化算力算网调度平台发布 2023-06-0
6、6 计算机行业:部分领域业绩改善可期待、风险偏好和行业比较对行情影响较大 2023-06-04 计算机行业:回调近尾声,后续结构性机会可分两类 2023-05-28 -16%-3%10%23%36%49%06/2208/2210/2212/2202/2304/23计算机沪深300 识别风险,发现价值 请务必阅读末页的免责声明 2 2/5858 Table_PageText 深度分析|计算机 重点公司估值和财务分析表重点公司估值和财务分析表 股票简称股票简称 股票代码股票代码 货币货币 最新最新 最近最近 评级评级 合理价值合理价值 EPS(元元)PE(x)EV/EBITDA(x)ROE(%)收
7、盘价收盘价 报告日期报告日期(元(元/股)股)2023E 2024E 2023E 2024E 2023E 2024E 2023E 2024E 寒武纪-U 688256.SH CNY 221.01 2023/05/02 增持 251.75-1.70-1.00-15.90-10.40 星环科技-U 688031.SH CNY 126.28 2023/04/27 买入 134.35-0.90 0.06-6.70 0.40 金山办公 688111.SH CNY 448.89 2023/06/06 增持 495.08 3.20 4.12 140.28 108.95 148.94 111.98 14.50
8、 15.70 石基信息 002153.SZ CNY 18.89 2023/05/21 买入 27.75-0.05 0.08-236.12 230.57 99.89-1.40 2.20 同花顺 300033.SZ CNY 166.40 2023/04/25 买入 187.48 4.36 5.29 38.17 31.46 36.06 30.49 24.40 22.90 卫宁健康 300253.SZ CNY 10.11 2023/05/17 买入 15.87 0.20 0.31 50.55 32.61 31.51 21.82 7.60 10.60 金蝶国际 00268.HK HKD 11.04 20
9、23/03/16 买入 25.67-0.06-0.01-173.65 88.63-3.00-0.30 科大讯飞 002230.SZ CNY 64.21 2023/05/07 增持 70.04 0.78 1.04 82.32 61.74 55.11 46.71 9.90 11.70 数据来源:Wind、广发证券发展研究中心 备注:表中估值指标按照最新收盘价计算 识别风险,发现价值 请务必阅读末页的免责声明 3 3/5858 Table_PageText 深度分析|计算机 目录索引目录索引 投资要点:.7 一、多模态大模型是 AI 大模型的发展方向.9(一)算法方面,多模态大模型技术壁垒更高,可拓
10、展性更强.9(二)数据层面,多模态大模型需要处理的数据量庞大、数据类型多样.15(三)算力层面,海量和多源的数据处理需要更大的算力支持.18 二、从通用到垂直场景,智能化升级的路径一致但方式各异.21(一)生成式 AI 技术驱动通用行政办公类软件行业快速变革.22(二)AI 大模型有效提高程序开发效率,软件开发行业开启变革.30(三)多模态大模型替代人工生成创意内容,创意设计软件迎智能化升级.33 三、专业垂直领域,AI 大模型的应用对各行业影响各异.43(一)从 OPENAI 的插件系统拓展节奏看行业应用的变化趋势.43(二)AI+金融:由客服向投研领域逐步拓展.51(三)AI+医疗:AI
11、大模型结合医疗专业领域数据辅助医疗工作.53 四、风险提示.56 识别风险,发现价值 请务必阅读末页的免责声明 4 4/5858 Table_PageText 深度分析|计算机 图表索引图表索引 图 1:自然语言类 AI 大模型 BERT 的训练原理.10 图 2:多模态大模型 CLIP 的训练和推理原理.10 图 3:多模态模型文字和图像数据对照训练原理.11 图 4:多模态模型多类型数据融合训练原理.11 图 5:PaLM-E 多模态大模型具备的智能化功能.12 图 6:PaLM 2 在多语言任务中的表现.13 图 7:PaLM 2 处理较难逻辑的文本的表现.13 图 8:ImageBin
12、d 多模态大模型的训练数据.14 图 9:ImageBind 多模态大模型具备的智能化功能.14 图 10:百度文心 ERNIE-ViLG2.0 与 DALLE 2 在图文相关性和图像保真度指标的对比.15 图 11:百度文心 ERNIE-ViLG2.0 与 StableDiffusion 在图文相关性和图像保真度指标的对比.15 图 12:分布式大数据平台架构图.16 图 13:非结构化数据转换为向量数据并在 AI 任务中的应用.17 图 14:嵌入了 Copilot 的 PowerPoint 根据用户指令自动生成的演示稿.23 图 15:嵌入了 Copilot 的 Word 根据用户指令自
13、动生成的文字.23 图 16:嵌入了 Copilot 的 Teams 线上会议平台会议纪要自动生成功能展示.23 图 17:嵌入了 Copilot 的 Outlook 在日程安排界面直接接入 Teams 会议系统.23 图 18:嵌入了 DALLE 大模型的 Bing Image Creator 产品文生图功能展示.24 图 19:Edge 浏览器通过对话直接播放视频的功能展示.24 图 20:微软 Dynamic 365 软件功能示意.24 图 21:嵌入了 Copilot 的 Viva Sales 根据 CRM 系统中的数据自动生成邮件内容的界面.25 图 22:嵌入了 Copilot 的
14、 Dynamics 365 Supply Chain Management 识别供应链风险并通知相关人员的界面.25 图 23:WPS AI 正在生成文本界面.26 图 24:WPS AI 生成的文本界面.26 图 25:用户使用新钉钉训练专属助理机器人界面.28 图 26:新钉钉在文档中生成图片的界面.28 图 27:新钉钉生成表情包的界面.28 图 28:新钉钉拍照生成应用的界面.28 图 29:文心千帆生态伙伴签约现场图.29 图 30:GitHub Copilot 节省程序开发时间 55%.30 图 31:2020、2022、2030 年程序开发效率对比.30 图 32:aiXcode
15、r 的相似代码搜索功能界面.31 图 33:GitHub Copilot 帮助开发者生成基础类算法代码.31 图 34:GitHub Code Scanning 的代码审查功能.31 图 35:GitHub Dependabot 自动监视代码漏洞并提供修改意见.31 识别风险,发现价值 请务必阅读末页的免责声明 5 5/5858 Table_PageText 深度分析|计算机 图 36:GitHub Copilot X 中开发者通过语音交互的方式生成代码.32 图 37:GitHub Copilot X 中开发者通过语音交互的方式运行程序.32 图 38:GitHub Copilot 节省程序
16、开发时间 55%.32 图 39:GitHub Copilot 提升开发人员效率及满足感调研数据统计.32 图 40:商汤的商量 SenseChat 代码生成能力展示.33 图 41:aiXcoder 的智能代码多行补全功能展示.33 图 42:生成式 AI 和设计人员创作图画的成本对比.34 图 43:Midjourney 大模型生成的游戏道具图像.34 图 44:Stable Diffusion 大模型的图生图功能.34 图 45:Midjourney 大模型生成的快餐广告.35 图 46:Stable Diffusion 大模型生成的食品广告.35 图 47:嵌入 DALLE 模型的 C
17、ALA 软件服装设计界面.35 图 48:Midjourney 生成的房间内饰装修设计图.35 图 49:在 Discord 界面中使用 Midjourney 的界面.37 图 50:截止 2022 年 5 月 Midjourney 的用户数.37 图 51:Midjourney 的订阅价目表.37 图 52:DALLE 大模型根据提示词生成图片界面.38 图 53:Adobe Firefly 给视频匹配背景音乐.39 图 54:Adobe Firefly 给视频中的人物增加亮度.39 图 55:Photoshop 中通过自然语言指令在图像中自动生成道路标线展示.39 图 56:Photosh
18、op 中通过自然语言指令在图像中生成湖面倒影展示.39 图 57:万兴科技产品矩阵.40 图 58:万兴爱画输入自然语言文字.41 图 59:万兴爱画根据自然语言文字生成图片.41 图 60:万兴爱画上传图片.41 图 61:万兴爱画根据图片生成次元图片.41 图 62:万兴爱画的收费标准.41 图 63:GPT-4 的对话中选择接入的插件界面.43 图 64:GPT-4 的插件商店界面.43 图 65:ChatGPT Plugins 生态系统.50 图 66:BloombergGPT 的介绍原文.51 图 67:多模态技术在医疗领域应用.55 图 68:WinGPT 交互界面.55 表 1:
19、自然语言类模型和多模态模型应用场景对比.9 表 2:OpenAI 推出的多模态大模型.12 表 3:国内多模态大模型对比.14 表 4:识别类 AI 模型、自然语言类大模型和多模态大模型训练数据对比.15 表 5:1 MB 数据对应不同数据类型.18 表 6:OpenAI 开发的 AI 自然语言类大模型的收费标准.18 识别风险,发现价值 请务必阅读末页的免责声明 6 6/5858 Table_PageText 深度分析|计算机 表 7:OpenAI 开发的 DALLE 文生图大模型收费标准.18 表 8:英伟达 AI 芯片对不同 AI 模型推理计算性能对比(单位:每秒推理计算次数).19 表
20、 9:英伟达 A100 和 H100 性能对比.19 表 10:英伟达 A10G 与寒武纪 MLU370-X4 性能对比.20 表 11:英伟达 A100 与华为昇腾 910 性能对比.20 表 12:嵌入了 GPT-4 API 的产品及智能化功能.21 表 13:海外文生图大模型对比.36 表 14:在 Dream Studio 中使用 Stable Diffusion 大模型生成图片的收费标准(单位:美分/张).38 表 15:OpenAI 开发的 DALLE 文生图大模型收费标准.38 表 16:ChatGPT 在 Alpha 测试阶段开放的插件及相关公司业务汇总.44 表 17:GPT
21、-4 在 Beta 测试阶段开放的插件汇总.46 表 18:BloombergGPT 在金融特定任务和通用任务的表现优于其他的.52 表 19:同花顺各类 AI 产品.52 表 20:同花顺对外服务的智能化解决方案.53 识别风险,发现价值 请务必阅读末页的免责声明 7 7/5858 Table_PageText 深度分析|计算机 投资要点投资要点:多模态多模态大大模型是模型是AI大模型的发展方向,也是大模型的发展方向,也是AI厂商竞争的关键领域。厂商竞争的关键领域。多模态大模型可接受文字、图像、语音等多种不同类型数据的输入、处理、分析,并将结果以不同的模态形式对外输出,实现异构模态数据协同推
22、理。在ChatGPT推出之后,谷歌、微软、百度等海内外科技公司纷纷加速了对多模态大模型的研发进度。相较于经过单一的文字类数据训练的自然语言类模型,多模态模型在训练阶段融合了文字、图像、三维物体等多维度数据的训练,可交互的信息类型较多,通用性得到了大大增强,可应用的场景有较大拓展。我们判断,多模态大模型是未来AI大模型的发展方向,其技术迭代、产品设计和商业模式的探索将成为下一阶段各厂商竞争的关键。多模态大模型融合了多种类型的数据,技术壁垒高、消耗算力大。多模态大模型融合了多种类型的数据,技术壁垒高、消耗算力大。多模态大模型给AI行业带来的变革如下:(1)算法方面:与自然语言类大模型相比,多模态大
23、模型需要对多种类型数据进行编码、配对、拟合,训练过程更加复杂、技术壁垒更高。海外的多模态大模型在文字、图像、音频、空间信息等多维度信息的转换和生成上已有较多探索。国内的多模态大模型主要集中于文字和图像信息的转换。(2)数据方面:多模态大模型的训练数据量庞大、数据类型多样,需要大数据产品的支持。大数据产品拥有的海量、异构、多源数据的处理能力,在多模态大模型的训练和推理中有较好的应用前景。在各科技公司对于多模态大模型持续研发投入,以及AI大模型在各行业加速渗透的趋势下,国产大数据产品有望迎来发展机遇,实现快速成长。(3)算力方面:多模态大模型需要处理的非结构化数据较多,相较于自然语言类模型,在训练
24、和推理阶段消耗的成本更大,所需的算力支持更高。随着国产AI芯片与英伟达等海外竞品性能差距逐渐缩小,AI芯片国产替代范围有望扩大。多模态大模型多模态大模型的的开放推动各垂直应用领域智能化升级加速。开放推动各垂直应用领域智能化升级加速。在不同场景中,垂直领域厂商通过调用多模态大模型的API进行二次开发,可实现既有应用的快速智能化升级。多模态大模型的开放将大大降低各垂直领域厂商开发AI应用的门槛,各场景智能化升级有望呈现出加速和扩散的趋势。在通用行政办公、软件开发、创意设计、金融、医疗等方面已经展现出较好的应用前景。受受AI大模型影响大模型影响,各领域智能化升级的节奏和实现方式有所区别各领域智能化升
25、级的节奏和实现方式有所区别。由于各行业在数据安全、技术壁垒以及监管要求方面存在差异性,因此,其受AI大模型影响导致不同行业的智能化升级的节奏和实现方式有所区别。具体而言:(1)在智能化升级节奏方面,To C场景比如通用行政办公、个人创意设计等由于各类通用性数据可获取门槛较低,受监管的要求较低,使得相应领域在接入通用AI大模型后的应用产品化落地较快,普适性较高。而医疗、金融、工业等To B领域专业性较强、安全要求较高,其智能化升级或需要更多的专业领域数据的训练,因 识别风险,发现价值 请务必阅读末页的免责声明 8 8/5858 Table_PageText 深度分析|计算机 此,该类行业受AI大
26、模型的影响后的智能化升级节奏较慢,相应的商业化进程较慢。(2)在智能化的实现方式方面,我们认为,医疗、金融、工业等领域应用场景的高专业性导致通用的AI大模型可赋能进行升级改造的空间较小。其次,在该类行业中的数据敏感性和法律合规性上的高要求导致AI功能的开发和应用都呈现私域封闭的特点。因此在专业程度较高的行业中,各家公司或借鉴通用AI大模型的技术原理,结合自身专业数据积累,针对实际功能需求,打造属于企业内部的小模型。AI大模型预计给在行业私域数据和模型训练有所积累的企业提供了重塑竞争格局的机会。而通用行政办公、个人创意设计等To C场景技术安全要求较低的领域或可直接调用通用AI大模型的API,利
27、用已开放的技术资源,升级既有产品线。总体而言,现阶段仍处于多模态大模型技术商业化落地的早期,产品推广和生态建总体而言,现阶段仍处于多模态大模型技术商业化落地的早期,产品推广和生态建设的重要性高于智能化功能直接变现和产品提价。设的重要性高于智能化功能直接变现和产品提价。在多模态大模型技术一定程度开放的背景下,应用厂商纷纷推出智能化升级的产品,行业进入产品化初中期。下一阶段,探索智能化升级的应用的商业模式将会成为行业格局变化的重点。我们判断,在格局未定的初期阶段,较为合理的商业化落地方式是,应用软件智能化升级、竞争力增强后,吸引更多用户使用,拓展生态合作伙伴,扩大市场份额的方式提升商业化落地规模。
28、后续,若行业进入产品化成熟期,商业化规模收费成为行业趋势,应用厂商具备功能升级后产品提价的基础,彼时才进入产业腾飞的商业爆发期。在行业应用智能化升级的过程中在行业应用智能化升级的过程中,B端应用的高专业性端应用的高专业性、高壁垒高壁垒、数据私域性等特点数据私域性等特点给于应用龙头公司扩大领先优势的机会给于应用龙头公司扩大领先优势的机会。在特定垂直领域,行业龙头往往在技术积累、私域数据、行业客户需求理解以及生态建设方面有相对优势的企业。行业龙头接入多模态大模型后,无论是智能化提升带来的产品化进展,还是客户群体扩大后带来的商业化落地,都较大概率比其他公司带来更多的增量,或推动其领先优势的加速扩大。
29、接下来,行业在进入以产品推广和生态建设为重点的阶段,面向B端应用的龙头公司通过市场份额的提升有望获得更多溢价。投资建议:投资建议:建议关注(1)AI基础技术类公司:寒武纪、星环科技;(2)AI行业应用受益公司:金山办公、石基信息、同花顺、卫宁健康、金蝶国际、科大讯飞、万兴科技。风险提示:风险提示:技术处于发展早期,尚未形成成熟的商业化落地模式;技术开源导致行业竞争加剧的风险;AI生成内容存在版权归属认定不明确的风险;AI芯片存在供应链不稳定的风险。识别风险,发现价值 请务必阅读末页的免责声明 9 9/5858 Table_PageText 深度分析|计算机 一、一、多模态多模态大模型大模型是是
30、 AI 大模型的发展方向大模型的发展方向 多模态多模态大大模型是模型是AI大模型的发展方向大模型的发展方向,也是也是AI厂商竞争的关键领域厂商竞争的关键领域。多模态大模型可接受文字、图像、语音等多种不同类型数据的输入、处理、分析,并将结果以不同的模态形式对外输出,实现异构模态数据协同推理。在ChatGPT推出之后,谷歌、微软、百度等海内外科技公司纷纷加速了对多模态大模型的研发进度。相较于经过单一的文字类数据训练的自然语言类模型,多模态模型在训练阶段融合了文字、图像、三维物体等多维度数据的训练,可交互的信息类型较多,通用性得到了大大增强,可应用的场景有较大拓展。我们判断,多模态大模型的技术迭代、
31、产品设计和商业模式的探索将成为下一阶段各厂商竞争的关键。接下来,我们从算法模型、算力和数据三方面对多模态大模型的技术原理进行深入分析。表表 1:自然语言类模型和多模态模型应用场景对比:自然语言类模型和多模态模型应用场景对比 功能 应用场景 自然语言类模型 人机对话、语法纠正、文本分类、文本匹配、文本生成、序列标注、特征提取、语法纠正、代码解释、程序命令生成、程序语言转化、广告设计、段落创作等 文案写作、邮件撰写、宣传广告生成、软件代码编写、不同语言代码的转译等 多模态模型 人机对话、视觉问答、机器人操作、空间感知 生活助理、仓储物流、服务机器人 数据来源:广发证券发展研究中心 (一)(一)算法
32、方面,多模态大模型技术壁垒更高,算法方面,多模态大模型技术壁垒更高,可拓展性更强可拓展性更强 自然语言类自然语言类大模型的训练是对不同文字信息编解码的过程大模型的训练是对不同文字信息编解码的过程。自然语言类大模型的训练数据类型较为单一、组织方式比较有规律性。在语句的分析中,标点符号、空格是AI天然的可识别分隔符,可简单快速的识别不同语句。其次,在字词的属性(主谓宾)等较为固定的情况下,语句中的语义信息的提取和识别有规律可循。将标点符号、不同属性的字词编码,根据其在文中的作用对编码反复进行排列组合的训练即可以得到自然语言类的大模型。识别风险,发现价值 请务必阅读末页的免责声明 1010/5858
33、 Table_PageText 深度分析|计算机 图图 1:自然语言类自然语言类AI大模型大模型BERT的的训练原理训练原理 数据来源:BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding,广发证券发展研究中心 多模态大模型开发的难度更大,技术壁垒更高。多模态大模型开发的难度更大,技术壁垒更高。与自然语言类大模型相比,多模态大模型需要对多种类型数据进行编码、配对、拟合,训练过程更加复杂。在“文字-图像”的对照训练的过程中,首先通过分别解构文字和图像的内容,将各自内容中的单一元素抽象出来,单
34、独编码;然后再对文字和图像不同编码间建立一一映射的关系,最后得到的“文字-图像”的编码配对组合即是多模态模型的雏形。对图像类数据的编解码难度更大。图像数据是大量像素排列组合而成的,不仅单个像素的固定属性难以确定,其排列组合的方式也无规律可循。总体而言,多模态大模型需要处理的数据类型更多、开发难度更大、技术壁垒更高。图图 2:多模态大:多模态大模型模型CLIP的训练和推理原理的训练和推理原理 *注:虚线以上是训练过程,虚线以下是推理过程 数据来源:Hierarchical Text-Conditional Image Generation with CLIP Latents,广发证券发展研究中心
35、 多模态多模态大大模型的拓展性较好模型的拓展性较好。多模态大模型采用多种类型数据的编码配对拟合的方法训练得到。除了“文字-图像”两种类型的数据可以建立编码配对组合外,我们也可以建立类似“图像-音频-文字”等多种类型数据间的编码配对组合,从而训练出通用性更强、应用场景更丰富的多模态大模型。谷歌在2023年3月发布的Palm-E多模 识别风险,发现价值 请务必阅读末页的免责声明 1111/5858 Table_PageText 深度分析|计算机 态大模型的训练数据不仅包括文字、图像、语音类数据,还包括三维空间状态和感知数据,除了具备一般语言来大模型的能力外,还能执行视觉问答、感知推理、机器操作等复
36、杂的任务。我们认为,多模态大模型可通过增加训练数据类型,打造出交互方式更多、生成内容更丰富以及更加泛化的能力,可拓展的应用场景更加丰富。图图 3:多模态模型文字和图像数据对照训练原理多模态模型文字和图像数据对照训练原理 图图 4:多模态模型多类型数据融合训练原理:多模态模型多类型数据融合训练原理 数据来源:Learning Transferable Visual Models From Natural Language Supervision,广发证券发展研究中心 数据来源:sutd.edu.sg,广发证券发展研究中心 OpenAI已推出多款多模态大模型已推出多款多模态大模型,并且开放了并且开
37、放了API。OpenAI已经开发的多模态大模型包括可识别图像大模型GPT-4、文生图模型DALLE 2、以及语音转文字模型Whisper。近期,以上多模态大模型的API接口陆续开放供程序开放人员调用。在不同场景中,传统软件厂商在既有软件产品上调用多模态大模型的API进行二次开发,可有效提升其产品的智能化水平和用户体验。我们判断,OpenAI的多模态大模型在开放API接口后,其在各场景的渗透有望呈现出加速和扩散的趋势,推动不同应用领域IT产品的智能化升级。GPT4、DALLE 2和Whisper模型的具体介绍如下:(1)GPT-4:2023年3月,OpenAI推出了GPT-4多模态模型并开放了A
38、PI接口,不仅在对话的准确性、语言丰富性以及长文本生成能力上较GPT-3.5有较大提升,还可识别、理解图像类的数据,并根据图像内容与用户进行互动问答。我们认为,相较于ChatGPT自然语言类模型,GPT-4多模态模型与人类可交互的信息类型更多、信息量更大、通用性更强、应用场景更加广阔。(2)DALLE 2:DALLE大模型是OpenAI于2021年1月公布的产品,并于2022年4推出第二代,可根据自然语言的描述创作高质量的图像。DALLE大模型的文生图功能的训练过程是将图像的特征提取后抽象为一组编码,将其与文字的编码建立一一映射的关系。在推理阶段,DALLE大模型可根据用户给的文字提示词,通过
39、自回归算法或扩散算法,推演出图片的编码,将编码重新组合后得到最终的图片。2022年11月,OpenAI将DALLE 2的API开放供第三方调用。(3)Whisper:Whisper大模型是OpenAI于2021年9月推出的产品,可将语音信息转换为文字信息。其可实现多语言、多方言以及嘈杂背景音环境下的语音转换,识 识别风险,发现价值 请务必阅读末页的免责声明 1212/5858 Table_PageText 深度分析|计算机 别和转换的准确率较高。2023年3月1日,OpenAI宣布开放Whisper大模型的API,供程序开放人员调用。表表 2:OpenAI推出的多模态大模型推出的多模态大模型
40、多模态大模型 数据输入 数据输出 API开放时间 GPT-4 图像和文字 文字 2023年3月 DALLE 2 文字 图像 2022年11月 Whisper 语音 文字 2023年3月 数据来源:OpenAI 官网,广发证券发展研究中心 谷歌的谷歌的Palm-E大模型可用于机器操作大模型可用于机器操作。2023年3月,谷歌和柏林工业大学共同发表论文PaLM-E:An Embodied Multimodal Language Model,对其已开发的PaLM-E多模态大模型的训练方法、训练环境及通用化效果进行了详细阐述。拥有的5620亿参数的PaLM-E大模型是在语言类模型PaLM(5400亿参
41、数)和视觉类模型ViT(220亿参数)的基础上开发的。通过在预训练的语言类大模型中嵌入图像、状态、感知等多类型数据,PaLM-E模型不仅具备通用化语言能力,还能执行视觉问答、感知推理、机器操作等复杂的任务。相较于自然语言类AI模型,PaLM-E多模态模型具备的能力得到了很大程度的提升,其功能拓展如下:(1)机器人机器人操作操作:嵌入PaLM-E模型的机器人手臂可以执行人类给出的语音指令。(2)空间感知:空间感知:PaLM-E模型可以识别三维空间的物体并根据人类指令给予实现目标的动作规划。(3)视觉问答:视觉问答:根据图像内容,PaLM-E可以和人类进行自由对话。(4)人机对话:人机对话:PaL
42、M-E可应对较多话题的日常交流。图图 5:PaLM-E多模态大多模态大模型模型具备具备的智能化功能的智能化功能 数据来源:PaLM-E:An Embodied Multimodal Language Model,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 1313/5858 Table_PageText 深度分析|计算机 2023年5月,谷歌召开2023年I/O开发者大会,发布最新大语言模型PaLM 2,融入AI能力的搜索引擎、升级版聊天机器人Bard和Workspace中的AI工具包Duet AI等。在2023年I/O开发者大会上,谷歌推出了最新一代大语言模型PaLM
43、 2,其基于Pathways架构,使用TPU v4和JAX框架训练,在高级推理任务,包括代码和数学,分类和问答,翻译和多语言能力,以及自然语言生成方面都比前一代PaLM大模型表现得更好。我们认为,此次谷歌发布大模型并导入旗下产品,有助于谷歌增强与其它生成式AI大模型厂商竞争的能力,展示了谷歌在人工智能领域的强大创新能力和产品化落地能力。图图 6:PaLM 2在多语言任务中的表现在多语言任务中的表现 图图 7:PaLM 2处理较难逻辑的文本的表现处理较难逻辑的文本的表现 数据来源:谷歌官网,广发证券发展研究中心 数据来源:谷歌官网,广发证券发展研究中心 Meta公司的公司的ImageBind模型
44、模型融合融合了了6种类型的训练数据。种类型的训练数据。2023年5月,Meta公司推出的多模态大模型ImageBind融合了文本、图像/视频、音频、热量、空间深度、三维惯性(位置和运动)数据。其以某一物体的视觉类数据为核心,设置了多种传感器搜集对应的声音、3维形状、热量以及运动数据。ImageBind的训练是通过将各种类型的数据在多维向量空间中建立一一映射关系,使其具备跨模态的能力,具体包括:(1)多模态信息转换多模态信息转换:根据单一类型的信息,生成对应的多种类型的信息。例如,根据火车汽笛声,即可生成多张火车的图像,或是火车在某一场景中的空间深度信息,或是火车鸣笛的情境描述文字。(2)组合信
45、息转换组合信息转换:在输入两种不同类型的信息进行嵌入和叠加后,可智能化提取其组合信息。例如,将一张小鸟的图片数据和一段摩托车的音频数据输入到ImageBind后,可自动生成多张摩托车骑行时小鸟飞翔的图像。识别风险,发现价值 请务必阅读末页的免责声明 1414/5858 Table_PageText 深度分析|计算机 图图 8:ImageBind多模态大模型的训练数据多模态大模型的训练数据 图图 9:ImageBind多模态大模型具备的智能化功能多模态大模型具备的智能化功能 数据来源:Meta 官网,广发证券发展研究中心 数据来源:Meta 官网,广发证券发展研究中心 国内的多模态大模型主要集中
46、于文字和图像信息的转换国内的多模态大模型主要集中于文字和图像信息的转换。当前,国内厂商推出的多模态大模型多以文生图或图像描述生成文字为主等。与海外相比,国内多模态大模型融合的数据类型较少,应用场景有限,通用性有待提升。不同厂商有不同的自身技术优势及数据积累领域,因此不同多模态模型在不同细分领域各有优劣。典型例如百度在搜索领域、阿里巴巴在电商领域、商汤在视觉领域均有其独特积累及数据,在这样的技术调教及数据喂养下,生成的多模态大模型自然也各有特点。表表 3:国内多模态大模型对比国内多模态大模型对比 公司公司 百度百度 阿里巴巴阿里巴巴 商汤商汤 昆仑万维昆仑万维 产品 文心一言 M6 秒画 Sen
47、seMirage 天工巧绘 SkyPaint 推出时间 2023 年 3 月 2021 年 10 月 2023 年 4 月 2022 年 12 月 参数规模 2600 亿 十万亿以上-训练数据 包括万亿级网页数据、数十亿的搜索数据和图片数据、百亿级的语音日均调用数据,以及5500 亿事实的知识图谱 百科、问答、论坛讨论以及电商数据 来源于互联网,包括新闻、百科、问答、论坛等资料 使用 1.5 亿中英双语语料,支持中英双语输入实现文字生成图像 特点 国内首个推出对标 ChatGPT 的大模型,可根据文字内容可生成图像和视频 已应用于跨模态搜索、文案撰写、图片设计等工作,日调用量达到了上亿次 结合
48、文本输入进行图像内容的创作生成,同时支持更多样化的风格选择 基于 Stable Diffusion 优化的AI 绘画模型。支持输入中英文文本,可生成多种现代艺术风格的高质量图像 生态建设 截止 2023 年 5 月,已有 15 万家企业有超 300 家生态伙伴在申请文心一言内测,其中 400多个具体场景取得测试成效 目前的合作伙伴较少,主要集中在电商和服装设计领域 截止 2023 年 4 月 23 日,“商汤日日新 SenseNova”大模型体系已落地 20 多个业务场景,为政企客户提供多种灵活的 API 接口和服务 计划开放插件商店,打造生态系统 数据来源:各公司官网,广发证券发展研究中心整
49、理 识别风险,发现价值 请务必阅读末页的免责声明 1515/5858 Table_PageText 深度分析|计算机 在文生图多模态大模型领域,在文生图多模态大模型领域,百度文心百度文心ERNIE-ViLG 2.0模型已具备较强竞争力。模型已具备较强竞争力。百度文心ERNIE-ViLG 2.0模型通过引入基于时间步的混合降噪专家网络,让模型在不同的生成阶段选择不同的“降噪专家”,从而提升生成图像的精细度。在提升图文一致性方面,该模型通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩散模型对于语义的精确理解,以提升生成图像的可控性和语义一致性。在图文相关性和图像保真度两个维度的人工评估上,
50、ERNIE-ViLG 2.0相对DALL-E 2 和Stable Diffusion等模型已具有一定优势。图图 10:百度文心百度文心ERNIE-ViLG2.0与与DALLE 2在图文相在图文相关性和图像保真度指标的对比关性和图像保真度指标的对比 图图 11:百度文心百度文心ERNIE-ViLG2.0与与StableDiffusion在图文相关性和图像保真度指标的对比在图文相关性和图像保真度指标的对比 数据来源:百度官网,广发证券发展研究中心 数据来源:百度官网,广发证券发展研究中心 (二)数据层面,(二)数据层面,多模态大模型需要多模态大模型需要处理的数据量处理的数据量庞庞大、数据类型多样大
51、、数据类型多样 多模态大模型的训练数据量庞大多模态大模型的训练数据量庞大、数据类型多样数据类型多样,需要大数据产品的支持需要大数据产品的支持。从传统AI模型向多模态大模型发展的过程中,数据的计算、分析、转换和存储方式也发生着较大变化。过去识别类AI模型(物体识别、人脸识别)训练数据的类型较为单一且数据量较小,多数情况下传统的集中式数据库即可满足训练数据的预处理、存储和分析需求。在自然语言类大模型出现后,训练数据量快速增长到TB级别,导致其部分场景中的数据训练需要采用分布式架构的数据平台产品才能解决。多模态大模型训练的数据量庞大、数据类型多样,需要分布式架构下的大数据产品才能满足其数据训练的要求
52、。我们认为,未来分布式大数据软件产品将在多模态大模型的开发过程中扮演重要的作用。表表 4:识别类识别类AI模型、自然语言类大模模型、自然语言类大模型和多模态大模型训练数据对比型和多模态大模型训练数据对比 AI模型类型 训练数据量 训练数据类型 数据平台软件架构 识别类AI模型 GB级别 文字或图片或音频等单一类型数据 集中式 自然语言类大模型 TB级别 以文字类结构化数据为主 集中式或分布式 多模态大模型 TB级别 结构化和非结构并存的多源异构数据 分布式 数据来源:广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 1616/5858 Table_PageText 深度分析|
53、计算机 分布式大数据平台较好的满足多源分布式大数据平台较好的满足多源、异构的数据处理需求异构的数据处理需求。分布式大数据平台是一个集数据接入、处理、存储、查询检索、分析挖掘等为一体的平台。而数据库是按照数据结构来组织、存储和管理数据的仓库。在异构的分布式数据库中,不同的节点可采用不同的数据模型、数据管理工具、操作系统和硬件。各子节点通过应用程序接口、全局模式和联邦计算等方式实现不同数据类型的信息共享及融合分析。总体而言,分布式大数据平台具有以下优势:(1)单机硬件性能要求较低,扩容成本较低:单机硬件性能要求较低,扩容成本较低:在分布式架构中,软件平台可搭载于普通的PC服务器上,摆脱了对小型机、
54、高端存储等高价格硬件设备的依赖,扩容的成本较低。(2)海量数据处理能力海量数据处理能力,扩容过程便捷扩容过程便捷:分布式架构采用多台服务器,存储和计算资源天然比集中式架构的单台服务器要多,扩容便捷,可扩展性强。(3)多源数据融合处理和分析能力多源数据融合处理和分析能力:不同节点的数据平台上可存储和计算不同类型的数据,各节点数据处理和分析的结果汇总和集成在控制节点后可实现较好的融合分析。图图 12:分布式:分布式大数据平台架构图大数据平台架构图 数据来源:广发证券发展研究中心 向量数据库可满足多模态大模型中较多的向量相似性搜索需求向量数据库可满足多模态大模型中较多的向量相似性搜索需求。多模态大模
55、型和用户交互的信息往往包含大量的非结构化的数据。例如,用户将图片输入到GPT-4后,就图片信息进行问答。在这一过程中,原始的图像(由像素组成)需要转化成为向量数据才能被多模态大模型识别和理解,之后这一组向量数据需要遍历庞大的神经网络,搜索与之对应的另一组向量数据后才能生成用户想要的文字。在多模态大模型中,向量搜索的过程往往耗时较长,可能会影响到即刻需要得到内容生成的用户体验。而向量数据库通过ANN(Approximate Nearest Neighbor)算法给不同的向量数据构建索引,有效提升搜索效率,缩短生成内容的反馈时间。识别风险,发现价值 请务必阅读末页的免责声明 1717/5858 T
56、able_PageText 深度分析|计算机 图图 13:非结构化数据转换为向量数据并在:非结构化数据转换为向量数据并在AI任务中任务中的的应用应用 数据来源:Pinecone 官网,广发证券发展研究中心 2023年5月,星环科技发布向量数据库产品Transwarp Hippo。Hippo主要用于AI领域,支持快速高效的数据存储和检索以及管理向量式数据集,能够高效地解决向量相似度检索、高密度向量聚类等常见的AI问题。与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能很好地满足企
57、业针对海量向量数据的高实时性查询、检索、召回等场景。我国在分布式大数据平台领域与海外厂商的性能、生态方面的差距较小。我国在分布式大数据平台领域与海外厂商的性能、生态方面的差距较小。从技术演进角度而言,我国分布式数据平台技术与海外公司发展历史相当。基于Hadoop等开源生态,国产分布式大数据平台快速开发和迭代,且在金融、公共部门、能源等行业商业化落地过程中持续打磨产品,性能与海外竞品差距较小。以星环科技TDH为代表的大数据产品不仅凭借分布式架构的优势对传统数据库Oracle、IBM DB2以及Teradata等传统数据库实现了较好的替代,还以较高的性价比和安全性实现了Ealstic Search
58、、CDP等海外分布式架构数据产品的替代。随着多模态大模型的训练和应用的增多随着多模态大模型的训练和应用的增多,国产,国产大数据产品和向量数据库有望快速增大数据产品和向量数据库有望快速增长长。分布式大数据产品拥有的海量、异构、多源数据的处理能力,以及向量数据库的高效数据搜索能力,在多模态大模型的训练和推理中有较好的应用前景。另一方面,大数据是新兴技术,发展时间较短,国产大数据产品和海外竞品的差距较小。在大数据领域,星环科技技术积累深厚、技术原创性强,已实现对关键组件和核心功能的自主研发,有望受益于多模态大模型的快速渗透。我们认为,在各科技公司对于多模态大模型持续研发投入,以及AI大模型在各行业加
59、速渗透的趋势下,国产大数据产品有望迎来发展机遇,实现快速成长。识别风险,发现价值 请务必阅读末页的免责声明 1818/5858 Table_PageText 深度分析|计算机 (三三)算力算力层面,层面,海量和多源的数据海量和多源的数据处理处理需要需要更大的算力支持更大的算力支持 表达同级别的信息量,表达同级别的信息量,非结构化非结构化比结构化所需的比结构化所需的数据数据量更大量更大。同一数据大小情况下,不同数据类型所包含的信息量不同。一般而言,文字类的数据组织方式较为简单,同级别的数据量可包含的信息量较大,例如1MB的数据量可包含500页的文字内容。与之相比,图像、音频、网页等非结构化数据组
60、织方式更为复杂。一张图片是由成千上万个像素点组成;音频的组织方式是由一系列的数据帧组成。同级别数据量的非结构化数据包含的信息量较小,例如1MB的数据只包含1张2048X1536像素的JPEG格式图片或1分钟MP3格式的音频。因此,相较于训练数据为纯文字的自然语言类大模型,多模态大模型的训练过程若要包含相同量级的信息,其所需的非结构化数据的数量更大。表表 5:1 MB数据对应不同数据类型数据对应不同数据类型 数据大小 文字 图像 音频 网页 1 MB 500页的文字内容 一张2048 X 1536像素的JPEG格式图片 1分钟MP3格式的音频 10个包含正常内容的HTML网页数据 数据来源:Gr
61、eennet,EasyTechJunkie,广发证券发展研究中心 OpenAI的大模型生成图像的成本高于生成文字的成本的大模型生成图像的成本高于生成文字的成本。OpenAI的自然语言大模型的收费标准是0.002-0.012美元/1000 tokens。Tokens是包括了单词、标点符号在内的字符,因此可以简单理解为单个文字。与之相比,多模态大模型DALLE生成图片的价格为0.016-0.02美元/张。从用户需求角度,用户与平台单词对话所需生成内容是文字信息在千个单词的级别,是图片信息则在1-4张图片之间。因此,单次对话对于图像信息生成所需的成本要高于文字信息生成的成本。我们认为,多模态大模型我
62、们认为,多模态大模型需要处理的非结构化数据较多,相较于自然语言类模型,在训练和推理阶段消耗的需要处理的非结构化数据较多,相较于自然语言类模型,在训练和推理阶段消耗的成本更大,所需的算力支持更高。成本更大,所需的算力支持更高。表表 6:OpenAI开发的开发的AI自然语言类大模型的自然语言类大模型的收费标准收费标准 表表 7:OpenAI开发的开发的DALLE文生图大模型文生图大模型收费标准收费标准 AI 大模型 使用的价格(单位:美元/1000 tokens)GPT-3.5-turbo 0.002 Ada 0.0016 Babbage 0.0024 Curie 0.0120 分辨率 使用的价格
63、(单位:美元/图片)1024 X 1024 0.02 512 X 512 0.018 256 X 256 0.016 数据来源:OpenAI 官网、广发证券发展研究中心 数据来源:OpenAI 官网、广发证券发展研究中心 英伟达英伟达AI芯片每秒钟推理芯片每秒钟推理图像类模型(图像类模型(3D U-Net)远低于)远低于自然语言类模型自然语言类模型(BERT)。)。针对不同的AI模型,英伟达的AI芯片推理计算的性能不同。以A100为例,其对BERT自然语言模型推理运算性能为每秒1828次,而对3D U-Net医疗影像模型的推理运算 识别风险,发现价值 请务必阅读末页的免责声明 1919/585
64、8 Table_PageText 深度分析|计算机 性能为每秒4次。H100在采用更先进制程芯片,矩阵运算性能优化的情况下,其推理运算性能有较大提升。我们认为,多模态大模型所需处理的数据类型更多、算法更复杂的情况下,在应用和推理阶段对算力的消耗也更大。未来,随着多模态大模型开发量和应用量的增加,AI芯片的需求有望加速增长。表表 8:英伟达英伟达AI芯片对芯片对不同不同AI模型推理计算性能对比(单位模型推理计算性能对比(单位:每秒推理计算次每秒推理计算次数)数)芯片 DLRM(智能推荐模型)BERT(自然语言模型)RetinaNet(物体检测模型)RNN-T(语音识别模型)3D U-Net(医疗
65、影像模型)A100 282771 1828 725 13278 4 H100 745480 8007 1479 23106 7 数据来源:英伟达官网,广发证券发展研究中心 英伟达英伟达H100对大模型运算的性能较对大模型运算的性能较A100提升较大提升较大。2022年3月,英伟达推出Hopper架构的新品H100,浮点数算力较A100有2.6倍提升,整数算力较A100有4.8倍提升。H100的算力提升不仅通过采用4nm先进制程的方式从物理层面提升晶体管密度芯片,在软件层面还针对大模型设计了Transformer引擎,有针对性的提升大模型的算力水平。在GPT-3大模型训练任务中,H100的速度可
66、以达到A100的4倍。2023年3月,英伟达又推出了H100 NVL产品。其通过拓展GPU内存带宽,升级GPU和GPU互联技术NVLink,将产品在大型计算集群中的性能进一步提升。在GPT-3大模型训练任务中,搭载H100 NVL的AI服务器的速度达到了搭载A100的服务器12倍的效果。表表 9:英伟达英伟达A100和和H100性能对比性能对比 A100 PCIe H100 PCIe H100 NVL 芯片制程 7nm 4nm 4nm 推出时间 2020年5月 2022年3月 2023年3月 浮点数算力(FP32)19.5 TFLOPS 51 TFLOPS 134TFLOPS 整数算力(INT
67、8 Tensor Core)624 TOPS 3026 TOPS 7916 TOPS GPU内存 80 GB 80 GB 188 GB GPU内存带宽 1935 GB/S 2 TB/S 7.8 TB/S 峰值功耗 300 W 300-350 W 2*350-400 W Decoder-7 NVDEC 7 JPEG 14 NVDEC 14 JPEG 数据来源:英伟达官网,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 2020/5858 Table_PageText 深度分析|计算机 国产国产AI芯片已经追赶上英伟达芯片已经追赶上英伟达Ampere架构架构GPU的水平的水平。
68、国产高端AI芯片在过去几年性能有了较大提升,以华为昇腾910和寒武纪思元370为代表的国产AI芯片已经追赶上英伟达Ampere架构下的AI芯片的性能,但距离其最新一代H100仍有一定差距。我们判断,随着国产AI芯片与英伟达等海外竞品性能差距逐渐缩小,AI芯片国产替代范围有望扩大。另一方面,在芯片制造环节,中国大陆晶圆厂的先进制程芯片规模化量产能力与国际一流厂商仍有一定差距。未来,AI芯片国产替代的节奏仍取决于美国对华实施高端芯片出口管制政策的变化以及芯片制造产业链自主可控建设的进展。表表 10:英伟达:英伟达A10G与寒武纪与寒武纪MLU370-X4性能对比性能对比 产品 A10G MLU37
69、0-X4 公司 英伟达 寒武纪 推出时间 2021年4月 2021年11月 制程 8nm 7nm 整数算力 250 TOPSINT8 256 TOPSINT8 浮点数算力 31.2 TFLOPSFP32 24 TFLOPSFP32 功耗 150W 150W 内存类型 GDDR6 LPDDR5 内存容量 12G 24G 内存宽带 600 GB/s 307.2 GB/s 数据来源:英伟达官网,寒武纪官网,广发证券发展研究中心 表表 11:英伟达:英伟达A100与与华为华为昇昇腾腾910性能对比性能对比 产品 A100 PCIe 昇腾910 公司 英伟达 华为 推出时间 2020年5月 2019年8
70、月 制程 7nm 7nm 整数算力 624 TOPSINT8 640 TOPSINT8 浮点数算力 312 TFLOPSFP16 320TFLOPSFP16 功耗 300W 310W 数据来源:英伟达官网,华为官网,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 2121/5858 Table_PageText 深度分析|计算机 二、二、从通用到垂直场景,从通用到垂直场景,智能化升级的路径智能化升级的路径一致一致但方式但方式各异各异 多模态大模型多模态大模型的的开放开放推动各垂直推动各垂直应用领域智能化升级加速。应用领域智能化升级加速。OpenAI在2022年11月开放了文
71、生图AI大模型DALLE 2的API,2023年3月开放了ChatGPT、Whisper、GPT-4的API接口,供程序开放人员调用。2023年5月,Meta公司推出的ImageBind多模态大模型采用完全开源的方式对用户开放。在不同场景中,垂直领域厂商通过调用多模态大模型的API进行二次开发,可实现既有应用的快速智能化升级。目前已有来自教育、金融、电商等领域的公司使用GPT-4的API来提升人机交互的智能化水平。我们认为,多模态大模型的开放将大大降低各垂直领域厂商开发AI应用的门槛,各场景智能化升级有望呈现出加速和扩散的趋势。表表 12:嵌入了嵌入了GPT-4 API的产品及智能化功能的产品
72、及智能化功能 公司业务 产品及智能化效果 Duolingo 第二语言学习软件平台 基于GPT-4的API,有效增强人机对话通用性效果,从而提升外语学习者的学习效率 BeMyEyes 为视力存在疾病和缺陷的人群提供生活辅助等服务的软件平台 公司的APP基于GPT-4的API增加新功能后,可根据手机拍照结果,以语音播报的形式给眼疾患者详细解读现实生活的物体和现象 Stripe 为电商平台提供网上支付服务的公司 公司基于GPT-4的API嵌入新功能后,及时察觉内外部敏感信息,提升网上支付反欺诈的监控手段 MorganStanley 国际金融服务公司 公司基于GPT-4的API开发了面向内部的聊天机器
73、人,有效赋能财富管理相关信息的搜索 KhanAcademy 提供在线教学的平台 公司宣布将基于GPT-4的API开发虚拟助教,帮助学生和老师进行良好的互动,提升学习效率 数据来源:OpenAI 官网,广发证券发展研究中心 受受AI大模型影响大模型影响,各领域智能化升级的节奏和实现方式有所区别各领域智能化升级的节奏和实现方式有所区别。由于各行业在数据安全、技术壁垒以及监管要求方面存在差异性,因此,其受AI大模型影响导致不同行业的智能化升级的节奏和实现方式有所区别。具体而言:(1)在智能化升级节奏方面,To C场景比如通用行政办公、个人创意设计等由于各类通用性数据可获取门槛较低,受监管的要求较低,
74、使得相应领域在接入通用AI大模型后的应用产品化落地较快,普适性较高。而医疗、金融、工业等To B领域专业性较强、安全要求较高,其智能化升级或需要更多的专业领域数据的训练,因此,该类行业受AI大模型的影响后的智能化升级节奏较慢,相应的商业化进程较慢。(2)在智能化的实现方式方面,我们认为,医疗、金融、工业等领域应用场景的高专业性导致通用的AI大模型可赋能进行升级改造的空间较小。其次,在该类行业中的数据敏感性和法律合规性上的高要求导致AI功能的开发和应用都呈现私域封闭的特点。因此在专业程度较高的行业中,各家公司或借鉴通用AI大模型的技术原理,结合自身专业数据积累,针对实际功能需求,打造属于企业内部
75、的小模型。AI 识别风险,发现价值 请务必阅读末页的免责声明 2222/5858 Table_PageText 深度分析|计算机 大模型预计给在行业私域数据和模型训练有所积累的企业提供了重塑竞争格局的机会。而通用行政办公、个人创意设计等To C场景技术安全要求较低的领域或可直接调用通用AI大模型的API,利用已开放的技术资源,升级既有产品线。接下来,我们通过分析多模态大模型在通用行政办公、软件开发、创意设计、金融、医疗等不同领域的应用,来探讨不同垂直场景智能化升级的统一性和差异点。(一)(一)生成式生成式 AI 技术驱动技术驱动通用通用行政行政办公类软件行业快速变革办公类软件行业快速变革 从技
76、术到商业化从技术到商业化,国产通用行政办公软件的智能化升级进展距离海外国产通用行政办公软件的智能化升级进展距离海外有差距。有差距。在海外AI大模型技术较为成熟的情况下,嵌入了Copilot的微软办公类和企业管理类软件已经表现出较为显著的智能化升级效果,已吸引海外较多客户尝试使用其产品。从技术、产品到商业化,微软在各方面都已经走在了行业前列。与之相比,国内的WPS AI、新钉钉等办公类AI应用离成熟到大量客户认可还有较长的时间,主要障碍在于国内AI大模型的功能和性能距离海外仍有一定差距。总体而言,国内公司的AI应用整体落后海外公司一个阶段,即产品化初中期 vs 商业化前夜。国内AI大模型在通用行
77、政办公类软件的应用仍需要一段时间克服从产品化到商业化的挑战。1.微软走在行业前列微软走在行业前列,树立了多模态大模型技术和商业化探索的标杆,树立了多模态大模型技术和商业化探索的标杆 Office系列软件嵌入系列软件嵌入Copilot,内容,内容生成功能亮眼生成功能亮眼。2023年3月,微软发布Microsoft 365 Copilot智能插件产品,对于其既有的Microsoft Graph工具包和Microsoft 365办公软件产品进行了全面升级。Copilot是基于大规模语言模型开发的。通过嵌入Copilot,微软打通了Word、PowerPoint、Excel、Outlook、Teams
78、等各软件产品间内容共享的通道,原本各自独立的办公软件可以根据用户的指令自动引用全类别Office软件中的既有内容,并自动编辑成满足客户需求的内容。例如,根据Word中的既有文字,用户可自动生成Powerpoint中的演示稿。Copilot对各软件产品具体提升效果如下:(1)嵌入了Copilot的Word软件可根据用户指令自动生成文字,例如,新品发布会的演讲稿。此外,其还可以根据既有文字内容进行要点总结、扩写等高级别功能。(2)嵌入了Copilot的Powerpoint软件根据用户指令不仅可以自动生成演示稿的文字和图片等内容,还能实现演示稿的美化、添加动画等高级功能。(3)嵌入了Copilot的
79、Excel软件可以根据用户指令自动生成分析表格并可视化为柱状图、曲线图等图表。(4)嵌入了Copilot的Outlook软件可总结较长邮件内容,并根据用户回复内容的草稿进行扩写、添加图表等。(5)嵌入了Copilot的Teams软件可在会议中实时进行要点总结、咨询讨论话题等。识别风险,发现价值 请务必阅读末页的免责声明 2323/5858 Table_PageText 深度分析|计算机 图图 14:嵌入了:嵌入了Copilot的的PowerPoint根据根据用户指令自用户指令自动生成的演示稿动生成的演示稿 图图 15:嵌入了:嵌入了Copilot的的Word根据用户指令自动生根据用户指令自动生
80、成的文字成的文字 数据来源:微软官网,广发证券发展研究中心 数据来源:微软官网,广发证券发展研究中心 图图 16:嵌入了:嵌入了Copilot的的Teams线上会议平台会议纪线上会议平台会议纪要自动生成功能展示要自动生成功能展示 图图 17:嵌入了:嵌入了Copilot的的Outlook在在日程安排界面直日程安排界面直接接入接接入Teams会议系统会议系统 数据来源:微软官网,广发证券发展研究中心 数据来源:微软官网,广发证券发展研究中心 Bing全面开放全面开放,智能化的搜索,智能化的搜索引擎应用前景广阔引擎应用前景广阔。2023年2月7日,微软首次推出嵌入了AI大模型的New Bing搜索
81、引擎和Bing Chat产品,可通过直接问答的方式得到用户所需内容。之后,微软进行了一系列的升级。2023年3月,Bing Chat在嵌入了DALLE大模型后升级了Bing Image Creator功能,用户可在Bing搜索栏中输入文字生成图片。随着随着Bing的智能化功能持续升级,其用户数量快速增长。的智能化功能持续升级,其用户数量快速增长。截止截止2023年年5月月4日,用户在日,用户在New Bing上已累计完成上已累计完成5亿次对话亿次对话,生成了,生成了2亿张图片。亿张图片。New Bing的的日活量已经超过日活量已经超过1亿人次。亿人次。在Bing和Edge的智能化功能已实现较大
82、突破,用户数量积累到一定规模的背景下,微软于2023年5月4日宣布了下一步的产品开放和升级计划,具体如下:1.全面开放全面开放:自5月4日起,New Bing的智能化功能将不再设置候补名单。用户使用微软账户登录Bing后,即可直接使用Bing Chat功能。2.回答内容的表现形式更加生动和丰富回答内容的表现形式更加生动和丰富:Bing Chat的回答内容由此前的纯文本形式,升级为文字、图像、网页链接等更加直观和丰富的表现形式。识别风险,发现价值 请务必阅读末页的免责声明 2424/5858 Table_PageText 深度分析|计算机 3.对话内容的保存和继续对话对话内容的保存和继续对话:B
83、ing Chat中的对话内容可实现在Edge浏览器中的保存。用户在下次打开浏览器后,可选择上次未完成的聊天记录继续对话。4.面向开发者的第三方插件即将推出面向开发者的第三方插件即将推出:Bing Chat上即将推出第三方插件功能,并创建一个开发者平台。开发者在平台上创建了满足自己需求的插件后,在聊天过程中可自由调用插件的功能(例如:可以通过OpenTable插件自动查找、预订餐馆)。图图 18:嵌入了:嵌入了DALLE大模型的大模型的Bing Image Creator产品文生图功能展示产品文生图功能展示 图图 19:Edge浏览器通过对话直接播放视频的功能展浏览器通过对话直接播放视频的功能展
84、示示 数据来源:微软官网,广发证券发展研究中心 数据来源:微软官网,广发证券发展研究中心 相较于办公类软件相较于办公类软件,企业管理软件企业管理软件功能复杂功能复杂,门槛较高门槛较高,智能化升级的难度较大智能化升级的难度较大。微软的Dynamic 365是面向企业用户,覆盖从内部管理到对外销售,从产品采购到售后服务等各个环节的企业管理软件产品线,其中企业资源规划(ERP)和客户管理管理(CRM)是两个重要软件产品。与办公类软件不同,企业管理软件的功能复杂,门槛较高,其需要对包括采购、生产、存储、分销、运输、财务、人力资源等企业内部所有资源进行整合,合理规划后实现效益最大化。因此,企业管理软件通
85、过AI大模型赋能后智能化升级的难度较大。图图 20:微软微软Dynamic 365软件功能示意软件功能示意 数据来源:Akkomplish,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 2525/5858 Table_PageText 深度分析|计算机 Copilot赋能赋能Dynamic 365,提高信息在各流程间流转的效率提高信息在各流程间流转的效率。2023年3月,微软推出Dynamic 365 Copilot,对其ERP和CRM等企业管理软件智能化升级。过去Dynamic 365涉及到需要手动输入、编辑、标注等繁重的人工操作,较大部分将由Copilot所替代。通过
86、减少机械的、重复的工作,Copilot赋能采购、生产、销售等各环节人员快速响应,提升供应链敏捷性、并降低业务风险。Copilot对于各企业管理软件的提升效果如下:1.在 Dynamics 365 Sales和Viva Sales中,Copilot能够帮助销售显著减少花在案头工作上的时间。Copilot可根据CRM系统中产品、报价之类的数据,自动生成回复给客户的邮件内容。这大大减少了销售回复邮件等文案工作的时间,从而可以将更多精力用于客户交流工作。2.嵌入了Copilot的Dynamics 365 Customer Insights软件,市场人员只要用自然语言与客户数据平台进行一些简单的对话,就
87、能得到高度定制化和目标明确的客户分类,较大提升了用户分类以及发现潜在用户的效率。3.嵌入了Copilot的供应链管理软件Dynamics 365 Supply Chain Management能主动为影响供应链流程的事件发出预警,例如天气、财务或者地理环境等;随后预测洞察将筛选出受影响的订单,并将物料、库存、承运商、配送网络等细节信息提供给客户。供应链规划功能随后会自动撰写一封由Copilot生成的电子邮件向受到影响的合作伙伴发出预警,提醒防范可能出现的负面影响。Copilot对对Dynamic 365的智能化升级的智能化升级更多更多是效率提升是效率提升,而非核心功能的颠覆而非核心功能的颠覆。
88、Copilot对Office系列软件产品的智能化升级效果更加显著,其主要原因是涉及办公软件的核心功能。例如,Word的核心功能文字撰写可以被Copilot替换;PowerPoint的核心功能演示文稿制作可以被Copilot替换。而Copilot在Dynamic 365的应用中并未涉及核心功能颠覆。企业管理的关键环节仍需要管理人员做部分工作,并最终决策。我们认为,B端应用软件面临的可靠性、扩展性、稳定性和数据交互涉及的安全性等要求,使得其智能化改造的程度和节奏较C端应用软件或呈现出不同的发展趋势。图图 21:嵌入了:嵌入了Copilot的的Viva Sales根据根据CRM系统中系统中的数据自的
89、数据自动生成邮件内容的界面动生成邮件内容的界面 图图 22:嵌入了:嵌入了Copilot的的Dynamics 365 Supply Chain Management识别供应链风险并通知相关人员识别供应链风险并通知相关人员的界面的界面 数据来源:微软官网,广发证券发展研究中心 数据来源:微软官网,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 2626/5858 Table_PageText 深度分析|计算机 AI实质性推动微软应用软件实现功能性上质的飞跃。实质性推动微软应用软件实现功能性上质的飞跃。我们在2023年2月14日发布的AI行业深度报告ChatGPT通用化效果突破
90、、前景广阔,国内AI产业链追赶仍有较大挑战曾提到“未来,GPT系列AI大模型最具有成功潜力的商业化落地形式是其与微软从浏览器Bing到Office的全线软件的融合应用。二者的融合应用有望对微软的软件产品的门槛和附加值有较大提高效果,同时对相应竞品实现降维竞争。我们可以预期微软相关产品线的竞争优势会迅速扩大并能逐步新增体现在全球市场份额和财务回报上。”微软Copilot智能插件产品的推出并有效赋能其办公软件产品验证了我们此前对于AI大模型商业化落地的判断。我们看好嵌入了Copilot的微软办公类和企业管理类未来商业化应用前景。在在AI大模型商业化落地的探索方面,微软已走在行业前列。大模型商业化落
91、地的探索方面,微软已走在行业前列。AI时代,通过算力、数据、算法模型和商业软件的有机融合方面,微软正快速积累用户数量,培养用户习惯,构建生态壁垒,先发优势明显。一方面,这进一步增加了各同行公司进行智能化升级的压力和时间紧迫感;另一方面,微软的不断突破树立了技术和商业化探索的标杆,给国内相关应用生态发展开拓了可供学习的经验路径。同行公司通过学习微软模式,也有望实现应用软件产品在智能化升级后的商业化规模落地。2.国产国产行政行政办公软件持续办公软件持续追赶,多模态大模型提升产品价值量追赶,多模态大模型提升产品价值量 金山办公发布金山办公发布WPS AI,国内协同办公赛道首个类,国内协同办公赛道首个
92、类ChatGPT式应用。式应用。4月18日,金山办公正式发布了具备大语言模型能力的生成式人工智能应用WPS AI,这也是国内协同办公赛道首个类ChatGPT式应用。WPS AI搭载在金山办公新一代在线内容协作编辑工具轻文档(airPage)上,使其编辑能力更专业、插入功能更丰富、使用界面更友好。接入WPS AI后,AI生成的内容可以直接嵌入到文档正文,并能按照当前文档所能支持的格式进行实时渲染,同时也支持多轮对话,通过多次、连续自然语言的输入控制内容的生成,进一步提高创作效率。未来WPS AI计划逐步放开公测,有望嵌入金山办公全线产品。图图 23:WPS AI正在生成文本界面正在生成文本界面
93、图图 24:WPS AI生成的文本界面生成的文本界面 数据来源:金山办公官方微信公众号,广发证券发展研究中心 数据来源:金山办公官方微信公众号,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 2727/5858 Table_PageText 深度分析|计算机 WPS AI 的功能主要分为三大类:内容生成、文本处理、知识分析:(1)内容生成)内容生成:搭载了WPS AI的轻文档可根据用户指令自动生成文字,协助用户写出优质内容。例如广告文案、新闻稿、运营策略案等文本类作品以及创意故事、诗歌等文艺创造性内容。不仅如此,WPS AI还支持多轮对话,用户可以就某个话题与WPS AI持
94、续沟通,例如用户对其提供的文本内容不满意,可以补充更多细节要求让WPS AI重新优化文字表达。(2)文本处理:)文本处理:WPS AI能够对已有文案进行加工和再处理,包括编辑、改写、扩充、缩短、润色等,例如“WPS AI”可在不改变原有文案意思的前提下使用用户习惯的语言风格优化文本内容,同时为了满足多语言场景,WPS AI可以实现对现有文字内容进行中英文互相翻译。(3)知识分析:)知识分析:WPS AI可以根据用户提供的现成文档,快速总结归纳文档中的内容。例如,WPS AI可以根据其他人的旅行游记文档和用户自己的预算表生成属于用户自己的旅行计划。用户也可以插入多篇工作日报,让AI生成出一周的工
95、作总结。此外,WPS AI还可指定文档,生成待办事项、文章大纲、撰写新闻稿件、提炼主旨摘要等。AIGC、阅读理解和问答、人机交互塑造、阅读理解和问答、人机交互塑造WPS AI在在AI+办公赛道的差异化优势。办公赛道的差异化优势。WPS AI未来锚定三个战略方向,第一个方向是AIGC,主要是辅助编辑、改写、润色,帮助用户生产更优质的文章,提高基本办公生产力;第二个方向是阅读理解和问答,基于已储备的语料做问答式的交互,辅助阅读和知识检索。第三个方向是人机交互,基于大语言模型技术去做下一代基于自然语言的人机交互,用自然人类语言给WPS AI下命令、提要求。钉钉接入千问大模型,输入“钉钉接入千问大模型
96、,输入“/”唤起唤起10余项余项AI能力。能力。4月18日,在2023春季钉峰会上,钉钉发了一条斜杠“/”,并现场演示接入千问大模型后,通过输入“/”在钉钉唤起10余项AI能力,包括使用AI生成推广文案、生成图片及表情包、使用图片识别方式创建应用、在视频会议中生成会议纪要等。新钉钉有望全面智能化,带来各场景用户体验的升级。目前,钉钉与大模型融合场景正在测试中,将在相关安全评估完成后上线。新钉钉主要在四个方面展现出智能化升级新钉钉主要在四个方面展现出智能化升级,除了这四个高频场景,钉钉也在同步测试钉钉个人版、搜索、邮箱、AI助理、智能客服等产品,让客户和生态基于钉钉PaaS底座的能力,更好地对接
97、大模型。(1)在聊天中:)在聊天中:在传统群聊中,用户经常会因为一段时间未关注群聊消息而错过某些信息,现在用户可以使用新版钉钉“/”获取关键群信息,即使是新入群者也无需爬楼,在对话框输入“/”即可自动整理群聊要点,快速了解上下文。此外,用户输入自己的要求,“/”可以配合参会人的时间来生成待办事项清单并预约日程并在群聊中创作文案、表情包等。在新钉钉中,用户也可以训练专属的助理机器人,用“/”创建机器人后只需要发送文档、网页或者知识库的一条链接,就可以让机器人自动学习其 识别风险,发现价值 请务必阅读末页的免责声明 2828/5858 Table_PageText 深度分析|计算机 中内容,并可生
98、成对话问答,不用再手动设置问题和答案。(2)在文档中:)在文档中:“/”可以扮演用户创意助理的角色,根据用户指令生成文本及图片,例如推广文案、新闻稿、创意故事等,同时“/”可以润色文本、改写语气、精简或丰富文本内容等。(3)在视频会议:)在视频会议:“/”可以扮演会议助理角色,将会议语音转为文本,即使用户是入会迟到也能快速了解会议先前讨论的内容。散会后“/”还可以能一键生成完整的议程回顾,讨论要点、会议结论、待办事项等。(4)在拍照生成应用中:)在拍照生成应用中:“/”还可用自然语言或拍照生成应用,自动生成缺失内容,并以钉钉酷应用的形式在群聊内使用。比如,公司行政人员需要统计午餐的订餐份数,只
99、需要在群聊对话框中输入“/”和需求,几秒钟后一个订餐统计小程序就会展现在群聊中。如果用户想要统计其它同事的想法,只需要告诉“/”自己的需求是什么,“/”会自行生成一个群投票。图图 25:用户使用新钉钉训练专属助理机器人界面:用户使用新钉钉训练专属助理机器人界面 图图 26:新钉钉在文档中生成图片的界面:新钉钉在文档中生成图片的界面 数据来源:阿里云官方微信公众号,广发证券发展研究中心 数据来源:阿里云官方微信公众号,广发证券发展研究中心 图图 27:新钉钉:新钉钉生成生成表情包的界面表情包的界面 图图 28:新钉钉拍照:新钉钉拍照生成生成应用应用的界面的界面 数据来源:阿里云官方微信公众号,广
100、发证券发展研究中心 数据来源:阿里云官方微信公众号,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 2929/5858 Table_PageText 深度分析|计算机 国产办公软件在国产办公软件在AI领域有所积累,叠加领域有所积累,叠加AI大模型的内容生成能力实现质的提升。大模型的内容生成能力实现质的提升。2021年7月,金山办公发布深度学习框架KSAI-Lite,并创新推出智能写作、演示文稿、文档翻译等功能,推动AI技术在办公场景应用落地。2023年3月,阿里推出通义千问大模型,对于人机对话、长文本内容生成等AI应用效果较好。国产应用软件不仅在AI领域已有一定技术积累,还
101、深刻理解办公类软件的客户需求。因此,在内容生成类AI大模型取得通用化效果突破后,国产办公软件公司能敏锐的觉察相应的AI技术给既有办公产品可能带来的智能化升级效果,并及时结合产业链公司的技术优势快速推出AI内容生成的功能。我们认为,WPS AI的推出和阿里钉钉的升级不仅体现了公司快速结合新兴技术增强产品竞争力的创新力,还反映了其通过解决下游用户需求痛点实现产品价值量提升的商业敏感性。金蝶国际与多个模型提供商合作,金蝶国际与多个模型提供商合作,ERP产品智能化升级值得期待。产品智能化升级值得期待。2023年3月,金蝶国际宣布其正在与微软OpenAI联手进行一些具体应用场景的探索和测试,同时也宣布其
102、接入百度文心一言大模型。2023年5月,金蝶国际与百度签约,正式成为文心千帆的生态伙伴。未来,金蝶基于AI大模型的能力,结合其既有的行业知识、专有数据,以及B端业务的商业积累,有望对其ERP等企业管理软件产品进行智能化升级。在微软推出Dynamic 365 Copilot智能化功能后,金蝶的ERP软件的智能化升级路径更加清晰,功能开发也有迹可循。图图 29:文心千帆生态伙伴签约现场图文心千帆生态伙伴签约现场图 数据来源:金蝶国际官网,广发证券发展研究中心 从技术到商业化从技术到商业化,国产国产通用行政通用行政办公软件办公软件的智能化升级进展的智能化升级进展距离海外距离海外有差距有差距。(1)海
103、外方面,根据国外媒体The information报道,微软超过600家最大的客户,包括美国银行、沃尔玛、福特、埃森哲等,预计将尝试使用微软Office 365 Copilot应用,其中至少100家客户已经分别支付了10万美元的费用,满足最多1000个账号在一年内使用AI功能。这意味着海外GPT大模型在办公四件套(WordExcelPPTPDF)的应用或将进入实质性成规模的商业化推广阶段。识别风险,发现价值 请务必阅读末页的免责声明 3030/5858 Table_PageText 深度分析|计算机 (2)国内方面,WPS AI功能目前还处于测试阶段,相关办公智能化应用距离成熟到大量客户认可还
104、有较长的时间,主要障碍之一在于国内AI大模型的成熟度相较于ChatGPT和GPT-4仍有一段距离。总体而言总体而言,海外以海外以GPT为代表的为代表的AI大模型在办公软件的应用已进入商业化前夜大模型在办公软件的应用已进入商业化前夜,国,国内内AI大模型在大模型在通用行政通用行政办公类软件的应用处于产品化的初中期办公类软件的应用处于产品化的初中期,仍需要一段时间克,仍需要一段时间克服从产品化到商业化的挑战。服从产品化到商业化的挑战。(二)(二)AI 大模型有效提高程序大模型有效提高程序开发开发效率,软件开发行业开启变革效率,软件开发行业开启变革 AI大模型大模型可自动生成代码,助力程序高效开发可
105、自动生成代码,助力程序高效开发。经过大量代码数据训练的AI大模型,具备代码生成的能力,可有效减少程序开发人员编写代码的时间和精力,特别是基础类算法的代码。在AI大模型的帮助下,程序开发人员可以专注于更复杂和创造性的工作,从而提高整体生产力。在具体应用方面,主要有微软旗下GitHub Copilot X、亚马逊CodeWhisperer,国内的华为云CodeArts Snap、商汤的商量Sensechat、硅心科技的aiXcoder XL等。根据Big Ideas 2023报告,程序开发人员在人工智能编码助手GitHub Copilot的帮助下,减少了55%的代码开发时间,效率提升效果显著。图图
106、 30:GitHub Copilot节省程序开发时间节省程序开发时间55%图图 31:2020、2022、2030年年程序开发效率对比程序开发效率对比 数据来源:Big Ideas 2023,广发证券发展研究中心 数据来源:Big Ideas 2023,广发证券发展研究中心 AI大模型有效减少基础类算法代码的开发大模型有效减少基础类算法代码的开发,减少重复工作量减少重复工作量。对于开发人员来说,有许多基础性、重复性的算法开发任务很耗时。部分厂商通过建立代码库供程序开发人员搜索的方式来减少重复代码开发的时间。例如,aiXcoder的智能代码搜索功能中可以帮助开发者搜索相似的代码进行开发。在AI大
107、模型的帮助下,代码的搜索功能有望逐渐被代码生成功能取代。GitHub和OpenAI合作开发的GitHub Copilot工具可实现基础算法代码的自动生成,有效减少程序开发人员的重复工作。此外,该工具还可将代码的格式自动编排,有助于保持代码格式的一致性,使代码更容易阅读和理解。识别风险,发现价值 请务必阅读末页的免责声明 3131/5858 Table_PageText 深度分析|计算机 图图 32:aiXcoder的相似代码搜索功能界面的相似代码搜索功能界面 图图 33:GitHub Copilot帮助开发者生成基础类算法帮助开发者生成基础类算法代码代码 数据来源:aiXcoder 官网,广发
108、证券发展研究中心 数据来源:GitHub 官网,广发证券发展研究中心 AI大模型大模型助力助力提高所生成代码的质量。提高所生成代码的质量。编写简洁、高效和可读性强的代码对于程序开发至关重要。AI大模型可自动检查代码语法错误,调试代码,有效提升代码质量。在程序开发早期,AI大模型可以识别一些由于设计缺陷或不良编程习惯带来的问题,提供给开发人员进行快速修改,减少了后续传播对整体程序的影响。图图 34:GitHub Code Scanning的代码审查的代码审查功能功能 图图 35:GitHub Dependabot自动监视代码漏洞并提自动监视代码漏洞并提供修改意见供修改意见 数据来源:华为云官网,
109、广发证券发展研究中心 数据来源:华为云官网,广发证券发展研究中心 国外方面,国外方面,多模态大模型的代码生成功能已具备语音交互的能力多模态大模型的代码生成功能已具备语音交互的能力。GitHub是世界最大的面向开源及私有软件项目的托管平台,拥有超1亿的开发者用户。2023年3月,GitHub基于GPT-4推出智能编程助手GitHub Copilot X,其不仅在GitHub Copilot(基于GPT-3)的基础上提升了代码生成、代码建议、代码注释的响应速度和准确性,还支持通过语音交互生成代码的功能。在代码开发过程中,开发者可以通过文字和语音聊天的方式与GitHub Copilot X进行交互,
110、实现代码生成、运行程序等。我们认为,基于GPT-4多模态大模型的GitHub Copilot X与开发者可交互的信息类型更多,进一步提升了软件开发的易用性和开发效率。识别风险,发现价值 请务必阅读末页的免责声明 3232/5858 Table_PageText 深度分析|计算机 图图 36:GitHub Copilot X中中开发者通过语音交互的方开发者通过语音交互的方式生成代码式生成代码 图图 37:GitHub Copilot X中中开发者通过语音交互的开发者通过语音交互的方式运行程序方式运行程序 数据来源:GitHub Next,广发证券发展研究中心 数据来源:GitHub Next,广
111、发证券发展研究中心 GitHub Copilot提高开发人员提高开发人员工作体验工作体验。根据GitHub的官方博客,90%使用GitHub Copilot的开发人员表示编程速度更快,其自发布以来,GitHub Copilot已经帮助一百多万开发人员将编码速度提高了55%,超过400个组织已经在使用GitHub Copilot。如今,在所有编程语言中,平均有46%的代码是使用GitHub Copilot构建的。此外,根据量化GitHub Copilot对开发人员生产力和幸福感的影响研究结果,高达88%的用户表示使用GitHub Copilot帮助他们对工作更有满足感,96%的开发人员在重复性任
112、务中完成的更快,74%的开发人员更容易在GitHub Copilot加持下获得更多工作满足感。图图 38:GitHub Copilot节省程序开发时间节省程序开发时间55%图图 39:GitHub Copilot提升开发人员效率及满足感调提升开发人员效率及满足感调研数据统计研数据统计 数据来源:Big Ideas 2023,广发证券发展研究中心 数据来源:GitHub 官网,广发证券发展研究中心 国内方面,多家公司已开发代码生成类的AI应用。(1)华为:2023年2月,华为联合CSDN发布了智能化编程助手Coderarts Snap。该应用基于华为自研的代码大模型盘古Pangu-coder开发
113、。CSDN的用户使用该工具,可提升应用开发效率和代码质量。识别风险,发现价值 请务必阅读末页的免责声明 3333/5858 Table_PageText 深度分析|计算机 (2)商汤:2023年4月10日,商汤推出的商量大语言模型中,包含代码生成功能。“商量SenseChat”提供代码补全、注释生成代码、测试代码生成、代码翻译、代码修正、代码重构、复杂度分析等功能,有效提升研发效率。从根据商汤内部测试的结果来看,在使用“AI代码助手”后,代码编写效率可以提升62%,Humaneval测试集一次通过率可以达到40.2%。(3)硅心科技:公司开发的aiXcoder是基于深度学习代码生成技术的智能编
114、程工具,支持Java、Python、C#、C/C+、JavaScript、TypeScript、Go等多种编程语言。aiXcoder社区版的开发者用户已覆盖130多个国家和地区,为超过30万国际开发者提供智能化编程服务。图图 40:商汤的商量商汤的商量SenseChat代码生成能力展示代码生成能力展示 图图 41:aiXcoder的智能代码多行补全功能展示的智能代码多行补全功能展示 数据来源:量子位,广发证券发展研究中心 数据来源:aiXcoder 官网,广发证券发展研究中心 多模态多模态大模型大模型代码生成功能代码生成功能驱动软件开发行业驱动软件开发行业的技术变革刚刚开始的技术变革刚刚开始。
115、多模态大模型代码生成功能可部分替代人工程序开发工作,程序开发人员可以更专注于难度更高、更有创造力的工作。在软件开发过程中,AI大模型不仅提升了基础类算法开发效率,还大大降低了软件开发的技术门槛,有望推动程序开发的普及。我们判断,AI大模型在软件开发行业降本增效效果显著,其开启的技术变革才刚刚开始,充分利用AI大模型生成代码功能的公司有望取得先机,获得先发优势,快速成长。(三)(三)多模态多模态大模型大模型替代人工生成创意内容,创意设计软件迎智能化升级替代人工生成创意内容,创意设计软件迎智能化升级 1.多模态大模型技术变革创意设计软件,创新多模态大模型技术变革创意设计软件,创新内容生产的流程内容
116、生产的流程新新范式范式 多模态大模型在创意内容设计领域有较好应用前景多模态大模型在创意内容设计领域有较好应用前景。在游戏、广告、美术和影视等创意设计内容的领域,多模态大模型可帮助用户实现角色立绘、特效设计、动画分镜等多种图像的自动生成,较大提升创意设计工作的效率,降低制作成本,催生更多创意作品的产生。根据Big Ideas 2023报告,一般而言,美术设计人员耗时5小时,花费150美元的成本可创作一幅高精细度的图像。若用文生图的多模态大模型替代人工设计工作,其耗时少于一分钟,花费0.08美元的成本即可完成同样的工作。我们认为,以文生图为代表的多模态大模型在创意内容设计方面具有较好的人工替代效果
117、,未来其大规模推广有望给行业带来变革式发展。识别风险,发现价值 请务必阅读末页的免责声明 3434/5858 Table_PageText 深度分析|计算机 图图 42:生成式:生成式AI和设计人员创作图画的成本对比和设计人员创作图画的成本对比 数据来源:Big Ideas 2023,广发证券发展研究中心 在游戏领域,多模态大模型有望在文案、道具、角色、场景生成及玩法设计方面提在游戏领域,多模态大模型有望在文案、道具、角色、场景生成及玩法设计方面提升游戏研发效率,降低创作门槛。升游戏研发效率,降低创作门槛。随着游戏行业市场竞争加剧,产品研发成本持续高涨,尤其对于高品质、内容宏大的游戏来说,制作
118、难度更高、周期更长。多模态大模型的内容生成能力能够广泛应用于游戏角色、道具、特效及动画分镜各种场景的生成中。例如,Midjourney、Stable Diffusion等工具可以根据设计者输入的描述文本快速生成概念图像,降低制作成本,提升研发效率。我们认为,多模态大模型在游戏领域的应用有望全方位节省制作团队人力成本,包括策划、美术、程序等环节,有效提升游戏研发效率,降低制作门槛,增强行业创造力。图图 43:Midjourney大大模型模型生成生成的游戏道具的游戏道具图像图像 图图 44:Stable Diffusion大模型的图生图功能大模型的图生图功能 数据来源:AIDemos,广发证券发展
119、研究中心 数据来源:AIDemos,广发证券发展研究中心 在广告领域在广告领域,多模态大模型高效、多样的多模态大模型高效、多样的内容生产能力有望提高营销内容创新性和内容生产能力有望提高营销内容创新性和丰富度,从而带来更好的营销效果。丰富度,从而带来更好的营销效果。广告创意阶段,多模态大模型可以辅助设计人员生成广告的初稿,减轻相关人员在内容创意方面的压力。营销内容生成阶段,多模态大模型能够大量、高效产出营销内容,包括文字、图片、语音、视频等各种形式,帮助营销公司在内容生产环节降本增效。在广告投放环节,AI算法可以更精准地匹配消费者喜好,实现广告的智能推荐,提升触达消费者的广度和精确度。识别风险,
120、发现价值 请务必阅读末页的免责声明 3535/5858 Table_PageText 深度分析|计算机 图图 45:Midjourney大模型生成的快餐广告大模型生成的快餐广告 图图 46:Stable Diffusion大模型大模型生成生成的的食品食品广告广告 数据来源:Dribbble,广发证券发展研究中心 数据来源:AIDemos,广发证券发展研究中心 在在平面设计平面设计领域领域,多模态大模型,多模态大模型可生成设计样稿,为工作人员提供设计灵感可生成设计样稿,为工作人员提供设计灵感。基于大模型的涌现能力,多模态大模型可低成本生成大量参考设计素材。以Midjourney、Stable D
121、iffusion为代表的AIGC美术工具基于大量公开优质作品进行训练和整合,对于相同提示词,可低成本产出多个随机图像,为美术人员在装修设计、服装设计、场景构图等方面提供参考和灵感。目前已有包括服装设计公司和装修设计公司开始调用这些大模型的API进行辅助设计工作。例如,美国的时尚设计公司CALA利用DALLE模型快速生成各种服装样式,提供设计人员参考。新加坡的地产公司Stacked Homes利用Midjourney模型生成的房间内饰装修方案,有效减少工作人员设计时间。图图 47:嵌入嵌入DALLE模型的模型的CALA软件服装设计界面软件服装设计界面 图图 48:Midjourney生成的房间内
122、饰装修设计图生成的房间内饰装修设计图 数据来源:Spectrum,广发证券发展研究中心 数据来源:Stackedhomes,广发证券发展研究中心 2.文生图模型提供商均推出按次、按时长收费模式,但商业化拓展策略不同文生图模型提供商均推出按次、按时长收费模式,但商业化拓展策略不同 随着扩散模型和CLIP模型技术的逐渐成熟,国内外厂商纷纷推出文生图大模型,包括DALLE 2、Midjourney、Stable Diffusion等。以上三大多模态模型的技术较为成熟,使用人数较多,已形成一定的生态。(1)DALLE 2:DALLE大模型是OpenAI于2021年1月公布的产品,并于2022年4推出第
123、二代,可根据自然语言的描述创作高质量的图像,此外还能进行画面场景的扩展和画面内容的修改。2022年11月,OpenAI将DALLE 2的API开放供第三方调用。识别风险,发现价值 请务必阅读末页的免责声明 3636/5858 Table_PageText 深度分析|计算机 (2)Stable Diffusion:Stable Diffusion由Stability AI开发的大模型,于2022年8月发布并同时宣布开源,已经历4次迭代。目前其多采用本地部署,对电脑配置要求较高,且插件多功能复杂,学习成本更高。(3)Midjourney:Midjourney于2021年8月成立,由11人组成的小团
124、队开发,至今已迭代5个版本。目前其主要搭载在Discord社区上,用户向Midjourney Bot输入指令即可在云端完成生成。表表 13:海外文生图:海外文生图大模型对比大模型对比 文生图大模型文生图大模型 开发公司开发公司/团队团队 发展时间发展时间 功能功能 图片图片质量质量 开放程度开放程度 DALLE 2 OpenAI 2021 年 1 月发布第一代产品,2022年 4 月升级到第二代 除了根据提示词生成相应的图像外,该模型还能基于现有图像进行场景扩展和画面内容修改以及生成类似图像 DALLE 2 生成的图像与用户输入的文字契合度较第一代产品有 71.7%的提升,但是在画面与真实世界
125、物体的拟合度方面仍有可提升空间。API 开放调用 Stable Diffusion Stability AI 2022 年 8 月发布1.0 版本,2023 年4 月发布 XL 版本 根据文本描述产生详细图像,并应用于内补绘制、外补绘制,以及提示词引导下的图生图 最新版本的 Stable Diffusion XL 虽然在提示语缩短、构图和脸部生成能力上优化,但仍存在文本提示理解不足,动漫风格人物四肢畸形等问题 完全开源 Midjourney Midjourney 2022 年 3 月发布第一代产品,2023年 3 月已升级到第五代产品 除了根据提示词生成相应图片外,还具有图像融合、以图生图和生
126、成图片描述文字等功能 2023 年 3 月更新的 V5 版本已率先完善手指畸形的问题,并大幅提升了图像的写实细节、自然语言提示的理解能力。但是其生成的图片不能修改细节。闭源模型 数据来源:各公司官网,广发证券发展研究中心整理 Midjourney利用利用Discord社区快速拓展社区快速拓展用户规模。用户规模。Midjourney搭载在Discord社群中,用户可以选择进入在Discord中的一个聊天室,通过在聊天框中调用/imagine,根据图片特征输入符合语法的prompt,即可自动生成图片。聊天室属于公共频道,用户也可看到其它排队的用户所生成的图片。同时,使用Midjourney bot
127、应用的用户可以在个人频道中进行图片生成操作。用户不仅可以在自己的频道上创作,而且可以在公共频道欣赏其它用户的作品,这种交互式体验可以激发创作灵感,吸引潜在客户。通过Discord社区,Midjourney的用户数量快速增长。截止到2023年6月,Midjourney用户量已达1600万以上。识别风险,发现价值 请务必阅读末页的免责声明 3737/5858 Table_PageText 深度分析|计算机 图图 49:在在Discord界面中使用界面中使用Midjourney的界面的界面 图图 50:截止:截止2022年年5月月Midjourney的用户数的用户数 数据来源:Discord 官网,
128、广发证券发展研究中心 数据来源:Discord 官网,广发证券发展研究中心 Midjourney采取SaaS订阅制模式,共有三种订阅模式,Basic Plan(10美元/月或96美元/年)、Standard Plan(30美元/月或288美元/年)、Pro Plan(60美元/月或576美元/月)。不同的订阅模式对应用户的使用权限是不同的,具体体现在使用GPU训练图片的时间长度、在公共聊天室生成图片的数量等。图图 51:Midjourney的订阅价目表的订阅价目表 数据来源:Midjourney 官网,广发证券发展研究中心 Stable Diffusion在2022年8月推出的时候即以免费开源
129、的形式推出,因此用户可以免费使用该模型的源代码进行图像等内容生成。对于普通用户,使用程序语言来进行图片生成仍然存在一定门槛。因此,Stability AI在其官网上也推出了Dream Studio工具,直接输入关键词就可以进行图片的生成。用户在Dream Studio上生成图片是需要付费使用的,其收费价格根据生成图片的分辨率和步骤数在0.1-9.5美分/张之间。其中,步骤数量是和生成内容匹配提示词的契合度直接相关的。一般而 识别风险,发现价值 请务必阅读末页的免责声明 3838/5858 Table_PageText 深度分析|计算机 言,对于提示词较为复杂的图像,用户往往需要选择较高的步骤数
130、量才能得到满意的结果。表表 14:在在Dream Studio中使用中使用Stable Diffusion大模型生成图片的收费标准大模型生成图片的收费标准(单位:美分(单位:美分/张)张)分辨率 步骤数量 512 X 512 512 X 768 512 X 1024 768 X 768 768 X 1024 1024 X 1024 15 0.1 0.3 0.4 0.5 0.7 1.0 30 0.2 0.5 0.8 1.0 1.4 1.9 50 0.4 0.9 1.3 1.6 2.3 3.2 100 0.7 1.7 2.6 3.1 4.5 6.4 150 1.0 2.5 3.9 4.6 6.7
131、9.5 数据来源:Stability AI官网,广发证券发展研究中心 与Stability AI相比,OpenAI给DALLE大模型制定的收费规则更加简单。DALLE目前仅针对三种不同分辨率的图像生成分档来收取费用,其单张图片的价格在0.016-0.02美元之间,其收费的价格区间较Stable Diffusion的更窄。我们对比生成相同质量的图像,二者收费的价格。以生成一张512 X 512分辨率的图像为例,DALLE的收费价格是固定的,即1.8美分,高于Stable Diffusion的价格(0.1至1.0美分之间)。而生成一张1024 X 1024较高分辨率的图像,DALLE的收费价格是2
132、美分;Stable Diffusion的价格根据步骤数不同,在1.0至9.5美分之间。图图 52:DALLE大模型根据提示词生成图片界面大模型根据提示词生成图片界面 表表 15:OpenAI开发的开发的DALLE文生图大模型文生图大模型收费标准收费标准 分辨率 使用的价格(单位:美元/张)1024 X 1024 0.02 512 X 512 0.018 256 X 256 0.016 数据来源:Filmora,广发证券发展研究中心 数据来源:OpenAI 官网,广发证券发展研究中心 3.多模态大模型推动创意设计软件智能化升级,有望提升产品价值量多模态大模型推动创意设计软件智能化升级,有望提升产
133、品价值量 在在专业设计软件专业设计软件领域,领域,Adobe已将多模态大模型的生成能力融合到其创意设计软件已将多模态大模型的生成能力融合到其创意设计软件中中。海外的Adobe在2023年3月21日发布了嵌入多模态大模型的平面设计新产品Firefly。在Firefly软件界面上,用户通过输入自然语言就能快速生成图片、特效等内容。基于Firefly的内容生成能力,Adobe对其既有的设计软件进行了一系列升级:(1)2023年4月,Adobe宣布将Firefly的智能生成功能集成在Premiere Pro视频制作产品中。在视频编辑过程中,用户通过输入文字提示词,即可实现视频的色彩优化、特效添加、背景
134、音乐更换等功能。(2)2023年5月,Adobe宣布将Firefly嵌入Photoshop图像编辑软件中,并新增Generative Fill功能,根据用户输入的提示词,自动修改图像部分区域。Adobe Firefly智能生成功能的亮点在于用户用自然语言即可完成各类复杂的设计操 识别风险,发现价值 请务必阅读末页的免责声明 3939/5858 Table_PageText 深度分析|计算机 作工作,大大缩短了设计工作的周期,降低了专业设计类软件的使用门槛,有效提升产品的吸引力。目前Firefly的智能化功能还处于Beta测试阶段,部分客户可提出Firefly的使用申请后免费使用。我们认为,嵌入
135、了Firefly功能的Adobe全系列产品线的竞争力得到有效增强,后续有望扩大客户规模,并在市场份额和客户规模达到一定程度后提高ARPU及付费用户转换率,推动营收的快速增长。图图 53:Adobe Firefly给视频匹配背景音乐给视频匹配背景音乐 图图 54:Adobe Firefly给视频中的人物增加亮度给视频中的人物增加亮度 数据来源:Adobe 官网,广发证券发展研究中心 数据来源:Adobe 官网,广发证券发展研究中心 图图 55:Photoshop中中通过自然语言指令通过自然语言指令在图像中在图像中自自动生成道路标线展示动生成道路标线展示 图图 56:Photoshop中中通过自然
136、语言指令通过自然语言指令在图像中在图像中生生成成湖面倒影湖面倒影展示展示 数据来源:Adobe 官网,广发证券发展研究中心 数据来源:Adobe 官网,广发证券发展研究中心 国内方面国内方面,万兴科技是创意设计领域的领先公司万兴科技是创意设计领域的领先公司。万兴科技面向C端用户为主,提供数字创意产品和服务,具体包括视频创意、绘图创意、文档创意、实用工具四大产品线:(1)视频创意软件:提供包含视频、图片、音乐及特效素材资源在内的多种优质视频创意解决方案与服务。具体产品包括视频类的万兴喵影视频编辑软件、万兴播爆数字人营销短视频创作工具,图片类的Sweet Selfie、Sweet Snap图片编辑
137、软件和素材资源类的万兴喵库。(2)绘图创意软件:针对企业用户完成工作创意的构建和灵感转化的需求,提供包括思维导图、项目管理、平面布置、工艺工程等在内的各类图形图表的绘制工具。主 识别风险,发现价值 请务必阅读末页的免责声明 4040/5858 Table_PageText 深度分析|计算机 要产品包括亿图脑图(国外版本:EdrawMind)、亿图图示(国外版本:EdrawMax)、墨刀(国外版本:Mockitt)等。此外,近期推出的万兴爱画万兴爱画也属于该类软件,利用AI生成技术帮助用户创作高质量、多风格的创意绘画作品。(3)文档创意软件:主要产品即万兴PDF(国外版本:PDFelement)
138、,PDF处理软件,满足文档创作、编辑、阅读、翻译、保护等多样需求。(4)实用工具软件:包括万兴恢复专家(国外版本:Recoverit)、Dr.Fone、万兴手机管家、万兴易修(国外版本:Repairit)等多款数据及设备管理类应用工具产品。图图 57:万兴:万兴科技产品矩阵科技产品矩阵 数据来源:万兴科技 2022 年年报,广发证券发展研究中心 万兴科技已推出图像生成类万兴科技已推出图像生成类AI绘画产品万兴爱画。绘画产品万兴爱画。2022年11月,万兴科技公司推出万兴爱画AI绘画产品,可根据用户输入的描述文字生成图片,或根据用户上传的图片生成不同风格的图片,具体风格包括粉彩、超彩、二次元增强
139、、写实2.5D等。该产品典型目标客户包括设计师、游戏工作者、自媒体人等。例如在游戏方面,万兴爱画能够快速生成游戏场景、角色与道具等高精度的美术素材,提升游戏内容的 识别风险,发现价值 请务必阅读末页的免责声明 4141/5858 Table_PageText 深度分析|计算机 创作质量及效率,而自媒体人也能够通过通过万兴爱画快速实现个性化内容生产。图图 58:万兴爱画输入自然语言文字万兴爱画输入自然语言文字 图图 59:万兴爱画根据自然语言文字生成图片万兴爱画根据自然语言文字生成图片 数据来源:万兴科技官网,广发证券发展研究中心 数据来源:万兴科技官网,广发证券发展研究中心 图图 60:万兴爱
140、画上传图片万兴爱画上传图片 图图 61:万兴爱画根据图片生成次元图片万兴爱画根据图片生成次元图片 数据来源:万兴科技官网,广发证券发展研究中心 数据来源:万兴科技官网,广发证券发展研究中心 万兴科技的万兴科技的智能化智能化设计软件设计软件万兴爱画万兴爱画已已开始收费开始收费。万兴爱画的定价方面,首先注册登陆用户每天将获赠5次免费创作次数。如需创造更多作品,则需单独购买。当前,公司共推出三种创作权益包,10次创作5元人民币(0.5元/次)、30次创作12元人民币(0.4元/次)以及100次创作20元人民币(0.2元/次)。图图 62:万:万兴爱画的收费标准兴爱画的收费标准 数据来源:万兴科技官网
141、,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 4242/5858 Table_PageText 深度分析|计算机 总体而言,总体而言,面向面向C端的端的消费服务和行政办公消费服务和行政办公类类的的应用已率先开始智能化升级的进程。应用已率先开始智能化升级的进程。消费服务和通用行政办公等领域由于数据相对容易获取,应用壁垒偏低和行业特征较弱等属性,使得相应领域在接入通用AI大模型后的应用产品化落地较快,普适性较高,但下游应用相应也面临较大的同质化挑战。技术驱动下,行业智能化升级的趋势清晰。技术驱动下,行业智能化升级的趋势清晰。多模态大模型在各类文本、图片、音视频等方面表现出了
142、愈加出众的能力,一方面能够以优于人类的知识水平承担信息挖掘、素材调用、编辑优化等基础劳动,另一方面更重要的是能够创新内容生产的流更重要的是能够创新内容生产的流程和范式,为更具想像力的内容、更加多样化的传播方式提供可能性,降低创作门程和范式,为更具想像力的内容、更加多样化的传播方式提供可能性,降低创作门槛,推动内容生产槛,推动内容生产更加高效更加高效、便捷便捷。我们认为,在技术驱动下产生的行业变革已经显现,全面拥抱生成式AI技术,提升产品智能化功能,或成为文本办公类、程序开发类、创意设计类等各类应用软件的必然选择。竞争竞争格局方面格局方面,下游应用面临同质化竞争的背景下,在商业模式和收费方式上取
143、得,下游应用面临同质化竞争的背景下,在商业模式和收费方式上取得差异化优势的企业有利于占据领先地位。差异化优势的企业有利于占据领先地位。目前,商业模式正在向两个方向探索:模型提供商推出的AI服务多以“按次收费”或“按时长收费”的形式落地,并尝试自研应用的拓展;其也寻求与应用厂商的合作,将模型能力嵌入到应用软件后实现商业化。总体而言,现阶段仍处于商业化早期阶段,最终价值将如何在大模型厂商与应用厂商之间分配,目前仍有较大不确定性。下一阶段下一阶段,各科技厂商能否探索出稳定、,各科技厂商能否探索出稳定、可持续的尤其是可持续的尤其是To B端的商业模式并确定合理的产业链定位将会成为竞争的关键。端的商业模
144、式并确定合理的产业链定位将会成为竞争的关键。识别风险,发现价值 请务必阅读末页的免责声明 4343/5858 Table_PageText 深度分析|计算机 三、三、专业垂直领域专业垂直领域,AI 大模型的应用对各行业影响各异大模型的应用对各行业影响各异 各行业智能化升级仍受限于数据安全、技术壁垒以及监管要求。各行业智能化升级仍受限于数据安全、技术壁垒以及监管要求。尽管类GPT大模型具有极强的通用泛化能力,在许多行业场景中展现出强大性能,但是在一些专业程度较高的领域,其输出内容在一致性、正确性预计可解释性等方面仍存在不足。其主要是AI大模型在训练过程中使用的大多是互联网上的公开数据,难以深度覆
145、盖专业性较强的垂直领域。但是许多行业中最有价值的Know-how并不在公开资料中,而是在企业的私有数据库、行业专家、企业员工的工作经验里。因此,AI大模型的应用对不同行业的影响存在差异性。总体而言,存在以下规律:(1)在面向C端用户的,通用行政办公类应用和消费服务应用受AI大模型影响的智能化升级节奏更快,产品化落地较快,其主因是在数据可采集的渠道更加丰富且受监管的要求较低。(2)面向B端用户的,专业化程度较高的领域,例如医疗、金融、工业等行业的智能化升级需要更多专业领域的数据训练,相应的商业化节奏较慢,其主因是行业的特殊性导致数据安全要求较高、试错成本高、受监管要求较高等。(一)(一)从从 O
146、penAI 的的插件系统插件系统拓展拓展节奏节奏看行业应用的变化趋势看行业应用的变化趋势 OpenAI的的Plugins覆盖范围快速扩散,加速影响行业应用。覆盖范围快速扩散,加速影响行业应用。2023年5月13日,Open AI宣布近期向所有ChatGPT Plus付费用户开放Web Browsing(网页浏览)和Plugins(插件系统)功能,测试由Alpha进入Beta阶段,升级实时应用体验及插件生态系统。2023年3月底,OpenAI的Plugins开启Alpha测试阶段时仅包含12个第三方插件。不到两个月时间,Plugins插件系统快速扩展至超过70个应用,覆盖办公、教育、电商等诸多领
147、域。我们判断,Plugins覆盖范围的快速扩散开启了GPT大模型在各垂直领域的应用,对于行业应用的影响有望加速。图图 63:GPT-4的的对话中对话中选择选择接入的插件界面接入的插件界面 图图 64:GPT-4的的插件商店界面插件商店界面 数据来源:OpenAI 官网,广发证券发展研究中心 数据来源:OpenAI 官网,广发证券发展研究中心 首批开放的插件已覆盖衣食住行等各领域,合作企业处于行业第一梯队。首批开放的插件已覆盖衣食住行等各领域,合作企业处于行业第一梯队。2023年3 识别风险,发现价值 请务必阅读末页的免责声明 4444/5858 Table_PageText 深度分析|计算机
148、月,OpenAI首批开放可使用的第三方插件有12个,涉及8个领域:1.旅游出行2个:全球范围内领先的旅游信息服务平台Expedia和KAYAK 2.食品外卖1个:美国和加拿大领先的在线食品杂物外卖平台Instacart 3.餐饮预订1个:全球范围领先的在线餐厅预定平台Open Table 4.在线购物2个:全球范围内领先的在线购物平台Shopify和Klarna Shopping 5.数据提供商1个:全球领先的法律、政治、监管政策数据信息提供商FiscalNote 6.语音服务2个:AI语音服务商Speak和Milo 7.科学研究1个:美国范围内领先的科研工具平台Wolfram 8.通讯工具2
149、个:全球范围内领先的在线应用集成平台Zapier和Slack 首批首批插件的开放展现出插件的开放展现出OpenAI在着力深入各垂直领域知识在着力深入各垂直领域知识,在塑造行业生态建设,在塑造行业生态建设的前瞻性方面走在了整个的前瞻性方面走在了整个AI大模型行业的前列,大模型行业的前列,有利于催生AI大模型在各垂直领域实现商业化和产品化落地。在行业中市场份额和AI技术储备处于相对领先位置的企业将会主动寻求与OpenAI合作抢占先机,巩固市场和技术方面的相对优势。例如FiscalNote是全球领先的法律、政治、监管政策与数据信息提供商,也是OpenAI首次开发插件应用时在该领域的唯一启动合作伙伴。
150、FiscalNote将利用此次接入插件的机会,进一步了解用户在使用AI大模型理解相关领域信息的需求,同时其在垂直领域的专属数据集也提高了GPT-4回答专业问题的准确性。我们认为,首次插件开放既体现了合作伙伴在行业私域数据集和训练模型方面的积累,又体现出OpenAI在优化大模型和专业数据收集工作方面的前瞻性。表表 16:ChatGPT在在Alpha测试阶段测试阶段开放开放的的插件及相关公司业务汇总插件及相关公司业务汇总 插件插件 应用应用 公司业务公司业务 市场份额市场份额 备注备注 旅游出行旅游出行 Expedia 根据用户的对话内容获取有关旅行地点,住宿情况,出行方式,景点活动等信息,自动生
151、成酒店比较、航班价格跟踪、旅行建议等相关信息供用户参考 全球领先出行信息服务平台,提供了在线机票、酒店、旅游度假、租车、游轮、旅游活动预订等服务 处于第一梯队,在北美地区 Expedia 与Booking 份额合计超过 90%,2022 年营收分别为 171 和116.7 亿美元 全球性公司 KAYAK 根据用户的对话内容获取有关旅行地点,住宿情况,出行方式,景点活动等信息,自动生成酒店比较、航班价格、用车等相关信息供用户参考 Booking 旗下的旅游搜索引擎 处于第一梯队,在美国的在线旅游服务网站中的流量排名为第三名-杂货食品等外卖杂货食品等外卖 Instacart 根据用户的对话内容获取
152、特定零售杂活信息,自动生成购买及配送服务,例如根据膳食信息相关在美国和加拿大经营在线食品杂货购物和送货服务 处于第一梯队,2022 年在美国的市占率达 74.3%杂货食品外卖行业唯一公司 识别风险,发现价值 请务必阅读末页的免责声明 4545/5858 Table_PageText 深度分析|计算机 对话,自动生成食谱及所需食材,创建购物清单并配送功能 餐厅推荐及预订餐厅推荐及预订 Open Table 根据用户的对话内容,自动生成餐厅推荐信息 全球领先的在线餐厅预订平台之一,用户可以使用 OpenTable 搜索和浏览当地餐厅的菜单、评价和照片,并进行预订。处于第一梯队,全球市场份额达 31
153、.02%餐饮预订行业唯一公司 电商购物电商购物 Shop 根据用户输入的购物需求描述自动生成个性化购物推荐 全球领先的购物电商平台 Shopify 的销售渠道,用户可将其添加到 Shopify 后台或者下载 Shop APP 使用该软件。Shop 向用户提供商品和支付服务,还提供了来自各大品牌、时尚博主的消费指南和风格搭配建议等。处于第一梯队,在北美份额达 23%,仅次于 Woo Commerce,在欧洲和亚洲的份额也在不断上升 全球性公司 Klarna Shopping 根据用户输入的购物需求描述自动生成个性化购物推荐 瑞典的一站式在线购物平台,全球“先买后付”市场领导者,向用户提供商品和支
154、付服务,以及来自各大品牌、时尚博主的消费建议等。处于第一梯队,“先买后付”细分领域全球份额达 55%全球性公司 信息数据提供商信息数据提供商 FiscalNote 用户可通过对话形式获取FiscalNote 平台上关于法律、政治、监管的相关政策与数据信息 全球领先的法律、政治、监管政策与数据信息提供商 处于第一梯队,OpenAI 在法律、政治和监管领域的唯一启动合作伙伴 语音服务语音服务 Speak 根据用户跨语言的对话需求,例如翻译或解释文本时,为用户提供个性化的语音学习服务体验。总部位于瑞士的语音技术公司,主要产品为 AI 驱动的语音助手平台,可以集成到企业的在线客服系统、智能机器人、语音
155、应答系统等不同的应用场景中。处于第一梯队,在跨语言学习领域领域处于领先水平-Milo 根据用户提供的日常事务信息,自动生成清晰明了的信息清单 新一代智能家居设备与服务的领军企业,专注于为家庭和儿童开发基于语音和 AI技术的智能家居设备和服务。处于第一梯队,在家庭事务和看护幼儿领域智能化水平领先-科学研究科学研究 Wolfram 通过 Wolfram 语言和计算知识引擎 Wolfram Alpha,为用户提供更精确的数学及实时数据相关的信息内容 一家美国综合性技术平台,主要产品是一个广泛用于各个领域的计算机代数系统Mathematica,以智能搜索为特点的计算知识引擎 Wolfram Alpha
156、,云计算平台Wolfram Cloud,语义化数据框架Wolfram Data Framework。处于第一梯队,全球有超过 259 家公司开始使用其作为研究工具 科研工具领域唯一公司 通讯平台通讯平台 Zapier 帮助用户在 Zapier 的平台上的不同应用服务之间自动转化信息和业务流程,例如使用 ChatGPT自动生成 Recruit CRM 中新候选人的信息 一个可以在各种应用之间进行信息交换和将业务流程自动化的云服务平台,Zapier的平台可以与 1000 多个常见的在线应用程序(例如 Gmail、Slack、Trello、处于第一梯队,全球份额达 7.34%,全球有超过 5481
157、家公司开始使用 Zapier 作为集成工具-识别风险,发现价值 请务必阅读末页的免责声明 4646/5858 Table_PageText 深度分析|计算机 Dropbox、Salesforce 等)整合,以便在它们之间自动传递数据和执行各种任务。Slack 根据用户工作流程及企业内部信息协助用户自动生成邮件,对话文本等内容 基于云计算的即时通讯款件,提供了一个云端在线工作区,将邮件,短信,GoogleDrives,Twitter 等各种碎片化的企业沟通协作工具集中在一起,使团队成员可以快速高效地进行实时信息共享 处于第一梯队,全球份额达 21.49%,全球已有超过 31.5 万家公司开始使用
158、Slack 作为通信工具。-数据来源:OpenAI 官网,各公司官网,广发证券发展研究中心 我们对比了此次Beta测试阶段的接入的超过70家第三方插件相应公司的行业地位和市场规模。从从3月底的月底的Alpha测试阶段测试阶段至今,两个月间至今,两个月间Plugins插件系统插件系统由各行业的由各行业的一线公司快速拓展到二、三线公司,一线公司快速拓展到二、三线公司,GPT大模型在各垂直场景的应用正在深入和加大模型在各垂直场景的应用正在深入和加快。快。在Beta测试阶段插件商店覆盖了涉及到通用行政办公(27个)、餐饮/食谱(4个)、房地产(5个)、购物(5个)、交通/旅行/天气(6个)、金融商业(
159、4个)、就业服务(2个)、社交(1个)、社区服务(1个)、网站服务(3个)、医疗保健(1个)、娱乐/媒体/游戏(9个)、运动(2个)等13个行业领域,体现出Plugins插件系统在与消费者日常行为相关度较高的领域的应用进程正在加快。各各行业行业专业化专业化程度和程度和AI大模型试错成本大模型试错成本存在较大差异,其直接影响存在较大差异,其直接影响GPT-4在下游行在下游行业应用的业应用的技术技术安全性与安全性与商业普适性。商业普适性。接入Plugins插件系统在医疗保健领域仅有一家公司Shimmer:Nutrition Coach。医疗领域的专业性较强、安全要求较高,其智能化升级或需要更多的专
160、业领域数据的训练。许多行业中最有价值的Know-how并不在公开资料中,而是在企业的私域数据库、行业专家、企业员工的工作经验中。例如医疗领域的专业性较强、安全要求较高,与生命安全密切相关的行业特殊性决定了生成式AI在该领域的试错成本较高,所以其智能化升级需要更多专业领域数据的训练,商业化进程较慢,受到的监管要求也更高。我们认为,虽然衣食住行等消费领域的AI应用产品化落地较快,普适性较高,但是也容易陷入同质化竞争的局面,而在商业模式和收费方式上取得差异化优势的企业有利于占据领先地位。医疗、金融等高壁垒领域虽然技术安全难度较大,商业化进程较慢,但这也为在行业私域数据和模型训练有所积累的企业提供了重
161、塑竞争格局的机会。表表 17:GPT-4在在Beta测试阶段开放的插件汇总测试阶段开放的插件汇总 相关领域相关领域 插件名称插件名称 具体介绍具体介绍 行业地位行业地位 技术安全要求技术安全要求 通用行政办公通用行政办公 AskYouPDF 从 PDF 文件内容提取内容,并生成摘要、分析等内容 在 PDF 软件领域处于第三梯队。虽然与传统的 PDF 巨头 Adobe、福昕软件、Nitro、万兴科技相比市场份额较小,但是在智能化生成内容方面处于相对领先地位 弱 识别风险,发现价值 请务必阅读末页的免责声明 4747/5858 Table_PageText 深度分析|计算机 Block Atlas
162、 查询美国人口普查数据,并提供可视化结果-Bohita 利用 AI 设计服装-Chat With PDF 通过提供一个 PDFURL,对 PDF 进行分析和提问 在 PDF 软件领域处于第三梯队。虽然与传统的 PDF 巨头 Adobe、福昕软件、Nitro、万兴科技相比市场份额较小,但是在对话式生成内容方面处于相对领先地位 Creati Code Scratch 将 Scratch 程序显示为图像,并使用 Creati Code Scratch 扩展编写 2D/3D 程序-DEV Community 推荐 DEV 社区上的文章和用户-Diagram It 直接在聊天中创建和编辑图表 在图表编辑
163、软件中处于第三梯队,但对话式生成图表方面相对其它同梯队软件走在前端 edX 查找一流大学的课程和内容 在学术学习管理软件中,市场份额为0.2%,FiscalNote 搜索法律、政治、监管方面的信息和数据 处于第一梯队,OpenAI 首批插件开放中,在法律、政治和监管领域的唯一启动合作伙伴 Glowing 安排和发送每日短信,包括提醒、灵感、帮助和其他信息-Golden 从 Golden 知识图谱平台中获取公司当前的实际数据-KalendarAI Al 销售代理,帮助用户从潜在客户那里获得收入 相对领先于主要竞争对手 Copy.AI KeyMate.AI Search 使用由 AI 驱动的自定义
164、搜索引擎查找网页 相对领先同质产品,插件上线第一天就被使用 2000 余次 Kraftful 帮助用户进行产品开发-Noteable 查找有影响力的非营利组织 市场份额是其直接竞争对手 OnStage 的两倍左右 Polarr 搜索 Polar 用户生成的照片和视频滤镜 相对领先于主要竞争对手 VSCO Prompt Perfect 自动生成优化后的 Prompt-ScholarAI 搜索科学研究成果和同行评审内容-Speak 语言学习和翻译 处于第一梯队,在跨语言学习领域领域处于领先水平 Speechki 将文本转换成语音文件,支持不同语言之间的转换 相对落后于直接竞争对手 AMAI Tut
165、ory 寻找学生辅导服务-VoxScript 支持搜索 YouTube 文本、财务数据源和Google 搜索结果等-Web Pilot 根据一个或多个 URL,浏览网页内容并生成摘要、总结、翻译等内容-识别风险,发现价值 请务必阅读末页的免责声明 4848/5858 Table_PageText 深度分析|计算机 Wolfram 通过 Wolfram|Alpha 搜索引擎和 Wolfram 语言(一种计算模式)访问计算、数学、管理知识和实时数据 处于第一梯队,全球有超过 259 家公司开始使用其作为研究工具 Yabble 根据受众创建调查、收集数据和进行分析-Yay!Forms 在 Yay!F
166、orms 上创建 AI 驱动的表格、调查、测验或问卷-Zapier 可以与超过 5000 个应用程序交互,比如Google Sheets、Gmail、HubSpot、Salesforce 等等,适合有跨应用自动执行任务的用户 处于第一梯队,全球份额达 7.34%,全球有超过 5481 家公司开始使用 Zapier 作为集成工具 餐饮餐饮/食谱食谱 OpenTable 查找可预订的餐厅 处于第一梯队,全球市场份额达 31.02%弱 Tabelog 查询日本可预订的餐厅 在日本处于领先地位 Instacart 查找食谱,找出你需要的食材,然后将其添加到购物清单中 处于第一梯队,2022 年在美国的
167、市占率达74.3%Tasty Recipes 查询食谱 在美国处于相对领先地位 房地产房地产 Manorlead 查找加拿大和美国出租或出售的房屋列表 在加拿大和美国处于相对领先地位 弱 Redfin 查找房地产市场的信息 2022 年在美国的市场占有率为 0.80%Rentable Apartments 根据需要和预算,寻找出租公寓 在同类软件中,排第五名 Wahi 提供加拿大房地产市场信息-Zillow 查找房地产信息,提供购房建议 按访客流量计算,Zillow 是美国最大的房地产网站 购物购物 Coupert 从网络商店上查找优惠券-弱 Klarna Shopping 搜索和比较网上商店
168、的价格 市占率为 6.80%Lexi Shopper 从当地的亚马逊商店获得产品推荐-Shop 查找产品信息 处于第一梯队,在北美份额达 23%,仅次于 WooCommerce,在欧洲和亚洲的份额也在不断上升 Wishbucket 搜索韩国所有平台和品牌的产品 在韩国处于相对领先地位 交通交通/旅行旅行/天气天气 Expedia 查询交通、住宿、旅游项目等信息 处于第一梯队,在北美地区 Expedia 与Booking 份额合计超过 90%,2022 年营收分别为 171 和 116.7 亿美元 弱 Get Your Guide 查找可以预订的旅游、短途旅行和其他旅游活动 在 similarw
169、eb 网站的同类网站排名中排名第二 Hauling Buddies 使用推荐、评论和搜索功能寻找可靠的动物运输商-识别风险,发现价值 请务必阅读末页的免责声明 4949/5858 Table_PageText 深度分析|计算机 KAYAK 搜索航班、住宿和租赁汽车信息,根据预算提供旅行推荐 处于第一梯队,在美国的在线旅游服务网站中的流量排名为第三名 Turo 寻找 Turo 平台上的租车服务-Weather Report Data 使用 METAR(航空例行天气报告)数据查询城市和机场的当前天气数据-金融商业金融商业 AITickerChat 查询美国证券交易委员会(SEC)的文件和业绩电话会
170、记录-较强 BizToc 搜索商业和金融新闻-Portfolio Pilot 为投资组合进行评估、提供建议,回答财务相关的问题-Savvy Trader Al 提供实时股票、加密和其他市场的数据-就业服务就业服务 Ambition 搜索附近的工作机会 市场份额为 5.61%弱 Vivian Health 寻找医疗保健领域的工作机会-社交社交 Giftwrap 提供赠送礼物的建议-弱 社区服务社区服务 Change 查找有影响力的非营利组织-弱 网站服务网站服务 Cloudflare Radar 实时洞察网络流量模式和威胁 市场份额 95.80%较弱 One Word Domains 检查域名的
171、可用性,并比较不同注册商之间的价格-SEO.app 个人 SEO(搜索引擎优化)助理,帮助用户进行内容营销-医疗保健医疗保健 Shimmer:Nutrition Coach 帮助用户追踪膳食和获得更健康的生活方式-非常强 娱乐娱乐/媒体媒体/游戏游戏 Algorithma 在生活模拟器游戏中塑造虚拟生活,游戏没有固定结局,玩家可以按照自己的意愿塑造角色-弱 Chess 与 AI 下国际象棋-Crafty Clues 通过 AI 提供的线索猜词,非常热爱文字游戏和字谜的用户-Likewise 推荐电视、电影、书籍和播客等娱乐媒体内容-MixerBox OnePlayer 查找并播放各种类型的音乐
172、、播客和视频-Open Trivia 从不同类别和难度水平的百科问题,适合那些非常想要挑战自己在各个领域的知识面的用户-Video Insights 查找在线视频平台如 Youtube 或 DailyMotion的内容-Word Sneak 提供 AI 猜题游戏服务-Comic Finder 查找漫画,目前支持 XKCD 和 SMBC 网站-识别风险,发现价值 请务必阅读末页的免责声明 5050/5858 Table_PageText 深度分析|计算机 运动运动 Keyplays Live Soccer 提供最新的足球赛事实时排名、结果、评论、直播电视台等-弱 Ndricks Sports 通
173、过调用运动软件 Ndricks API,获取职业球队(NHL、NBA、NFL、MLB)的信息-数据来源:Getit.ai,Enlyft,Hacker News,Cbinsights,6sense,Similarweb,Verified Market Research,广发证券发展研究中心 AI大模型的泛化能力叠加垂直领域大模型的泛化能力叠加垂直领域Know-how有望催生新型生态系统。有望催生新型生态系统。Plugins插件系统的推出和范围扩大是集合了各行业生态伙伴的力量,来弥补GPT大模型在垂直领域专业性不足的问题。我们认为,此次升级的拥有专业领域知识的插件系统,通过第三方不断丰富的应用知识
174、库有效增强自身生态建设,加速其在各垂直行业应用的渗透,最终将使得最终将使得GPT-4成为超级入口的可能性大大增加。成为超级入口的可能性大大增加。另一方面,GPT-4集合各垂直领域应用的新型生态系统的推出,对于拥有简单功能的APP预计将形成较大冲击和挑战,现有入口体系面临技术驱动下重新洗牌的风险。图图 65:ChatGPT Plugins生态系统生态系统 数据来源:Analytics in Diamag,广发证券发展研究中心 识别风险,发现价值 请务必阅读末页的免责声明 5151/5858 Table_PageText 深度分析|计算机 (二)(二)AI+金融:由客服向投研领域逐步拓展金融:由客
175、服向投研领域逐步拓展 数据的安全性和监管合规的要求使得数据的安全性和监管合规的要求使得AI大模型在大模型在金融金融领域的应用领域的应用呈现呈现出私域的特点出私域的特点。金融领域的数据涉及较多用户的隐私信息,如身份信息、资产信息和交易数据等。因此,数据安全防范和隐私保护在金融行业在信息化和智能化升级中是必须考虑的前提。此外,监管合规的要求也使得金融行业的数据获取的权限有级别之分,较大部分数据仅限于企业内部使用。因此,由于数据获取难度大和数据安全保护的要求,使得AI大模型在金融领域的训练和应用环节都遇到了较高的行业壁垒。我们认为,AI大模型在金融领域的应用,更可行的方式是利用行业或企业私域数据,训
176、练出本地使用的AI大模型在内部使用。AI大模型技术在金融领域将首先在客服和辅助研究等场景落地,随着国内大模型逐大模型技术在金融领域将首先在客服和辅助研究等场景落地,随着国内大模型逐渐优化,投研端才有可能逐渐接入。渐优化,投研端才有可能逐渐接入。根据基于金融行业特有的行业属性,大规模商用的技术对于准确性、可控性、时效性有很高的要求,并且需要具备很强的专业性、逻辑性和创造性。通用AI大模型缺乏金融行业特有数据的训练,因此其对金融专业问题的人机交互和内容生成效果一般。在观察了彭博社推出的大语言模型BloombergGPT开发和应用过程后,我们可以预期金融行业的公司或借鉴通用AI大模型的技术原理,结合
177、自身专业数据积累,打造属于企业内部的小模型,应用场景由客服、顾问等一般应用逐步向投研、理财等核心应用拓展。彭博彭博社社推出推出BloombergGPT,持续引领金融科技创新浪潮。,持续引领金融科技创新浪潮。2023年3月30日,彭博社发布了一篇研究论文,详细介绍了 BloombergGPT大语言模型的开发。这种大型语言模型(LLM)专门针对各种金融数据进行了训练,以支持金融行业内的各种自然语言处理任务。该模型是基于BLOOM、专为金融行业打造的500亿参数大语言模型。BloombergGPT将协助彭博社升级现有的金融NLP任务,例如情感分析、命名实体识别、新闻分类和问答等。此外,Bloombe
178、rgGPT可通过分析彭博机终端上可用的大量数据,挖掘数据价值,提升用户体验。图图 66:BloombergGPT的介绍原文的介绍原文 数据来源:BloombergGPT:A Large Language Model for Finance,广发证券发展研究中心 BloombergGPT在现有的金融特定NLP基准、一套彭博内部基准、来自流行基准的广泛通用NLP任务类别(例如,BIG-bench Hard、知识评估、阅读理解和语言任 识别风险,发现价值 请务必阅读末页的免责声明 5252/5858 Table_PageText 深度分析|计算机 务)上得到验证。值得注意的是,BloombergGP
179、T模型在金融任务上的表现远超类似规模的开放模型,而在一般NLP基准上的表现也达到甚至超过了平均水平。表表 18:BloombergGPT在金融特定任务和通用任务的表现优于其他的在金融特定任务和通用任务的表现优于其他的 数据来源:Bloomberg 官网,广发证券发展研究中心 在模型技术路线上,国内外厂商的选择有所差异,国内的金融公司如同花顺、恒生电子借鉴的是BERT大模型。BERT是基于Transformer走Encoder的技术路线,考虑上下文来组织文字内容的生成,更加适合完形填空、阅读理解类的任务。而GPT是走的Decoder的技术路线,只考虑上文,对于下文的内容生成自由度比较高,更加适合
180、自由问答类的任务。从目前相关应用落地速度来看,GPT的表现略胜一筹。同花顺持续践行“同花顺持续践行“All in AI”战略,已积累多项战略,已积累多项AI技术。技术。同花顺在AI领域的研发投入较大,尤其近两年加大了对机器学习、自然语言处理、智能语音、图形图像识别与处理、数字人等关键技术的攻关,特别是在AI大模型、生成式AI技术等领域的应用研究,并将相关成果运用到金融信息产品和服务中,提升用户体验和产品竞争力。目前,公司可面向客户提供数字虚拟人、智能金融问答、智能语音、智能客服机器人、智能质检机器人、会议转写系统、智慧政务平台、智能医疗辅助系统等40余项人工智能产品及服务,应用于证券、基金、银
181、行、保险等多个行业。表表 19:同花顺各类同花顺各类AI产品产品 数据来源:同花顺 AI 开放平台,广发证券发展研究中心整理 识别风险,发现价值 请务必阅读末页的免责声明 5353/5858 Table_PageText 深度分析|计算机 同花顺的同花顺的AI技术不仅用于内部赋能,还对外输出提供服务。技术不仅用于内部赋能,还对外输出提供服务。基于公司积累多年的AI技术和知识库,结合其在实际工作中总结的业务经验,打造行业化或专项场景的解决方案,较好的满足了行业客户的定制化需求。同花顺现已推出外呼机器人、银行理财机器人、智能保险顾问、互联网舆情分析、智能营销、智能硬件、企业大数据等产品和服务,为企
182、业客户提供了丰富的行业解决方案。表表 20:同花顺对外服务同花顺对外服务的智能化解决方案的智能化解决方案 数据来源:同花顺 AI 开放平台,广发证券发展研究中心整理 (三)(三)AI+医疗:医疗:AI 大模型结合医疗专业领域大模型结合医疗专业领域数据辅助医疗工作数据辅助医疗工作 AI大模型在医疗领域的应用需要更多专业数据的训练大模型在医疗领域的应用需要更多专业数据的训练。无论是过去围绕医疗影像的AI识别功能进行辅助诊断,还是未来有望实现病历生成、病因诊断、药物研发,各项应用都离不开医疗领域的专业数据。医疗领域的专业性较强、安全要求较高,与生医疗领域的专业性较强、安全要求较高,与生命安全密切相关
183、的行业特殊性决定了命安全密切相关的行业特殊性决定了AI大模型大模型在该领域的试错成本较高,所以在该领域的试错成本较高,所以其智其智能化升级需要更多专业领域数据的训练,商业化进程较慢。能化升级需要更多专业领域数据的训练,商业化进程较慢。我们预计,使用医疗专业知识对AI大模型进行训练后,可快速应用到各个的医疗场景中,有望在围绕临床的全流程中发挥巨大价值,具体体现在以下方面:(1)自动生成电子病历:)自动生成电子病历:通常在问诊阶段,医生在传统医疗信息化系统中还是手动记录输入病例信息信息。多模态大模型的生成能力可以部分替代手动输入的工作,例如大模型可以输入患者和医生的对话并摘取关键信息,医生不用边问
184、诊边记录,转而专注于与患者的对话。对话完成后,AI大模型就能自动生成电子病历,然后自动导入当前的医疗信息化系统。(2)自动生成诊断决策备选:)自动生成诊断决策备选:当前CDSS临床辅助决策系统会根据患者症状提供 识别风险,发现价值 请务必阅读末页的免责声明 5454/5858 Table_PageText 深度分析|计算机 非常多相关疾病的治疗手段,具体下一步做什么检查进行确诊还是需要靠医生的经验和判断。AIGC可以根据自己整理的患者症状将可能的疾病及相关的诊疗方法排序,给予医生强有力的决策支撑。如果医疗信息化厂商能够提供以往数据去对AI大模型进行专项训练,随着其准确性的提高,大模型可以提供每
185、个病人相对准确的病因和诊疗方法,降低医生的误诊率,提升基层医院的医疗水平。(3)高效多模态获取患者信息并准确分诊:)高效多模态获取患者信息并准确分诊:当前互联网医疗具有智能助手进行分诊提升问诊效率,但是获取的信息较粗浅,分诊准确度低,虽然可以语音输入和发送照片,但是智能助手对此反馈内容较少,还是需要医生去处理。多模态大模型可以更机动灵活地跟患者对话,并从患者的描述中提取详细的信息,部分取代智能助手的工作。大模型在获取和整理患者的症状、患者基本信息、过往用药史等方面可以部分值班医生的部分工作,有效减少医生线上沟通时间和成本。(4)降低药物研发周期:)降低药物研发周期:2023年1月23日,加州伯
186、克利一家创业公司利用类似ChatGPT的LLM模型“Progen”合成了自然界不存在的新蛋白质,为GPT未来在药物研发应用方向提供方向,即读取不同氨基酸序列,合成新型蛋白质。为了创建该模型,研究人员输入了280.56亿种不同蛋白质的氨基酸序列,模型在几周内“消化”。过去,在自然界中挖掘蛋白质或将蛋白质调整到所需的功能是非常费力的。如果能够定向将氨基酸序列数据输入GPT进行训练,参数量更为庞大的GPT大模型理论上可以取得更加精准的效果,我们认为,多模态大模型在新药研发方面也有一定应用前景。国内方面,卫宁健康于2023年1月启动医疗垂直领域的大语言模型WiNGPT的研发和训练工作,并计并计划于划于
187、10月的月的Winning World2023大会上正式发布基于大会上正式发布基于WiNGPT的的WiNEX Copilot产品。产品。WiNGPT采用通用GPT架构、60亿参数,截至5月总训练Token数达37亿,实现从预训练到微调的医疗大模型全过程自研,共包含7大类基础任务(问答、多轮对话、信息抽取、归一化、文本相似计算、摘要、分类、生成)。WiNGPT聚焦于医疗垂直领域,以专业医疗知识为训练数据集,因此训练数据规模远小于GPT类通用大模型。此外,WiNGPT支持本地化与私有云部署方式,可最大程度保护医院的数据安全、降低合规风险。卫宁在卫宁在WiNEX产品研发过程中构建起的强大底层知识库以
188、及作为国内医疗产品研发过程中构建起的强大底层知识库以及作为国内医疗IT龙头龙头所拥有的丰富业务场景成为公司自研医疗专业大模型并快速推向商用的核心优势。所拥有的丰富业务场景成为公司自研医疗专业大模型并快速推向商用的核心优势。公司19年与人民卫生出版社签署战略合作协议,在优质数据源的保障下持续强化底层数据治理能力,根据21年产品发布会信息,WiNEX知识库中已拥有超20万条医疗知识以及超900个数据模型。因此WiNGPT项目并非仓促上马,而是与19年以来的WiNEX研发工作一脉相承,WiNEX长期积累的医疗数据与模型优势有望借助WiNEX Copilot产品实现量变到质变的跃迁。预计WiNEX C
189、opilot在初期阶段将主要应用于互联网问诊、医疗知识问答、PACS辅助阅片等,公司也将在后续模型升级迭代的过程中,进一步探索拓宽商业化落地场景。识别风险,发现价值 请务必阅读末页的免责声明 5555/5858 Table_PageText 深度分析|计算机 图图 67:多模态技术在医疗领域应用:多模态技术在医疗领域应用 图图 68:WinGPT交互界面交互界面 数据来源:卫宁健康微信公众号,广发证券发展研究中心 数据来源:卫宁健康微信公众号,广发证券发展研究中心 总体而言,总体而言,现阶段仍处于多模态大模型技术商业化落地的早期,产品推广和生态建现阶段仍处于多模态大模型技术商业化落地的早期,产
190、品推广和生态建设的重要性高于智能化功能直接变现和产品提价。设的重要性高于智能化功能直接变现和产品提价。在多模态大模型技术一定程度开放的背景下,应用厂商纷纷推出智能化升级的产品,行业进入产品化初中期。下一阶段,探索智能化升级的应用的商业模式将会成为行业格局变化的重点。我们认为,在格局未定的初期阶段,较为合理的商业化落地方式是,应用软件智能化升级、竞争力增强后,吸引更多用户使用,拓展生态合作伙伴,扩大市场份额的方式提升商业化落地规模。后续,若行业进入产品化成熟期,商业化规模收费成为行业趋势,应用厂商具备功能升级后产品提价的基础,彼时才进入产业腾飞的商业爆发期。在行业应用智能化升级的过程中在行业应用
191、智能化升级的过程中,B端端应用的高专业性应用的高专业性、高壁垒高壁垒、数据私域性等特点数据私域性等特点给于应用龙头公司扩大领先优势的机会给于应用龙头公司扩大领先优势的机会。在特定垂直领域,行业龙头往往在技术积累、私域数据、行业客户需求理解以及生态建设方面有相对优势的企业。行业龙头接入多模态大模型后,无论是智能化提升带来的产品化进展,还是客户群体扩大后带来的商业化落地,都较大概率比其他公司带来更多的增量,或推动其领先优势的加速扩大。接下来,行业在进入以产品推广和生态建设为重点的阶段,面向B端应用的龙头公司通过市场份额的提升有望获得更多溢价,建议关注金山办公、石基信息、同花顺、卫宁健康、科大讯飞等
192、应用领域行业龙头公司。识别风险,发现价值 请务必阅读末页的免责声明 5656/5858 Table_PageText 深度分析|计算机 四四、风险提示、风险提示(一)(一)技术处于发展早期,尚未形成成熟的商业化落地模式技术处于发展早期,尚未形成成熟的商业化落地模式 多模态大模型技术发展时间较短,目前仍处于商业化模式的探索阶段。智能化应用需求、技术门槛以及同质化竞争仍处于快速变化过程中,相关产品商业化落地方式存在不确定性。(二)(二)技术开源导致行业竞争加剧的风险技术开源导致行业竞争加剧的风险 多模态大模型API开放调用,或完全开源降低了科技公司开发AI算法的门槛。科技厂商利用开源的多模态大模型
193、技术研发的产品存在由于同质化程度较高而竞争加剧的风险。(三)(三)AI生成内容存在有害和敏感信息可能性的风险生成内容存在有害和敏感信息可能性的风险 多模态大模型仍有一定概率生成涉及暴力、仇恨、歧视等负面敏感内容。在对于该技术相关法律法规未正式出台前,存在危害社会、产生法律纠纷的风险。(四(四)AI芯片存在供应链不稳定的风险芯片存在供应链不稳定的风险 AI大模型的训练和应用都离不开AI芯片的支持。智能算力基础设施存在先进制程芯片等原材料供货不稳定,导致模型开发和应用成本过高的风险。识别风险,发现价值 请务必阅读末页的免责声明 5757/5858 Table_PageText 深度分析|计算机 广
194、发计算机行业研究小组广发计算机行业研究小组 刘 雪 峰:首席分析师,东南大学工学士,中国人民大学经济学硕士,1997 年起先后在数家 IT 行业跨国公司从事技术、运营与全球项目管理工作。2010 年就职于招商证券研究发展中心负责计算机组行业研究工作,2014 年加入广发证券发展研究中心。李 傲 远:资深分析师,重庆大学金融学硕士,曾任职于国泰君安、安信基金,2020 年加入广发证券发展研究中心。吴 祖 鹏:资深分析师,中南大学材料工程学士,复旦大学经济学硕士,曾先后任职于华泰证券、华西证券,2021 年加入广发证券发展研究中心。李 婉 云:资深分析师,西南财经大学金融学硕士,2022 年加入广
195、发证券发展研究中心。雷 棠 棣:资深分析师,哈尔滨工业大学软件工程硕士,悉尼大学商科硕士(金融学与商业分析方向),注册会计师非执业会员。2020 年加入广发证券发展研究中心。周 源:高级分析师,慕尼黑工业大学硕士,2021 年加入广发证券,曾任职于 TUMCREATE 自动驾驶科技公司,负责大数据相关工作。许 晟 榕:研究员,香港大学金融科技硕士,2023 年加入广发证券发展研究中心。广发证券广发证券行业行业投资评级说明投资评级说明 买入:预期未来12 个月内,股价表现强于大盘 10%以上。持有:预期未来12 个月内,股价相对大盘的变动幅度介于-10%+10%。卖出:预期未来12 个月内,股价
196、表现弱于大盘 10%以上。广发证券广发证券公司投资评级说明公司投资评级说明 买入:预期未来12 个月内,股价表现强于大盘 15%以上。增持:预期未来12 个月内,股价表现强于大盘 5%-15%。持有:预期未来12 个月内,股价相对大盘的变动幅度介于-5%+5%。卖出:预期未来12 个月内,股价表现弱于大盘 5%以上。联系我们联系我们 广州市 深圳市 北京市 上海市 香港 地址 广州市天河区马场路26 号广发证券大厦47 楼 深圳市福田区益田路6001 号太平金融大厦 31 层 北京市西城区月坛北街 2 号月坛大厦 18层 上海市浦东新区南泉北路 429 号泰康保险大厦 37 楼 香港德辅道中
197、189 号李宝椿大厦 29 及 30楼 邮政编码 510627 518026 100045 200120-客服邮箱 法律主体法律主体声明声明 本报告由广发证券股份有限公司或其关联机构制作,广发证券股份有限公司及其关联机构以下统称为“广发证券”。本报告的分销依据不同国家、地区的法律、法规和监管要求由广发证券于该国家或地区的具有相关合法合规经营资质的子公司/经营机构完成。广发证券股份有限公司具备中国证监会批复的证券投资咨询业务资格,接受中国证监会监管,负责本报告于中国(港澳台地区除外)的分销。广发证券(香港)经纪有限公司具备香港证监会批复的就证券提供意见(4 号牌照)的牌照,接受香港证监会监管,负
198、责本报告于中国香港地区的分销。本报告署名研究人员所持中国证券业协会注册分析师资质信息和香港证监会批复的牌照信息已于署名研究人员姓名处披露。识别风险,发现价值 请务必阅读末页的免责声明 5858/5858 Table_PageText 深度分析|计算机 重要重要声明声明 广发证券股份有限公司及其关联机构可能与本报告中提及的公司寻求或正在建立业务关系,因此,投资者应当考虑广发证券股份有限公司及其关联机构因可能存在的潜在利益冲突而对本报告的独立性产生影响。投资者不应仅依据本报告内容作出任何投资决策。投资者应自主作出投资决策并自行承担投资风险,任何形式的分享证券投资收益或者分担证券投资损失的书面或者口
199、头承诺均为无效。本报告署名研究人员、联系人(以下均简称“研究人员”)针对本报告中相关公司或证券的研究分析内容,在此声明:(1)本报告的全部分析结论、研究观点均精确反映研究人员于本报告发出当日的关于相关公司或证券的所有个人观点,并不代表广发证券的立场;(2)研究人员的部分或全部的报酬无论在过去、现在还是将来均不会与本报告所述特定分析结论、研究观点具有直接或间接的联系。研究人员制作本报告的报酬标准依据研究质量、客户评价、工作量等多种因素确定,其影响因素亦包括广发证券的整体经营收入,该等经营收入部分来源于广发证券的投资银行类业务。本报告仅面向经广发证券授权使用的客户/特定合作机构发送,不对外公开发布
200、,只有接收人才可以使用,且对于接收人而言具有保密义务。广发证券并不因相关人员通过其他途径收到或阅读本报告而视其为广发证券的客户。在特定国家或地区传播或者发布本报告可能违反当地法律,广发证券并未采取任何行动以允许于该等国家或地区传播或者分销本报告。本报告所提及证券可能不被允许在某些国家或地区内出售。请注意,投资涉及风险,证券价格可能会波动,因此投资回报可能会有所变化,过去的业绩并不保证未来的表现。本报告的内容、观点或建议并未考虑任何个别客户的具体投资目标、财务状况和特殊需求,不应被视为对特定客户关于特定证券或金融工具的投资建议。本报告发送给某客户是基于该客户被认为有能力独立评估投资风险、独立行使
201、投资决策并独立承担相应风险。本报告所载资料的来源及观点的出处皆被广发证券认为可靠,但广发证券不对其准确性、完整性做出任何保证。报告内容仅供参考,报告中的信息或所表达观点不构成所涉证券买卖的出价或询价。广发证券不对因使用本报告的内容而引致的损失承担任何责任,除非法律法规有明确规定。客户不应以本报告取代其独立判断或仅根据本报告做出决策,如有需要,应先咨询专业意见。广发证券可发出其它与本报告所载信息不一致及有不同结论的报告。本报告反映研究人员的不同观点、见解及分析方法,并不代表广发证券的立场。广发证券的销售人员、交易员或其他专业人士可能以书面或口头形式,向其客户或自营交易部门提供与本报告观点相反的市
202、场评论或交易策略,广发证券的自营交易部门亦可能会有与本报告观点不一致,甚至相反的投资策略。报告所载资料、意见及推测仅反映研究人员于发出本报告当日的判断,可随时更改且无需另行通告。广发证券或其证券研究报告业务的相关董事、高级职员、分析师和员工可能拥有本报告所提及证券的权益。在阅读本报告时,收件人应了解相关的权益披露(若有)。本研究报告可能包括和/或描述/呈列期货合约价格的事实历史信息(“信息”)。请注意此信息仅供用作组成我们的研究方法/分析中的部分论点/依据/证据,以支持我们对所述相关行业/公司的观点的结论。在任何情况下,它并不(明示或暗示)与香港证监会第 5 类受规管活动(就期货合约提供意见)有关联或构成此活动。权益披露权益披露(1)广发证券(香港)跟本研究报告所述公司在过去 12 个月内并没有任何投资银行业务的关系。版权声明版权声明 未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。