《计算机行业寻找AI技术潜在应用场景的方法论:AI大航海时代的数字罗盘-230407(21页).pdf》由会员分享,可在线阅读,更多相关《计算机行业寻找AI技术潜在应用场景的方法论:AI大航海时代的数字罗盘-230407(21页).pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2023.04.07 AI 大航海时代的数字罗盘大航海时代的数字罗盘 寻找寻找 AI技术潜在应用场景技术潜在应用场景的的方法论方法论 李沐华李沐华(分析师分析师)齐佳宏齐佳宏(分析师分析师) 证书编号 S0880519080009 S0880519080007 本报告导读:本报告导读:本文构建本文构建了了一套标准来一套标准来帮助我们勾勒帮助我们勾勒AI技术在应用端的潜在技术在应用端的潜在落地场景落地场景,这套体系包,这套体系包括技术边界、商业边界以及括技术边界、商业边界以及对对不
2、同场景下不同场景下 AI商业价值归属的探讨。商业价值归属的探讨。摘要:摘要:技术可技术可实现实现性:寻找现阶段性:寻找现阶段 AI 的“技术能力边界”的“技术能力边界”。我们以微软对 GPT-4 的测评作为基础寻找现阶段 AI 落地的“技术边界”。在现阶段 AI 技术的各种局限性当中,我们认为最核心的掣肘仍然是 AI 能力的不可解释性,当某个问题存在标准答案、这个答案无法被找到,且我们对于错误难以容忍时,AI 是难以落地的;此外,AI 的知识边界来自于人类已知的知识边界,这就意味着 AI 无法进行真正意义上的创造性工作。商业可行性:在技术可商业可行性:在技术可实现实现的前提下,寻找的前提下,寻
3、找 AI落地的商业价值边界落地的商业价值边界。在技术可实现的前提下,我们尝试勾勒 AI 落地的商业价值边界。技术可实现性并不意味着商业可行性,我们通过“帮客户赚钱”和“帮客户省钱”的划分方式分别讨论了 B2B2C 场景和 B2B 场景下 AI 落地的商业价值。在 B2B2C 场景中,我们认为 AI 商业落地潜力在于其技术差异是否能够被终端用户所感知并进一步影响消费行为;在 B2B场景中,我们认为 AI的商业落地潜力取决于原场景中可被 AI 替代的任务比例。整体上看,我们认为 B2B2C 场景优于 B2B场景。商业价值归属:着重关注场景是否开放和商业价值是否为新增商业价值归属:着重关注场景是否开
4、放和商业价值是否为新增。我们根据“市场的大小”、“场景的开放程度”两个指标构建了场景矩阵,进而得出两个结论:第一,开放场景中后来者更容易通过被大模型赋能实现“弯道超车”;封闭场景中,更可能是小模型时代的领先者利用大模型实现“自我迭代”。第二,对于非巨头企业而言,由于大模型出现而“新增”的商业价值或将更多来自“长尾场景”而非“头部场景”。继续推荐继续推荐金山办公、科大讯飞、杰创智能、凌志软件金山办公、科大讯飞、杰创智能、凌志软件。金山办公:公司是国产办公软件龙头,全力发力 AI 战略,加大 AI 人才投入力度,预计在2023H1 推出 AI 新品,与微软有直接映射关系。科大讯飞:采用“1+N”架
5、构,将大模型落地于教育、医疗、人机交互、办公等多个行业,大模型将率先赋能讯飞听见、学习机,5 月 6 日产品级发布。杰创智能:AI 技术可以帮助提高公司公共安全产品性能,降低成本,且外销一带一路国家。凌志软件:公司长期服务日本金融市场,目前已有 GPT 相关应用落地(自动生成招股书),也可通过 GPT 实现内部最高 75%降本。风险提示:风险提示:AI 技术落地不及预期、AI 大模型受到政策强监管 评级:评级:增持增持 上次评级:增持 细分行业评级 计算机 增持 相关报告 计算机 3月订单环比有所回升,表现分化 2023.04.03 计算机AI 大模型引发科技革命 2023.03.31 计算机
6、 文心千帆发布,AI应用发展有望超预期 2023.03.28 计算机浪潮已到,AI 产业化快速推进 2023.03.26 计算机 大模型将彻底改变AI模型的开发模式 2023.03.19 行业更新行业更新 股票研究股票研究 证券研究报告证券研究报告 计算机计算机 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 2 of 21 目目 录录 1.序言.3 2.技术可行性:寻找现阶段 AI 的“技术能力边界”.5 2.1.可解释性边界:模型能力难以被解释是 AI 最核心的问题.7 2.2.创造性边界:AI 不创造知识,AI 只是知识的搬运工.10 3.商业可行性:
7、在技术可行的前提下,寻找 AI 落地的商业边界.11 3.1.帮客户赚钱:技术差异需被终端用户感知,并能影响消费行为 12 3.2.帮客户省钱:“降本增效”的潜力需要足够大.14 3.3.总体来看,“赚钱逻辑”好于“省钱逻辑”.15 4.商业价值归属:探寻大模型带来的商业价值属于哪类玩家.16 4.1.开放场景更易“弯道超车”,封闭场景更易“自我迭代”.17 4.2.对非 IT 巨头来说,大模型商业价值或更多来自“长尾场景”而非“头部场景”.18 4.3.小结.18 5.总结.19 6.投资建议.20 7.风险提示.20 EYbWgVmUbVlWrYtWvUbR8Q7NsQqQoMtQlOnN
8、tPfQoOxO8OoMmPMYpNoOxNmNsR 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 3 of 21 1.序言序言 虽然目前市场上已经有很多关于 AI 潜在落地场景的讨论,但讨论方法主要是基于“开脑洞”式的穷举或是基于已有落地场景的归纳。而微软、Open AI 以及此前 MIT 和 CMU 学者的讨论落脚点都在于 AI 对不同职业的替代程度。所以,我们所以,我们希望希望构建一套构建一套“标准标准”来进行“来进行“AI 落地场景的发现”。落地场景的发现”。只聚焦在“前端应用的落地场景”而不讨论后端各大模型孰优孰劣。只聚焦在“前端应用的落地场景”
9、而不讨论后端各大模型孰优孰劣。因为能够自建大模型的玩家很少,且大模型作为一个复杂系统,每个模型都会有自己的一些特点和优势指标,事实上我们是不太可能通过一些简单的量化指标客观评估各家模型的能力,单纯问“如果GPT-4 是 100 分,百度文心一言大概多少分”没有答案也没有意义。我们我们希望希望提出一些标准,来粗略描绘现阶段提出一些标准,来粗略描绘现阶段 AI能够落地的“场景能够落地的“场景边界”。边界”。我们希望基于另一种思路展开讨论:基于 AI 的技术局限和商业局限提出一些标准,来粗略勾勒我们心中现阶段 AI 能够落地的“场景边界”。打一个比方,我们可以把所有的潜在落地场景看作一张纸,而每一条
10、标准就像是一条线,把这张纸分成不同的部分,多条标准交叉就会勾勒出满足各个条件或至少多数条件的交集。图图 1:我们希望通过提出一些判断标准来粗略描绘我们希望通过提出一些判断标准来粗略描绘 AI 可落地场景边界可落地场景边界 数据来源:国泰君安证券研究 文中文中“标准标准”的提出主要基于的提出主要基于几方面的考虑几方面的考虑:某种能力是否可以被 AI 技术实现;商业方面是否具备可行性;基于已落地场景和落地形式的归纳。这一条仅仅作为辅助,原因在于基于现有落地案例的小样本进行归纳很有可能会让我们得出一些“虚假”的因果关系。具体的思路是具体的思路是:利用 AI 的技术局限性找到现阶段的“AI 落地场景的
11、技术边界”(对于是否能落地,我们的判断标准是能不能彻底解决问题,而不是能否“将就用”);行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 4 of 21 在技术可达成的范围内剔除掉缺乏商业价值的集合,得到可落地的商业场景边界;在这个基础上,我们展开一些衍生讨论,讨论的重点在于商业价值的归属权。图图 2:全文思路是基于全文思路是基于 AI的技术的各种局限性找到其“技术边界”,在此基础上剔除缺乏商业价值的场景找出的技术的各种局限性找到其“技术边界”,在此基础上剔除缺乏商业价值的场景找出“商业边界”,同时给出对于一般企业可触达的“商业边界”“商业边界”,同时给出对于
12、一般企业可触达的“商业边界”数据来源:国泰君安证券研究 在文中我们会举出各种例子,对于这些例子,在文中我们会举出各种例子,对于这些例子,需要注意的是需要注意的是:例子是为了方便读者理解我们提出的标准,而不是希望对场景进行穷举;在选择例子的过程中,我们希望场景越小、越具象越好,而并不希望给出的案例落脚在诸如 AI 在教育领域落地容易、在医疗领域落地难之类。因为每个大行业中都存在一些 AI 可以落地的场景,而另一部分场景中 AI 的落地就比较难,把场景框得太大是没有意义的。需要说明需要说明的是的是:第一,第一,我们我们把把讨论语境设定在讨论语境设定在当下当下可预见的范围内可预见的范围内,着眼在全球
13、,着眼在全球。如果模型开发范式再次发生转换或是 GPT-5 等大模型“涌现”出新的重要能力,或是法律法规、伦理等边界发生变化,都不在我们目前的讨论范围之内。就像 MIT 和 CMU 教授在What Can Machines Learn,and What Does It Mean for Occupations and the Economy?中提出的很多标准在大模型出现后已不再适用。同时,由于着眼点在全球,文中不讨论由于 GPU 短缺、中文语料质量不如英文等因素造成的局限。通过各条长期通过各条长期技术局限取交技术局限取交集得出集得出AIAI落地落地的技术边界的技术边界在技术可在技术可实现实现范
14、围范围内内,找到找到AIAI落地的落地的“商商业价值边界业价值边界”根据根据“场景的场景的开 放 性开 放 性”和和“是否为新增是否为新增商业价值商业价值”分分类讨论商业价类讨论商业价值的归属权值的归属权所有潜在落地场景技术上可行的场景商业上可行的场景新玩家可获得商业价值的场景 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 5 of 21 第二,第二,我们我们只讨论“大脑”层面的问题,而不讨论“手”的只讨论“大脑”层面的问题,而不讨论“手”的问题问题。很显然,部分对物理世界实操要求较高的场景对现阶段大模型而言是很难落地的,这是自动化等其他方面造成的限制,不
15、在我们的讨论范围内。第三第三,这只是一个初步的讨论,至少受限于这只是一个初步的讨论,至少受限于以下以下一些方面:一些方面:1.对于技术的理解偏差。笔者毕业于力学系,并未直接从事过 AI 相关的科学研究,对于 AI 大模型的能力边界的理解可能存在偏差;2.对于其他行业进展的了解程度不足。笔者聚焦于计算机行业研究,对于其他各个行业实际情况的了解可能存在滞后或偏差;3.各个标准之间可能存在相关性,而不是完全独立的;4.标准与场景之间存在“虚假”的因果关系。我们认为,寻找标准的方式甚至比标准本身更重要我们认为,寻找标准的方式甚至比标准本身更重要。事实上,比起“每个标准都一定正确”,我们更希望的是在这里
16、提供一个讨论的基点,让学界、业界、投资者等在思考 AI 大模型对于自身行业潜在赋能场景的时候,不单纯依赖“开脑洞”式的穷举法,或者直接喊出“万物皆可 AI”,而是共同构建一套标准去进行“AI 落地场景发现”。这是一个渐进明晰的过程,欢迎各位读者对我们提出的标准进行讨论、完善和修正。2.技术可行性:寻找现阶段技术可行性:寻找现阶段 AI的“的“技术技术能力能力边界边界”我们把目前的大模型假设成“巨型鹦鹉”,而不是“乌鸦”(对于“鹦鹉智能”和“乌鸦智能”的表述可参照北京大学人工智能研究院朱松纯教授的上海品茶相关的文章,即大模型并不能真正理解自然语言。因为如果给出“GPT-4 已经具备完全意义上的乌鸦智能”的
17、结论,就意味着 AGI 已经到来,所有的讨论已经毫无意义。技术边界的讨论的起始点来自微软的论文Sparks of Artificial General Intelligence:Early experiments with GPT-4,这篇文章列出了基于测评得出的 GPT-4 的局限性。表表 1:微软发布的测评中列举了目前微软发布的测评中列举了目前 GPT-4 的局限性的局限性 信心校准信心校准 信心校准该模型很难知道什么时候它应该有信心,什么时候它只应该猜测。它既会编造在其训练数据中没有出现过的事实,也会在生成的内容和提示之间表现出不一致。这些幻觉可以用一种自信的、有说服力的方式被陈述出来,
18、很难被发现。因此,这样的世代会导致错误,也会导致混乱和不信任。长期记忆长期记忆 该模型的上下文非常有限,它以一种无状态的方式运作,没有明显的方法来教该模型新的事实。事实上,我们甚至不清楚该模型是否能够完成需要不断发展的记忆和背景的任务,例如阅读一本书,任务是在阅读过程中跟随情节并理解对先前章节的引用。持续的学习持续的学习 模型缺乏自我更新和适应环境变化的能力。模型被训练好后是固定的,没有机制可以纳入新的信息或来自用户或世界的反馈。人们可以在新的数据上对模型进行微调,但这可能导致模型性能下降或过度拟合。鉴于训练周期之间的潜在滞后性,当涉及到最近的训练周期之后出现的事件、信息和知识时,系统往往会过
19、时。个性化个性化 一些应用要求模型为特定的组织或终端用户量身定做。该系统可能需要获得关于一个组织的运作或个人的偏好的知识。在许多情况下,系统需要在一段时间内以个性化的方式适应与人和组织的动态有关的具体变化。规划和概念规划和概念性跳跃性跳跃 该模型在执行需提前计划或需要尤里卡时刻的任务时表现出困难。换言之,该模型在需要概念跳跃的任务上表现不佳,而这种概念跳跃的形式往往是人类天才的典型代表。透明度、可透明度、可解释性和一解释性和一模型不仅会产生幻觉、编造事实和产生不一致的内容,而且似乎没有办法验证它产生的内容是否与训练数据一致,或者是否是自洽的。虽然模型通常能够为其决策提供高质量的事后解释,但只有
20、当导致某个决策或结论的过 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 6 of 21 致性致性 程被准确建模,并且一个足够强大的解释过程也被准确建模时,使用解释来验证该过程才行得通。这两个条件都很难验证,而当它们失败时,就会出现是模型的决定和它的解释之间的不一致。由于模型对其自身的局限性没有明确的认识,所以如果不在一个狭窄的领域进行广泛的实验,就很难与用户建立信任或合作。认知谬误和认知谬误和非理性非理性 模型似乎表现出人类知识和推理的一些局限性,如认知偏差和非理性和统计谬误。该模型可能会继承其训练数据中存在的一些偏见、成见或错误,这可能反映了与人口的子集
21、或更大的共同观点和评估有关的意见或观点的分布。对输入的敏对输入的敏感性感性 模型的反应可能对提示的框架或措辞的细节以及它们在会议中的顺序非常敏感。在工程提示及其排序方面往往需要大量的努力和实验,而在人们没有投入这种时间和努力的情况下使用,会导致次优和不一致的推论和结果。数据来源:Sparks of Artificial General Intelligence:Early experiments with GPT-4,国泰君安证券研究 在此基础上,在此基础上,我们根据我们根据下面下面几条几条标准标准把部分局限性剔除把部分局限性剔除:1.这条局限是属于大模型的还是只属于 GPT 系列的,比如 E
22、ncoder-Decoder 模式更适合自然语言理解,而以 GPT 为代表的 Decoder-only 模式更适合自然语言生成。如果某条局限性仅仅属于 GPT 系列,我们把它剔除;2.这条局限是大模型和小模型同时存在,还是只有大模型存在?对于后者,我们把它删除。比如大模型的预训练时间必然是非常久的,但小模型不存在这个问题;3.这些局限是不是中短期内有可能解决的,比如 GPT 系列模型可以直接读取的文本长度在快速增加,从 GPT-3.5 的 4096 个上升到了 GPT-4 的32000 个,而且可以预见会持续增加。如果这些局限有希望在中短期内通过渐进式的技术突破被解决,我们把它剔除。表表 2:
23、我们认为,我们认为,GPT-4 的的部分部分局限性并不适用于整个局限性并不适用于整个 AI 范畴或在中短期内可以通过渐进式突破解决范畴或在中短期内可以通过渐进式突破解决 GPT 系列系列 不能代表不能代表 AI边界边界 大模型大模型 不能代表不能代表 AI边界边界 中短期可能通过中短期可能通过 渐进式突破解决渐进式突破解决 无法无法被剔除被剔除 信心校准信心校准 长期记忆长期记忆 持续的学习持续的学习 个性化个性化 规划和概念性跳跃规划和概念性跳跃 透明度、可解释性和一致性透明度、可解释性和一致性 认知谬误和非理性认知谬误和非理性 对输入的敏感性的挑战对输入的敏感性的挑战 数据来源:Spark
24、s of Artificial General Intelligence:Early experiments with GPT-4,国泰君安证券研究 在按照前述标准把表格里的部分局限性剔除,并把剩余局限性进行重新归类后,我们得出了现有范式下 AI 落地在技术方面的掣肘:能力可解释性边界能力可解释性边界。“信心校准”、“透明度、可解释性和一致性”、“对输入的敏感性”局限都可以归结为 AI 的最根本问题:深度学习是否是达成 AGI 的可行技术路径?换言之,目前预训练大模型在“深度学习+人类反馈强化学习”的统计学框架下表现出了一定程度的“乌鸦智能”,这种智能是基于模型对于自然语言的理解或依然是“鹦鹉
25、学舌”?在我们的弱假设下(大模型是巨型鹦鹉而不是乌鸦),这个问题构成了现阶段 AI 的主要技术边界。创造性边界创造性边界。除上述局限之外,仅剩的“规划和概念性跳跃”局限 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 7 of 21 是否可以被第一个问题所囊括?就像“尤里卡时刻”能否理解成人类智力中难以被触达的“Corner Case”?如果这个问题的答案为“是”,AI 所有的技术边界将“坍缩”成这 AI 的本质问题。以笔者的能力,尚无法判断这两个“边界”之间的关系。在文中,我们权且把两个边界作为独立边界分别讨论。2.1.可解释性边界:可解释性边界:模型能力
26、模型能力难以难以被被解释解释是是 A AI I 最核心的最核心的问题问题 如前文所述,由于 GPT-3 的“理解”能力是“涌现”的,目前对这些能力来源的可解释性比较差。我们假设目前的大模型是“巨型鹦鹉”,在现阶段技术范式下没有办法突破“信心校准”、“透明度、可解释性和一致性”、“对输入的敏感性”等方面的局限。我们我们把这些技术局限把这些技术局限按照递进关系归结为三个问题:按照递进关系归结为三个问题:是否有标准答案?如果有标准答案(最优解),这个答案可以被 AI 找到么?如果 AI 找不到标准答案,我们能不能接受?图图 3:我们把“鹦鹉我们把“鹦鹉智能智能”带来的局限归结为三个问题带来的局限归结
27、为三个问题 数据来源:国泰君安证券研究 第一个分岔路口:某个问题有标准答案么?第一个分岔路口:某个问题有标准答案么?对于没有标准答案的场景,对于没有标准答案的场景,AI的落地似乎是没有什么的落地似乎是没有什么技术技术限制的。限制的。这部分包含了生成式 AI 的目前最为常见的一些应用场景,比如文字生成图片、生成文章摘要、生成营销文案等。我们认为,我们认为,由于由于:这些问题的答案比较开放,不存在绝对的错误答案;如果对于生成的答案不满意可以通过新增条件的方式让模型对答案进行修改;人工同样可以重新修改答案;等原因,这些场景中 AI 的落地很难看到对“可解释性推理能力”的高要求,技术上并不存在掣肘。当
28、然,在这类场景中,可能会存在无法保证严格遵守道德和法律规定的问题,比如涉及隐私、著作权等方面的风险,但这些风险可以通过商务条款进行规避,都属于“商业风险”,被我们归为“商业边界”范畴。是否是否有有标准答案标准答案无(无(AIAI落地相对容易)落地相对容易)如可被人类修改的文稿有有标准答案是否标准答案是否可以被可以被AIAI找到找到可以可以(AIAI落地相对容易)落地相对容易)如棋类运动不可以不可以我们是否能接受我们是否能接受能能(AIAI落地相对容易)落地相对容易)如个性化教育不能(不能(AIAI落地落地相对困难)相对困难)如内科手术中的医疗影像 行业更新行业更新 请务必阅读正文之后的免责条款
29、部分请务必阅读正文之后的免责条款部分 8 of 21 第二个分叉路口:第二个分叉路口:如果有标准答案,如果有标准答案,AI能帮助我们找到这个标准答案么?能帮助我们找到这个标准答案么?我们认为,这是一个“有限场景”和“无限场景”的问题我们认为,这是一个“有限场景”和“无限场景”的问题。在所有情况可以被遍历的场景中,AI 的任务是在所有可能的方案里寻找“最优解”,这对 AI 来说是容易的;反之则是困难的。比如,比如,在在棋类运动棋类运动中中“达到人类智力边界”对“达到人类智力边界”对 AI 来说来说是是比较比较容易的容易的,本质上在于它是一个“有标准答案且情况可以被遍历”的场景本质上在于它是一个“
30、有标准答案且情况可以被遍历”的场景。上一次AI 形成全球范围的讨论毫无疑问是 2016 年 AlphaGo战胜李世石的时候。我们把这个例子纳入到我们的讨论。很显然,棋类运动是典型的“有限场景”的例子。无论是围棋还是象棋,都是在一套特定的规则框架下战胜对手,每一步可以“落子”的情况都是有限的集合,换句话说,所有可能性是可以被遍历的。这种场景本质上是在所有可能的方案里寻找“最优解”,AI 的计算优势被发挥得淋漓尽致。那么,什么样的场景那么,什么样的场景是是“有标准答案且情况无法被遍历有标准答案且情况无法被遍历”的场景?的场景?我们认为,一个典型的场景就是我们认为,一个典型的场景就是公开公开道路道路
31、自动驾驶。自动驾驶。事实上,我们理论上永远没有办法通过路测实现对路况的全覆盖。Waymo 是自动驾驶领域的霸主,但是在过去很多年里,在感知问题、行人问题、软件问题等方面,Waymo 的接管频率并没有收敛(基于加州路测报告)。毫无疑问,Waymo 的自动驾驶能力是逐年增强的;那么,Waymo 在软件问题、行人问题等方面的表观“退步”就只能用它在覆盖更多的 corner case 来解释。比如,在高速公路等路况相对简单的场景下测试获得好的结果之后,Waymo 会把路测地点逐渐向难度更高的城区街道进行拓展。需要说明的是,我们并不是在否认 AI 在自动驾驶中的价值,包括目前海外已经有很多厂商通过 AI
32、 进行数据生成,而不再单纯用自动驾驶车队,大大提高了效率。但我们认为,通过 AI 实现对路况的遍历是无法实现的,这会始终成为开放道路自动驾驶落地的重要掣肘。表表 3:2021年感知问题、行人问题、软件问题等方面,年感知问题、行人问题、软件问题等方面,Waymo的接管频率表观值相对于的接管频率表观值相对于 2016年并未发生明年并未发生明显变化(单位:次显变化(单位:次/百万公里)百万公里)问题类型 2015 2016 2017 2018 2019 2021 感知问题 281 31 43 24 36 25 硬件的性能问题 92 0 37 2 6 4 预测问题 19 9 14 3 5 3 行人问题
33、 54 16 3 17 8 10 多余操作,谨慎过头 130 47 54 40 21 25 天气问题 31 2 0 2 1 0 软件问题 189 80 26 1 0 58 数据来源:历年加州路测报告,国泰君安证券研究 图图 4:Waymo2019 年脱离场景中“年脱离场景中“highway”占”占 21%图图 5:Waymo2021 年脱离场景中“年脱离场景中“highway”占”占 3%行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 9 of 21 数据来源:2019 年加州路测报告,国泰君安证券研究 数据来源:2021 年加州路测报告,国泰君安证券研究
34、第三个分岔路口:如果第三个分岔路口:如果 AI 真的找不到正确答案(哪怕是局部最优解),真的找不到正确答案(哪怕是局部最优解),我们能接受么?我们能接受么?仍采用我们最初的假设,在“深度学习+强化学习”的技术路径下,虽然大模型“涌现”出了一定的推理能力,但仍不是完全意义上的 AGI。在这种情况下,一旦所有情况无法被遍历,必然会出现 Bad Case。那么,我们对于这些 Bad Case 能接受么?讨论到这一阶段,讨论到这一阶段,AI 的落地难度变成了的落地难度变成了错误容忍度错误容忍度的的问题。问题。毫无疑问,在所有无法实现对 Corner Case 进行遍历的情况下,如果我们对于 Bad C
35、ase 的容忍度足够高,AI 的落地就变得非常顺畅,反之,AI 落地艰难。我们通过一正一反两个例子来说明我们的观点:我们通过一正一反两个例子来说明我们的观点:正向例子:正向例子:“因材施教”是一个典型的对于错误的容忍度较高的场“因材施教”是一个典型的对于错误的容忍度较高的场景。景。在教育领域,AI 的典型应用场景是针对学生在学习过程中产生的数据做分析,判断学生对各个知识点的掌握程度,再有针对性地为学生做题目推送。在这个过程中,必然会存在一些推送不当的情况,但推送错误所造成的损失是非常小的,只要绝大部分的题目是推送恰当的,对用户来说就是一款好产品。即如果推送的 10 道题中有 7 道是合适的,3
36、 道是不恰当的,所有学生和家长一定是“交口称赞”而不是“一片骂声”。在这类场景下,用户关心的是“整体效果”。反向例子:反向例子:内科手术的内科手术的医疗影像是对错误容忍度非常低的场景。医疗影像是对错误容忍度非常低的场景。由于医疗事故会产生非常严重的后果,导致在评价产品效果的时候更多地关注误判的案例,而不是整体的正确率。对于医疗影像而言,99%的可靠性也是不能接受的,因为这意味着每 100 次诊断都可能会造成一次医疗事故。而且,在这种场景中,并不能认为 AI 比医生的准确率高就能够快速落地,因为医生的每次诊断都是需要签字的,医疗事故的责任划分相对清晰;而 AI 影像一旦出现错误,责任的划分是不清
37、晰的。表表 4:误判误判所造成损失所造成损失的大小在一定程度上决定了的大小在一定程度上决定了 AI 在不同场景下的推广速度在不同场景下的推广速度 个性化学习个性化学习 医疗影像医疗影像在在内科内科手术中的应用手术中的应用 出现负面的应用个例所造成的损失 小 大 效果验证方式 整体 个体 FreewayhighwayParking FacilitystreetFreewayhighwayParking Facilitystreet 550949 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 10 of 21 企业的核心关注点 效率 安全 对于可解释性、准确性
38、的要求 低 高 AI 落地速度 快 慢 数据来源:国泰君安证券研究 2.2.创造性边界:创造性边界:A AI I 不创造知识,不创造知识,A AI I 只是知识的搬运工只是知识的搬运工 所有基于现有知识的“裁剪”和“缝合”都不构成所有基于现有知识的“裁剪”和“缝合”都不构成 AI 的技术边界,而的技术边界,而对于新知识的“创造”无法通过对于新知识的“创造”无法通过 AI独立完成独立完成,AI大模型的边界是人类大模型的边界是人类的已知知识。的已知知识。换言之,AI 不创造知识,AI 只是知识的搬运工。在微软的报告中,把在微软的报告中,把“创造新知”类的“创造新知”类的任务任务叫做不连续的任务。这
39、些任叫做不连续的任务。这些任务务不能不能单纯单纯以渐进或连续的方式完成,而是需要某种以渐进或连续的方式完成,而是需要某种“尤里卡尤里卡”的想法,的想法,在解决任务的过程中实现不连续的飞跃。在解决任务的过程中实现不连续的飞跃。比如牛顿看到苹果落地发现了万有引力,阿基米德洗澡时发现了浮力定律,这些场景涉及到发现或者发明一种看待事物或构建问题的新方法。比较有意思的是,同一个场景下可能同时存在“渐进式任务”和“不连比较有意思的是,同一个场景下可能同时存在“渐进式任务”和“不连续任务”,前者不构成技术局限,而后者是续任务”,前者不构成技术局限,而后者是 AI 的技术边界。的技术边界。我们用我们用 AI
40、制药中两个可能制药中两个可能出现出现的环节作为例子来进行说明:的环节作为例子来进行说明:2016 年左右,中科大联合多个研究小组发现了一种能用于早期诊断阿尔茨海默症的生物标志物分泌酶,患者大脑中这种酶的活性普遍较高。在此基础上,医疗工作者希望努力找到一种方式来降低这种酶的活性,其中可能涉及寻找靶点的工作。在这个过程中,“抑制分泌酶的活性可能可以治疗阿兹海默”、“某个分子构型能够实现降低分泌酶活性的效果”这两个猜想都需要人类的经验和“灵光一现”,这是 AI 无法代替的;而后续的工作就类似于“搜索”逻辑,在一系列答案中寻找一个可行的解。就像复仇者联盟 3里奇异博士通过对 14000605 种结局的
41、“搜索”找到了能战胜灭霸的“局部最优解”,这是 AI 能有用武之地的环节。同样,我们同样,我们还可以给出还可以给出一个数学一个数学证明证明方面的例子方面的例子。AI大模型可以实现对数学定理的证明。比如在微软对于 GPT-4 的测评报告中有一个例子,表明 GPT-4 可以对“有无限多的质数”给出证明过程。但我们认为,证明的实现有两个基本的前提:猜想已经被提出猜想已经被提出。人类必须提出一个准确的目标,而不能让大模型自己提出猜想;这个猜想已经被人类证明从而成为了定理这个猜想已经被人类证明从而成为了定理。如果我们认为大模型是“巨型鹦鹉”,那么人类的已知知识就是其边界。换言之,GPT 是无法去证明哥德
42、巴赫猜想或者黎曼猜想的。图图 6:在微软的测评报告中,在微软的测评报告中,GPT-4 能给出对“有无限多的质数”的证明能给出对“有无限多的质数”的证明 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 11 of 21 数据来源:微软 3.商业可行性:商业可行性:在技术在技术可行可行的的前提下前提下,寻找寻找 AI落地落地的的商业边界商业边界 技术上技术上可可实现并不意味着商业上实现并不意味着商业上可行可行,我们希望在技术可实现的范围内,我们希望在技术可实现的范围内剔除掉缺乏商业价值的场景剔除掉缺乏商业价值的场景。对于 IT 公司而言,赚的都是帮助客户额外赚到
43、的钱或者帮助客户省下的钱。在“既不能赚钱又不能省钱的场景”下,大模型显然是很难落地的。我们认为,除了大模型的拥有方直接“下场”的个别场景外,大模型落地的绝大部分场景在商业模式上可以归结为 B2B2C 和 B2B 两类,前者大致对应“帮客户赚钱”的逻辑,后者大致对应“帮客户省钱”的逻辑。广义来看,甚至 Copilot 也可以认为是一个特殊的 B2B2C 场景,即“Open AI-微软-消费者”,属于“Open AI 帮微软赚钱”的场景。图图 7:在技术可实现的范围内,我们希望找到在技术可实现的范围内,我们希望找到 AI 落地的“商业价值边界”落地的“商业价值边界”数据来源:国泰君安证券研究 商业
44、价值商业价值来源来源帮客户赚钱帮客户赚钱帮客户省钱帮客户省钱可以可以不可以(不可以(AIAI落地相对困难)落地相对困难)是(是(AIAI落地相对容易)落地相对容易)否否(AIAI落地相对困难)落地相对困难)是否影响消是否影响消费行为费行为技术技术差异是否差异是否可以被感知可以被感知AIAI可替代可替代的人的人类工作量比例类工作量比例高高(AIAI落地相对容易)落地相对容易)低(低(AIAI落地落地相对困难)相对困难)AI 在某个场景中的“降本增效”价值=可替代的人类工作量场景中人类的总工作量=不同工种某一工种可被替代的工作量不同工种某一工种的总工作量 行业更新行业更新 请务必阅读正文之后的免责
45、条款部分请务必阅读正文之后的免责条款部分 12 of 21 下面我们对两种场景分开讨论。3.1.帮客户赚钱帮客户赚钱:技术差异需被终端:技术差异需被终端用户用户感知,并能影响消费感知,并能影响消费行为行为 如果我们把大模型厂商作为独立供应方,“帮客户赚钱”的场景在商业模式上很显然是“B2B2C”。对于这类场景,我们认为 AI 是否有商业价值核心在于两个问题:AI 技术差异能否形成代差?对于终端用户而言这种技术差异是不是足够可感知的?如果技术差异可以被感知,能否能够直接影响消费者的消费行为?在某个场景下,在某个场景下,如果如果上述上述两个问题的答案都是“两个问题的答案都是“是是”,AI的的落地会
46、非常落地会非常快快;反之,反之,AI 技术的技术的落地就更多取决于落地就更多取决于 B端客户的决策了。端客户的决策了。智能语音助手智能语音助手可能可能是个是个比较比较合适的例子。合适的例子。第一阶段的故事,第一阶段的故事,Iphone4S 的热销的热销很大程度上归功于很大程度上归功于 Siri。2011 年 10 月 4 日,Siri正式发布。作为全球首个智能语音助手,Siri一经上市就迅速点燃了市场的热情,首个搭载 Siri 的机型iPhone4S 在推出后的第一个周末就售出 400 万部,并带动 2011Q4苹果手机销量大幅提升至 3704 万台(单季环比增速+117%),占 2011年全
47、年销售量的 40%。图图 8:第一阶段的故事,第一阶段的故事,Siri 首发助力首发助力 iPhone 销售量大幅提升销售量大幅提升 数据来源:天猫精灵 第二阶段的故事,现在没人会因为第二阶段的故事,现在没人会因为 Siri 买买 Iphone12。一个非常有意思的现象是,现在不会有任何消费者再因为 Siri 选择苹果了,背后的原因是什么?一个最为直观的回答是:因为现在很多品牌都有了同样的功能。但事实真的是这样么?我们试想一下,如果 Siri 能够实现“技术代差”,做到一些其他语音助手无法实现的功能,情况显然不会如此,甚至我们对于 ChatGPT 的惊叹程度也要打一些折扣。但实时情况是,但实时
48、情况是,Siri 和其他语音助手和其他语音助手之间之间的“技术代差”并不存在。的“技术代差”并不存在。行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 13 of 21 一个最简单的例子:当我们对 Siri 说“推荐金融街附近的餐厅”时,它马上给出了很多选项,把任务完成的很好。但是,当我进一步和他对话,说“我想吃饭但不想吃永和大王”的时候,让人失望的事情发生了Siri 给我推荐了满屏幕的永和大王。如果我们把问题换成“我想住酒店但不住汉庭”,我们又将收获满屏幕的汉庭门店。这个小测试说明什么?说明此前各个手机智能语音助手背后的本质还是填槽,通过对话抓取关键词,当系
49、统把所需要的关键词都收集完之后就可以输出结果,而这样的技术框架是没有办法做即使看起来很简单的逻辑判断的。如果我们用华为语音助手做同样的测试,结果是一样的。换句话说,此前大家的底层技术逻辑是一样的。在这种情况下,可能 Siri 的技术做到了 80 分,华为只做到了 70 分,但在用户体验上,二者是没有差异的。毕竟“他能做的我也能做,我做不了的他也做不了”。在这个阶段,技术上的差异不会影响消费者的消费选择。我们认为,这才是没有人会因为 Siri 去买 iPhone12 的底层逻辑。图图 9:第二阶段的故事,“我不喜欢吃永和大王”让智能语音助手束手无第二阶段的故事,“我不喜欢吃永和大王”让智能语音助
50、手束手无策策 数据来源:国泰君安证券研究 第三第三阶段的故事,阶段的故事,阿里大模型团队依靠知名脱口秀演员鸟鸟的音频阿里大模型团队依靠知名脱口秀演员鸟鸟的音频做出“鸟鸟分鸟”版智能音箱做出“鸟鸟分鸟”版智能音箱,AI大模型是否会重新影响消费行为?大模型是否会重新影响消费行为?相关测评视频显示,该智能音箱所表现出的多轮对话、个性化形象塑造等方面的能力远超以往所有的智能语音助手或智能音箱。新版天猫精灵进入市场后,有多少人会因为其大模型加持下产生的新能力选择天猫精灵?我们认为,这仅仅取决于两个因素:第一,新技术相对于之前有多少“质变”以致于让“技术代差”足够被消费者所感知;第二,其他玩家利用大模型“
51、复现”其新能力需要多长时间。图图 10:第三阶段的故事,第三阶段的故事,阿里大模型团队依靠知名脱口秀演员鸟鸟的音阿里大模型团队依靠知名脱口秀演员鸟鸟的音频做出“鸟鸟分鸟”版智能音箱频做出“鸟鸟分鸟”版智能音箱 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 14 of 21 数据来源:天猫精灵 毕竟毕竟,比起很多其他炫酷的科技概念,所有人都认为,比起很多其他炫酷的科技概念,所有人都认为AGI是产业趋是产业趋势,而且这一趋势必然能够实现,分歧仅仅在于技术路径和时间势,而且这一趋势必然能够实现,分歧仅仅在于技术路径和时间。AGI 这场仗没有哪家巨头输得起。这场仗
52、没有哪家巨头输得起。就像 Siri 出现后,谷歌在第二年就发布了 Google Now;ChatGPT 发布后仅仅不到一个季度,谷歌就投资了 ChatGPT 的竞品 Anthropic,甚至可以预见的是,如果之后再次出现“Siri”或是“ChatGPT”,各家大厂的反应也会是一样的。3.2.帮客户省钱帮客户省钱:“降本增效”的潜力需要足够大:“降本增效”的潜力需要足够大 能能够够帮客户省钱帮客户省钱的场景的场景中中,AI的落地也的落地也具备商业具备商业落地落地价值价值。在这类场景在这类场景中,中,AI 潜在潜在商业价值的大小取决于“降本增效”的商业价值的大小取决于“降本增效”的潜力潜力。由于帮
53、客户省钱的主要逻辑在于“模型可以帮助员工提升工作效率,从而对部分原有人员进行替代”,所以我们把 AI 的“降本增效”潜能归结为下面的公式:图图 11:AI 在某个场景中的“降本增效”价值可以用它对于人类工作量的替代来衡量在某个场景中的“降本增效”价值可以用它对于人类工作量的替代来衡量 AI 在某个场景中的“降本增效”价值=可替代的人类工作量场景中人类的总工作量=不同工种某一工种可被替代的工作量不同工种某一工种的总工作量 数据来源:国泰君安证券研究 从公式中我们可以发现,从“降本增效”的角度,AI 在某个场景中落地的价值潜力主要取决于两个因素:这个场景中有多大比例的员工的工作量会由于 AI 大模
54、型的出现而受到影响;这些员工的任务中有多大比例可以被 AI 大模型替代。我们发现问题可以我们发现问题可以从“从“场景层面场景层面 AI能够提供多大的能够提供多大的降本增效价值”转降本增效价值”转化为化为“该“该场景中劳动力场景中劳动力可以被可以被 AI替代替代的的比例比例有多大”。有多大”。而对于后一个问题,我们完全可以借用 Open AI 对于 AI 大模型对不同职业影响情况的讨论。(可参照 GPTs are GPTs An Early Look at the Labor Market Impact)Open AI 在报告中在报告中给出给出了了 GPT-4 或或 LLM对不同职业的替代程度对
55、不同职业的替代程度的的讨讨论论。在 Open AI 的讨论中定义了“暴露百分比”指标,用来表征某个职业的任务中有多大比例可以被 GPT-4 或基于 GPT-4 开发的其他软件所替代,其简化结论见下表(原文有针对更多职业的结论,这里不再列示):表表 5:诸多职业将由于诸多职业将由于 GPT-4 或或 LLM 而实现效率提升而实现效率提升 职业职业 程度程度 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 15 of 21 高度直接暴露高度直接暴露 口译员和笔译员 76.5 调查研究员 75.0 诗人、作词家和创意作家 68.8 动物科学家 66.7 公共关系专
56、家 66.7 均衡暴露均衡暴露 调查研究员 84.4 作家与作者 82.5 口译员和笔译员 82.4 公共关系专家 80.6 动物科学家 77.8 高度间接暴露高度间接暴露 数学家 100.0 报税员 100.0 金融量化分析师 100.0 作家与作者 100.0 网页与数字界面设计师 100.0 注:直接暴露指使用 GPT 或 LLM 能降低至少 50%工作量;简介暴露指基于 GPT 或 LLM 开发的软件能使其降低至少 50%工作量。均衡暴露中“直接暴露”的权重为 1,“间接暴露”的权重为 0.5 数据来源:Open AI、未尽研究,国泰君安证券研究 在这里,我们给出在这里,我们给出关于电
57、商智能客服和运营商线上客服的例子关于电商智能客服和运营商线上客服的例子,方便读,方便读者更直观地理解上面的结论者更直观地理解上面的结论。我们认为,虽然二者都属于“智能客服”,但电商智能客服我们认为,虽然二者都属于“智能客服”,但电商智能客服场景中场景中AI大大模型的“降本增效”模型的“降本增效”潜力潜力远远高于运营商线上客服,前者落地更远远高于运营商线上客服,前者落地更容易容易。核心原因在于:电商智能客服:电商智能客服:消费者使用智能客服的频率相对于消费的频率是比较高的,这就导致智能客服成本在电商场景中的成本占比较高,AI替代人工的“降本增效”价值较高;运营商智能客服:运营商智能客服:对于消费
58、者来说,智能客服是一个低频应用,导致智能客服成本在运营商场景中的成本占比比较低,AI 替代人工的“降本增效”价值较低。表表 6:同样是智能客服,在不同场景中“同样是智能客服,在不同场景中“AI 大模型替代人工”大模型替代人工”能够能够实现的降本增效价值并不相同实现的降本增效价值并不相同 电商智能客服电商智能客服 运营商运营商线上线上智能客服智能客服 消费者使用频次(相对于消费频次)消费者使用频次(相对于消费频次)高 低 线上客服占成本的比重线上客服占成本的比重 高 低 AI大模型对于线上客服的部分替代产生的大模型对于线上客服的部分替代产生的“降本增效”“降本增效”价值价值 高 低 数据来源:国
59、泰君安证券研究 3.3.总体来看,“总体来看,“赚钱逻辑赚钱逻辑”好于好于“省钱逻辑省钱逻辑”总体总体来看来看,“帮客户“帮客户赚钱赚钱”的”的场景场景在商业在商业落地方面落地方面会优于会优于“帮客户“帮客户省钱省钱”的的场景。场景。这个道理不止适用于这个道理不止适用于 AI的商业落地,也适用于绝大多数的商业落地,也适用于绝大多数技术在技术在商商业场景业场景中的中的落地落地。就像一个公司里“成本中心”的地位往往比不上“利润中心”。本质上还是因为收入端的商业价值是更清晰的,成本端的商业价值只能靠诸如“替代多少员工”的逻辑来计算,其商业 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读
60、正文之后的免责条款部分 16 of 21 价值和收入端相比是比较模糊的。尤其当终端场景属于“低频次,高消费”的场景时,做成本端的优化是一件“吃力不讨好”的事。这里我们仅简单举出一个家装行业的例子作为对比这里我们仅简单举出一个家装行业的例子作为对比。在家装行业中,前端的设计软件是帮助家装公司更快更好地画出设计效果图,从而吸引消费者,直接帮助家装公司提升收入,家装公司愿意买单。在这一领域诞生了三维家、酷家乐等等一系列公司。而后端的施工信息化本质上是通过把施工拆分成不同的施工节点,降低对于工人的能力要求,提升家装公司的规模效应。这类软件要真正有用,难度比前端设计软件高非常多,而且它的商业价值很难被量
61、化。尤其在“低频次,高消费”的场景中,在用户的消费行为已经发生后,帮助客户提升消费体验是不经济的。对于这类软件,家装公司的买单意愿较弱。表表 7:尤其在尤其在“低频次,高消费”的场景中,成本端的优化对于商家来说性价比“低频次,高消费”的场景中,成本端的优化对于商家来说性价比较低较低 “地产后周期”“地产后周期”产业链中产业链中的各个的各个环节环节 家装家装 家居家居 家电家电 消费频次消费频次 低 中 高 单次消费金额单次消费金额 高 中 低 客群积累客群积累与品牌力构建与品牌力构建 难 中 低 标准化程度标准化程度 低 中 高 代表企业代表企业 东易日盛、业之峰 欧派、索菲亚 格力、美的 数
62、据来源:国泰君安证券研究 4.商业价值归属:商业价值归属:探寻大模型带来的商业价值属于哪探寻大模型带来的商业价值属于哪类玩家类玩家 在本章的讨论中,我们聚焦在本章的讨论中,我们聚焦三个三个问题:问题:这些应用场景是否会被大模型厂商直接做掉?垂直封闭大场景会不会发生业态变化?这些场景是否是 AI 技术可以落地的新场景?第一个问题的答案是显而易见的第一个问题的答案是显而易见的,这里这里只做简单讨论只做简单讨论。毫无疑问,大模型的拥有者必然是 IT 巨头。对于它们已经占据的核心场景,其他玩家对于它们已经占据的核心场景,其他玩家没有机会。没有机会。比如Copilot必然率先诞生在微软,GPT 相关的医
63、疗应用必然先用于 Nuance(此前的全球智能语音龙头,已经被微软收购);同样地,如果在电商场景里出现一个能真正获取收入的 AI 大模型应用,它也大概率来自阿里巴巴。对于这类场景,我们不再讨论。对于对于 IT巨头巨头而言,而言,除了除了它们它们已经圈定的核心场景外,已经圈定的核心场景外,大概率是不大概率是不会在其他场景中“亲自下场”的会在其他场景中“亲自下场”的。原因很简单,过多的“亲自下场”不利于生态的构建,而大模型本身的商业价值远远大于某一个垂直场景应用。对大模型拥有者来说,生态壁垒要比特定垂直场景下的商业价值重要得多。所以,我们把讨论聚焦在后两个问题上。行业更新行业更新 请务必阅读正文之
64、后的免责条款部分请务必阅读正文之后的免责条款部分 17 of 21 4.1.开放场景更易“弯道超车”,封闭场景更易“自我迭代”开放场景更易“弯道超车”,封闭场景更易“自我迭代”对于第二个问题的详细表述是:在此前小模型已经大规模落地的“大型垂域场景”中,到底是一些新玩家会依靠大模型更强大的模型能力弯道超车,还是在小模型时代处于领先的玩家利用大模型实现自我迭代?我们认为,这是“模型能力”和“数据获取能力”的对决,背后反映的我们认为,这是“模型能力”和“数据获取能力”的对决,背后反映的是“场景开放性”的问题。是“场景开放性”的问题。对于场景开放性的讨论,我们仍然沿用对于场景开放性的讨论,我们仍然沿用
65、此前此前的分类方式。的分类方式。需要注意的是,这里的划分标准是“大模型向小模型迁移时数据的可获得性,而不是训练大模型的数据的可获得性”:开放场景:开放场景:基于大模型训练小模型时,小模型精调所需要的数据可基于大模型训练小模型时,小模型精调所需要的数据可以通过公开手段获得。以通过公开手段获得。包括传统或者新兴的消费电子单品所衍生出来的各种应用,比如手机上的生态软件、智能音箱上的软件等等。这些是都是典型的“开放场景”。在这类场景中,“弯道超车”的概率更高,因为开放场景意味着数据的可获得性更高,“模型能力”占据主导。封闭场景:封闭场景:数据和特定类型的机构深度绑定,基于大模型的“二次数据和特定类型的
66、机构深度绑定,基于大模型的“二次开发”所需要的数据不容易获得,数据和渠道比模型能力本身更重开发”所需要的数据不容易获得,数据和渠道比模型能力本身更重要。要。2B 或者 2G 的垂直领域中的很多细分赛道是“封闭场景”,比如医疗、教育、政法、工业等等。在这类场景中,数据是和特定类型的机构深度绑定的,以至于对于新进入者来说数据获取难度极大,而且难以在短时间内构建起和客户之间的信任关系,“数据获取能力和渠道优势”占据主导,小模型时代的领先者利用大模型实现“自我迭代”的概率更高。当然,当然,即使在同一个赛道中,不同的细分市场也可能分属于不同类型的即使在同一个赛道中,不同的细分市场也可能分属于不同类型的场
67、景。场景。比如“课内教育”(比如科大讯飞基于学生学情数据推出个性化学习手册,该产品是个性化教辅)和“课外教育”(指市场上的各种学习机,而不是线下辅导班,下同)是两个完全不同的场景:课外教育更偏向于“开放场景”,模型调教所需要的数据来自于学生使用学习机的过程,基于大模型的“二次开发”所需要的数据相对容易获得,大模型的出现更容易对行业格局产生影响;课内教育更偏向于“封闭场景”,模型调优的数据来自于学校的周考、月考、课堂作业等,新进入者是很难获得的,再加之渠道方面的劣势,很难“后来者居上”,大模型的出现很难对行业格局产生影响。表表 8:课外教育更偏向于“开放场景”,课内教育更偏向于“封闭场景”课外教
68、育更偏向于“开放场景”,课内教育更偏向于“封闭场景”课外教育课外教育 课内教育课内教育 典型产品典型产品 AI 学习机 个性化学习手册(个性化教辅)数据获取难度数据获取难度 较小 较大 渠道壁垒渠道壁垒 较低 较高 大模型对行业竞争格局的影响大模型对行业竞争格局的影响 大 小 数据来源:国泰君安证券研究 综上,我们认为,预训练大模型确实综上,我们认为,预训练大模型确实在一定程度上导致在一定程度上导致了了垂域场景中数垂域场景中数据壁垒据壁垒的降低的降低。或许垂域数据看起来不再像之前那么重要,但依然很重或许垂域数据看起来不再像之前那么重要,但依然很重 行业更新行业更新 请务必阅读正文之后的免责条款
69、部分请务必阅读正文之后的免责条款部分 18 of 21 要。要。4.2.对非对非 I IT T巨头巨头来说来说,大模型商业价值大模型商业价值或或更多来自“长尾场更多来自“长尾场景”而非“头部场景”景”而非“头部场景”对于第二个问题的详细表述对于第二个问题的详细表述是:是:对于一般企业来说,哪些场景才是大模对于一般企业来说,哪些场景才是大模型商用后型商用后 AI 更容易新增商业价值的场景?是“头部场景”还是“长尾更容易新增商业价值的场景?是“头部场景”还是“长尾场景”场景”?我们认为,是长尾场景。我们认为,是长尾场景。在大模型出现之前,在大模型出现之前,AI技术在长尾场景中技术在长尾场景中的落地
70、的落地异常异常困难困难。这。这并非并非因为因为技术,而是成本。技术,而是成本。此前,业内更倾向于通过模型优化在参数并不大幅增加的情况下实现模型效果的提升。在这种路线下,AI 技术的应用毫无疑问难以实现对长尾场景的下探。原因很简单,对于专用模型来说,需要针对场景进行模型构建、数据采集,并进行持续迭代。单一长尾场景本身市场空间有限,而 AI 的人才、算力等成本较高,针对某个长尾场景进行模型和数据迭代本身就是不经济的。由于大模型的出现,可以在大模型基础上进行模型能力迁移生成小模型,从而降低成本。预计会有很多此前 AI 技术无法落地的长尾场景将能够被触达。比如在工业上,大模型可以比如在工业上,大模型可
71、以被被用于智慧排产。用于智慧排产。一个大型工厂可能拥有上百条产线,生产的产品多种多样。面对全球各地的订单需求,某个订单应该安排哪条产线在什么时间去生产?在类似这样的场景中,可以基于大模型开发出一系列垂域模型,大幅提升效率。图图 12:大量长尾场景此前难以大量长尾场景此前难以被被 AI 技术技术触达触达的原因在于投入产出比低的原因在于投入产出比低 数据来源:艾瑞咨询,国泰君安证券研究 4.3.小结小结 通过对本章开始提出的问题,我们根据“市场的大小”、“场景的开放程度”两个指标构建了下图中的场景矩阵,进而得出了两个结论:开放场景中后来者更容易通过被大模型赋能实现“弯道超车”;封闭场景中,更可能是
72、小模型时代的领先者利用大模型实现“自我迭代”。对于非巨头企业而言,由于大模型出现而“新增”的商业价值或将项项目目体体量量用户用户群体群体政府、大企业端政府、大企业端中小企业端中小企业端短头短头长尾长尾以平安城市、以平安城市、雪亮工程等为代表雪亮工程等为代表以园区、楼宇、校园、工地等为代表以园区、楼宇、校园、工地等为代表 行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 19 of 21 更多来自“长尾场景”而非“头部场景”。图图 13:我们依据市场的大小我们依据市场的大小和开放程度对和开放程度对 AI 潜在落地场景进行划分潜在落地场景进行划分 数据来源:国泰君
73、安证券研究 5.总结总结 本文本文构建一套构建一套“标准标准”来进行“来进行“AI 前端落地场景的发现”。前端落地场景的发现”。具体具体来说分来说分为三个部分为三个部分:第一第一部分,部分,我们我们以微软对以微软对 GPT-4的测评作为基础寻找现阶段的测评作为基础寻找现阶段AI落地的落地的“技术边界”“技术边界”。在各种局限性当中,我们认为最核心的仍然是 AI 能力的不可解释性,当某个问题存在标准答案、这个答案无法被找到,且我们对于错误难以容忍时,AI 是难以落地的;此外,AI 的知识边界来自于人类已知的知识边界,这就意味着 AI 无法进行真正意义上的而创造性工作。第二部分,在第二部分,在技术
74、上可行的前提下,技术上可行的前提下,我们尝试我们尝试勾勒勾勒 AI落地的商业价值落地的商业价值边界。边界。技术上的可实现并不意味着商业上可行,我们通过“帮客户赚钱”和“帮客户省钱”的划分方式分别讨论了 B2B2C 场景和 B2B场景下 AI落地的商业价值。在 B2B2C 场景中,我们认为 AI 商业落地潜力在于其技术差异是否能够被终端用户所感知,从而影响消费行为;在 B2B场景中,我们认为 AI 的商业落地潜力取决于原来场景中可被 AI 替代的任务比例。整体上看,我们认为 B2B2C 场景下的“赚钱逻辑”优于 B2B 场景下的“省钱逻辑”。第三部分,第三部分,我们尝试探讨我们尝试探讨 AI 商
75、业价值的归属。商业价值的归属。在这一部分中,我们根据“商业价值的大小”、“场景的开放程度”两个指标构建了场景矩阵,进而得出两个结论:第一,开放场景中后来者更容易通过被大模型赋能实现“弯道超车”;封闭场景中,更可能是小模型时代的领先者利用大模型实现“自我迭代”。第二,对于非巨头企业而言,由于大模型出现而“新大大小小小小大大数数据据获获取取难难度度商业价值大小商业价值大小开开放放场场景景封封闭闭场场景景头部场景头部场景长尾场景长尾场景新市场新市场新市场新市场旧市场旧市场ITIT巨头直接巨头直接下场下场新玩家容易新玩家容易“后来居上后来居上”旧市场旧市场小模型时代的小模型时代的领先者领先者“自我自我
76、迭代迭代”行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 20 of 21 增”的商业价值或将更多来自“长尾场景”而非“头部场景”。最后,作为二级市场的投资者,虽然我们可能无法亲身投入到 AI 的新一轮技术浪潮中;也希望我们至少做到,给国内义无反顾投身 AGI 的同学们多一点点时间,多一点点宽容和多一点点耐心。我希望引用普朗克的一句名言来结束我们这个初步的不成熟的讨论,“Science progresses one funeral at a time.The future depends on some graduate student who is dee
77、ply suspicious of everything I have said.”与各位共勉。6.投资建议投资建议 继续推荐继续推荐金山办公、科大讯飞、杰创智能、凌志软件金山办公、科大讯飞、杰创智能、凌志软件。金山办公:公司是国产办公软件龙头,全力发力 AI 战略,加大 AI 人才投入力度,预计在 2023H1 推出 AI 新品,与微软有直接映射关系。科大讯飞:采用“1+N”架构,将大模型落地于教育、医疗、人机交互、办公等多个行业,大模型将率先赋能讯飞听见、学习机,5 月 6 日产品级发布。杰创智能:AI技术可以帮助提高公司公共安全产品性能,降低成本,且外销一带一路国家。凌志软件:公司长期服
78、务日本金融市场,目前已有 GPT 相关应用落地(自动生成招股书),也可通过 GPT 实现内部最高 75%降本。表表 9:重点公司估值情况:重点公司估值情况 股票代码股票代码 证券名称证券名称 总市值总市值(亿元)(亿元)营业收入(亿元)营业收入(亿元)PS(倍)(倍)评级评级 20230315 2021A 2022A/E 2023E 2021A 2022 A/E 2023E 688111 金山办公 2,177.17 32.80 38.85 52.36 66.38 56.04 41.58 增持 002230 科大讯飞 1,486.31 183.14 200.54 275.68 8.12 7.41
79、 5.39 增持 301248 杰创智能 38.39 9.40 7.52 11.30 4.08 5.10 3.40 增持 688588 凌志软件 68.24 6.53 6.55 7.93 10.46 10.43 8.61 增持 数据来源:wind,国泰君安证券研究 7.风险提示风险提示 AI 技术落地不及预期。技术落地不及预期。由于 AI 大模型的能力源于“涌现”,后续新版本模型将“涌现”出哪些新能力无法准确预估,如果技术迭代速度低于预期,可能会影响 AI 的商业落地节奏。AI 大模型大模型受到受到政策强监政策强监管。管。由于 AI 大模型的能力来源无法解释,政府、学界、业界对于 AI 被滥用
80、均存在一定程度的担忧。若 AI 被强监管,甚至 AI 大模型研发被暂停,可能会导致 AI 的商业落地受限。行业更新行业更新 请务必阅读正文之后的免责条款部分请务必阅读正文之后的免责条款部分 21 of 21 本公司具有中国证监会核准本公司具有中国证监会核准的证券投资的证券投资咨询咨询业务资格业务资格 分析师声明分析师声明 作者具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,保证报告所采用的数据均来自合规渠道,分析逻辑基于作者的职业理解,本报告清晰准确地反映了作者的研究观点,力求独立、客观和公正,结论不受任何第三方的授意或影响,特此声明。免责声明免责声明 本报告仅供国泰君安证券
81、股份有限公司(以下简称“本公司”)的客户使用。本公司不会因接收人收到本报告而视其为本公司的当然客户。本报告仅在相关法律许可的情况下发放,并仅为提供信息而发放,概不构成任何广告。本报告的信息来源于已公开的资料,本公司对该等信息的准确性、完整性或可靠性不作任何保证。本报告所载的资料、意见及推测仅反映本公司于发布本报告当日的判断,本报告所指的证券或投资标的的价格、价值及投资收入可升可跌。过往表现不应作为日后的表现依据。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息保持在最新状态。同时,本公司对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关
82、注相应的更新或修改。本报告中所指的投资及服务可能不适合个别客户,不构成客户私人咨询建议。在任何情况下,本报告中的信息或所表述的意见均不构成对任何人的投资建议。在任何情况下,本公司、本公司员工或者关联机构不承诺投资者一定获利,不与投资者分享投资收益,也不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。投资者务必注意,其据此做出的任何投资决策与本公司、本公司员工或者关联机构无关。本公司利用信息隔离墙控制内部一个或多个领域、部门或关联机构之间的信息流动。因此,投资者应注意,在法律许可的情况下,本公司及其所属关联机构可能会持有报告中提到的公司所发行的证券或期权并进行证券或期权交易,也可能为
83、这些公司提供或者争取提供投资银行、财务顾问或者金融产品等相关服务。在法律许可的情况下,本公司的员工可能担任本报告所提到的公司的董事。市场有风险,投资需谨慎。投资者不应将本报告作为作出投资决策的唯一参考因素,亦不应认为本报告可以取代自己的判断。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。本报告版权仅为本公司所有,未经书面许可,任何机构和个人不得以任何形式翻版、复制、发表或引用。如征得本公司同意进行引用、刊发的,需在允许的范围内使用,并注明出处为“国泰君安证券研究”,且不得对本报告进行任何有悖原意的引用、删节和修改。若本公司以外的其他机构(以下简称“该机构”)发送本报告,则由该机构
84、独自为此发送行为负责。通过此途径获得本报告的投资者应自行联系该机构以要求获悉更详细信息或进而交易本报告中提及的证券。本报告不构成本公司向该机构之客户提供的投资建议,本公司、本公司员工或者关联机构亦不为该机构之客户因使用本报告或报告所载内容引起的任何损失承担任何责任。评级说明评级说明 评级评级 说明说明 1.1.投资建议的比较标准投资建议的比较标准 投资评级分为股票评级和行业评级。以报告发布后的 12 个月内的市场表现为比较标准,报告发布日后的 12 个月内的公司股价(或行业指数)的涨跌幅相对同期的沪深 300 指数涨跌幅为基准。股票投资评级股票投资评级 增持 相对沪深 300 指数涨幅 15%
85、以上 谨慎增持 相对沪深 300 指数涨幅介于 5%15%之间 中性 相对沪深 300 指数涨幅介于-5%5%减持 相对沪深 300 指数下跌 5%以上 2.2.投资建议的评级标准投资建议的评级标准 报告发布日后的 12 个月内的公司股价(或行业指数)的涨跌幅相对同期的沪深300 指数的涨跌幅。行业投资评级行业投资评级 增持 明显强于沪深 300 指数 中性 基本与沪深 300 指数持平 减持 明显弱于沪深 300 指数 国泰君安证券研究国泰君安证券研究所所 上海上海 深圳深圳 北京北京 地址 上海市静安区新闸路 669 号博华广场 20 层 深圳市福田区益田路 6003 号荣超商务中心 B 栋 27 层 北京市西城区金融大街甲 9 号 金融街中心南楼 18 层 邮编 200041 518026 100032 电话(021)38676666(0755)23976888(010)83939888 E-mail: