《计算机行业动态跟踪报告:多模态能力表现亮眼谷歌携Gemini王者归来-20231207(10页).pdf》由会员分享,可在线阅读,更多相关《计算机行业动态跟踪报告:多模态能力表现亮眼谷歌携Gemini王者归来-20231207(10页).pdf(10页珍藏版)》请在三个皮匠报告上搜索。
1、行业动态跟踪报告 多模态能力表现亮眼,谷歌携 Gemini 王者归来行业动态跟踪报告 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。行业报告 计算机 2023 年 12 月 07 日 强于大市(维持)强于大市(维持)行情走势图行情走势图 相关研究报告相关研究报告【平安证券】行业点评*计算机*OpenAI 发布 GPT-4 Turbo,推出 GPT Store 完善大模型应用生态*强于大市 20231107【平安证券】行业点评*计算机*微软正式发布 Office 365 Copilot 的定价,大模型提高客单价的逻辑进一步被验证*
2、强于大市 20230720【平安证券】行业点评*计算机*生成式人工智能服务管理暂行办法 发布,我国大模型商用浪潮即将开启*强于大市 20230714 证券分析师证券分析师 闫磊闫磊 投资咨询资格编号 S06 YANLEI 付强付强 投资咨询资格编号 S01 FUQIANG 黄韦涵黄韦涵 投资咨询资格编号 S03 HUANGWEIHAN 事项:当地时间 12 月 6 日,谷歌公司宣布推出其规模最大、功能最强的多模态大模型Gemini,其最强大的 TPU(张量处理单元)系统“Cloud TPU v5p”,以及来自谷歌云的人工智能超级
3、计算机。平安观点:Gemini 大模型主打多模态,性能对标大模型主打多模态,性能对标 GPT-4。本次谷歌推出的多模态大模型 Gemini 依然采用 Transformer 架构,采用高效 Attention 机制,支持32k 的上下文长度,1.0 家族涵盖 Ultra、Pro、Nano 三类模型,各有定位。Gemini 主打在多模态领域的突出能力:1)文本领域,Gemini Ultra 在多项基准测试中领先于 GPT-4,并成为现有第一个在大规模多任务语言理解(MMLU)方面超越人类专家的模型。2)多模态领域,Gemini Ultra 在图像、视频、音频多项基准测试中同样实现超越 GPT-4
4、V。3)此外模态组合领域,Gemini 还展示了处理多模态输入、跨模态推理的强大能力。结合此前市场传闻谷歌将延迟发布 Gemini,我们认为本次无论是 Gemini 如期发布,还是其超越有力竞争对手的多模态能力,总体超出市场预期。算力优势稳固,发布新一代云端算力优势稳固,发布新一代云端 AI芯片芯片 TPU v5p。本次谷歌在发布Gemini的同时推出了全新的面向云端 AI 加速的 TPU v5p,这也是谷歌迄今为止功能最强大、效率最高且可扩展性最强的 TPU 系统。谷歌表示,Gemini 1.0采用 TPU v4 和 v5e 芯片上进行大规模训练,在 TPU 上 Gemini 的运行速度明显
5、快于早期规模更小、性能更弱的模型,新一代 Cloud TPU v5p 专为训练前沿 AI 模型设计,未来 TPU v5p 也会应用于加速 Gemini 开发。TPU v5p 性能较 TPU v4 全面提升,并能实现更快地训练大模型。背靠谷歌生态帝国,背靠谷歌生态帝国,Gemini 商业化想象空间广阔。商业化想象空间广阔。从大模型应用端来看,相较 OpenAI,谷歌的商业版图更为广阔,Gemini 系列规模和功能强大,预计将快速融入谷歌生态,未来商业模式拥有极大的想象空间。内部生态融合计划来看,谷歌表示,从发布日起,Gemini 可开始应用于 Bard 和Pixel 8 Pro 智能手机,并将很
6、快与谷歌服务中的其他产品集成,包括Chrome、搜索和广告等。外部用户开放情况来看,谷歌计划通过谷歌云将 Gemini 授权给客户,12 月 13 日开始,开发者和企业客户可以访问Gemini Pro,安卓开发人员可以使用 Gemini Nano 完成构建。证券研究报告 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。计算机行业动态跟踪报告 2/10 投资建议:全球巨头角逐愈演愈烈,继续看好投资建议:全球巨头角逐愈演愈烈,继续看好 AI 算力需求增长和应用场景拓宽。算力需求增长和应用场景拓宽。谷歌作为全球人工智能龙头之一,无论在算
7、力、算法还是商业化各个方面都积蓄了优势,Gemini 系列大模型的如期推出,打破此前市场关于延期发布的传闻,同时 Gemini系列在传统文本领域以及多模态领域能力均对标 GPT-4,总体超出市场预期。我们可以看到人工智能巨头在大模型领域的竞争依然白热化,在此背景下继续看好 AI 算力需求的增长,同时,当下对于多模态 AI 的激烈角逐也将持续拔升大模型的整体能力水平,有助于不断拓展大模型的应用场景和边界,想象空间广阔。当前,我国通用人工智能产业政策逐步完善,国产大模型能力持续升级。美国对华半导体出口管制升级,将倒逼我国国产 AI 芯片产业链加快成熟。随着国产大模型厂商和 AI 芯片厂商的持续发力
8、,我国 AIGC 产业未来发展前景广阔。在标的方面:1)算力方面,推荐海光信息、中科曙光、紫光股份、浪潮信息、龙芯中科,建议关注神州数码、寒武纪、景嘉微;2)算法方面,推荐科大讯飞;3)应用场景方面,推荐金山办公,建议关注万兴科技、拓尔思;4)网络安全方面,强烈推荐启明星辰。风险提示:风险提示:1)国内大模型算法发展可能不及预期。)国内大模型算法发展可能不及预期。2)AI 算力供应链风险上升。算力供应链风险上升。3)大模型产品的应用落地低于预期。)大模型产品的应用落地低于预期。请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。计算机
9、行业动态跟踪报告 3/10 一、一、Gemini大模型主打多模态,性能对标大模型主打多模态,性能对标 GPT-4 Gemini主打主打多模态能力。多模态能力。本次谷歌推出的多模态大模型 Gemini 依然采用 Transformer 架构,采用高效Attention 机制,支持 32k 的上下文长度。Gemini 主打在多模态领域的突出能力,在输入端,Gemini 可以适应文本与音视频交叉的输入序列,比如自然图像、图表、截图、pdf和视频等,在输出端,Gemini 兼具文本和图像两种输出形式。与市面上大模型不同的地方在于,Gemini 从设计之初开始就是多模态的,并不像 OpenAI构建 DA
10、LLE 和 Whisper 单独训练图像和语音模型。图表图表1 Gemini 主打多模态能力:输入支持交叉序列,输出支持文本和图像主打多模态能力:输入支持交叉序列,输出支持文本和图像 资料来源:谷歌Gemini:A Family of Highly Capable Multimodal Models,平安证券研究所 Gemini 1.0家族涵盖三家族涵盖三类类模型,各有定位模型,各有定位。1)Gemini Ultra:用于高度复杂的任务,为规模最大、功能最强的类别,定位为 GPT-4 的竞争对手;2)Gemini Pro:是一款中端型号,用于增强性能和大规模部署能力,根据谷歌技术报告,其性能优
11、于 GPT-3.5;3)Gemini Nano:主要用于特定任务和移动设备。图表图表2 Gemini 1.0 家族家族涵盖涵盖 Ultra、Pro、Nano 三类三类模型模型 资料来源:谷歌DeepMind官网,平安证券研究所 模型能力方面,模型能力方面,Gemini系列在文本、多模态、模态组合等领域均实现了系列在文本、多模态、模态组合等领域均实现了较大进展较大进展,在绝大多数,在绝大多数基准基准测试中测试中性能性能领先于领先于 GPT-4。1)文本领域,)文本领域,Gemini Ultra 在多项基准测试中领先于在多项基准测试中领先于 GPT-4,并成为现有,并成为现有第一个在大规模多任务语
12、言理解第一个在大规模多任务语言理解(MMLU)方面方面超越人类专家的模型。超越人类专家的模型。在谷歌技术报告中,公司将Gemini 与 GPT-4 以及此前谷歌最强的语言大模型 PaLM 2 等等进行了比 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。计算机行业动态跟踪报告 4/10 较,在大型语言模型(LLM)研发中使用的 32 个广泛使用的学术基准中,Gemini Ultra 的性能有 30 个超过了当前最先进的结果(SOTA,State Of The Art),全面领先于 GPT-4。MMLU方面,方面,Gemini Ul
13、tra 同样优于所有现有模型,达到 90.04%的准确率。MMLU 基准测试综合使用数学、物理、历史、法律、医学和伦理学等 57 个科目来测试大模型世界知识和解决问题的能力,人类专家表现作为基准被衡量为 89.8%。根据公司介绍,Gemini Ultra 被证明是第一个超过人类专家基准的模型,此前最先进的公开结果来自 GPT-4。数学方面,数学方面,Gemini Ultra 在初等考试和竞赛级别问题集上表现出色,对于 GSM8K(小学数学基准测试)而言,Gemini Ultra 在使用链式思考提示和自一致性的情况下达到了 94.4的准确性。编码方面,编码方面,Gemini Ultra 在 Hu
14、manEval(标准代码完成基准测试)上正确实现了 74.4的问题,在新的Python 代码生成任务的评估基准测试Natural2Code 上,Gemini Ultra 取得 74.9的 SOTA。根据谷歌 Deepmind 官网显示,由 Gemini 驱动的 AI 编程助手AlphaCode 2 实现了巨大改进,编程能力超过 85%的人类参赛程序员,性能较前一代 AlphaCode 高出将近50%。图表图表3 Gemini 在文本领域的表现领先于现有大型语言模型在文本领域的表现领先于现有大型语言模型 资料来源:谷歌Gemini:A Family of Highly Capable Multi
15、modal Models,平安证券研究所 2)多模态领域,多模态领域,Gemini Ultra 在图像在图像、视频、音频、视频、音频多项基准测试中多项基准测试中同样实现超越同样实现超越 GPT-4V。图像理解方面,图像理解方面,无论是回答自然图像问题,进行扫描文档的文本识别,还是理解信息图表、图表和科学图解,Gemini Ultra 在多个任务上都取得了显著改进。在多模态多学科理解(MMMU)基准测试的六大学科(艺术与设计、商业、科学、健康医学、人文社科和技术工程)中,Gemini Ultra 均领先于 GPT-4V。视频理解方面,视频理解方面,Gemini Ultra 彰显了强大的时态推理能
16、力,在各种少镜头(Few-shot)视频字幕任务和零镜头视频问答任务上取得了SOTA。音频理解方面,音频理解方面,Gemini Pro 模型在英语和多语言测试集的所有自动语音识别(ASR)和自动语音翻译(AST)任务中都明显优于 USM 和Whisper 模型,Gemini Nano-1 模型在除 FLEURS 以外的所有数据集上也优于 USM 和 Whisper。请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。计算机行业动态跟踪报告 5/10 图表图表4 Gemini 在多模态领域表现同样优异在多模态领域表现同样优异 资料来源:
17、谷歌DeepMind官网,平安证券研究所 3)除此之外,)除此之外,模态组合领域模态组合领域,Gemini彰显了处理多模态输入、跨模态推理的强大能力。彰显了处理多模态输入、跨模态推理的强大能力。谷歌通过煎鸡蛋的烹饪场景示例,展示了 Gemini 处理文本、视觉和音频交叉序列的能力以及跨模态推理能力。任务为输入来自用户的交错图像和音频,提供给 Gemini 制作煎蛋卷的指令,并要求 Gemini 检查是否完全煮熟。可以看到 Gemini 模型准确地回答了用户的问题,特别是在判断煎蛋卷是否煮熟的过程中展示了其对细节的敏感性,同时,我们也看到 Gemini 模型能够在不同模态之间实现高效的推理,并为
18、用户提供了自然的交互体验。请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。计算机行业动态跟踪报告 6/10 图表图表5 谷歌通过煎蛋卷示例谷歌通过煎蛋卷示例演示演示 Gemini 处理音频和图像处理音频和图像交叉交叉序列的能力序列的能力 资料来源:谷歌Gemini:A Family of Highly Capable Multimodal Models,平安证券研究所 二、二、算力优势稳固,发布新一代云端算力优势稳固,发布新一代云端 AI芯片芯片 TPU v5p 新一代新一代 Cloud TPU v5p专为训练专为训练前沿前沿 A
19、I模型设计。模型设计。本次谷歌在发布 Gemini 的同时推出了全新的面向云端AI加速的 TPU v5p,这也是谷歌迄今为止功能最强大、效率最高且可扩展性最强的 TPU 系统。谷歌于 2016 年起开始推出第一代 TPU,TPU是为神经网络设计的专用芯片、谷歌人工智能产品的核心,为谷歌搜索、YouTube、Gmail、谷歌地图、Google Play 和Android等数十亿用户提供服务。谷歌表示,Gemini 1.0 采用 TPU v4 和 v5e 芯片上进行大规模训练,在 TPU 上 Gemini 的运行速度明显快于早期规模更小、性能更弱的模型,未来 TPU v5p 也会应用于加速 Gem
20、ini 开发。TPU v5p性能较性能较 TPU v4全面提升。全面提升。谷歌 TPU v5p 在 bfloat16 精度下,可以实现 459 teraFLOPS;在 Int8 精度下,可以实现 918 teraOPS。谷歌 TPU v5p 配备 95GB 的 HBM3 内存,内存带宽为 2.76TB/sec,每个Pod 最多有 8960 个加速核心,并自研搭载 600GB/sec 芯片互联主控,可以更快、更准确地训练 AI模型。与 TPU v4 相比,TPU v5p 的浮点运算性能大幅提升,在高带宽内存方面是 TPU v4 的近 3 倍。请通过合法途径获取本公司研究报告,如经由未经许可的渠道
21、获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。计算机行业动态跟踪报告 7/10 图表图表6 谷歌谷歌 TPU 芯片参数比较芯片参数比较 图表图表7 谷歌数据中心内谷歌数据中心内部署部署 Cloud TPU v5p 资料来源:谷歌云官网,IT之家,平安证券研究所 资料来源:谷歌官网,平安证券研究所 TPU v5p 实现更快实现更快训练大模型训练大模型,相对性能处于较高水平,相对性能处于较高水平。谷歌表示在 BF16 精度下,训练 OpenAI 拥有 1750 亿参数的 GPT3,比此前的 TPU v4 AI 加速器芯片快 90%;如果在 Int8 精度下可以达到 180%。每个 TP
22、U v5p 加速器的运行费用为每小时 4.2 美元,而 TPU v4 加速器为每小时 3.22 美元,TPU v5e 加速器每小时 1.2 美元,虽然价格更高,但从每美元相对性能来看,TPU v5p 接近 TPU v5e,处于较高水平。图表图表8 谷歌谷歌 TPU 训练大模型训练大模型速度表现比较速度表现比较 图表图表9 谷歌谷歌 TPU 训练大模型训练大模型每美元相对性能每美元相对性能比较比较 资料来源:谷歌云官网,IT之家,平安证券研究所 资料来源:谷歌云官网,IT之家,平安证券研究所 除了新硬件之外,谷歌除了新硬件之外,谷歌本次本次还引入了“人工智能超级计算机”的概念。还引入了“人工智能
23、超级计算机”的概念。谷歌云将其描述为一种软硬件结合的超级计算架构,是一个提供性能优化硬件和开放软件以及灵活消费选择的集成系统。根据谷歌计算和机器学习基础设施部门副总裁马克洛迈尔(Mark Lohmeyer)的解释,“传统方法通常通过零碎的组件级增强来解决要求苛刻的人工智能工作负载,这可能会导致效率低下和瓶颈。”“相比之下,人工智能超级计算机采用系统级协同设计来提高人工智能训练、调整和服务的效率和生产力。”,我们认为“人工智能超级计算机”将更强调通过多方协同进一步提高生产力和效率。请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。计算
24、机行业动态跟踪报告 8/10 图表图表10 谷歌谷歌首提“首提“人工智能超级计算机人工智能超级计算机”概念”概念 资料来源:谷歌云官网,平安证券研究所 三、三、背靠谷歌生态帝国,背靠谷歌生态帝国,Gemini商业化想象空间广阔商业化想象空间广阔 从大模型应用端来看,相较从大模型应用端来看,相较 OpenAI,谷歌的商业版图更为广阔,谷歌的商业版图更为广阔,Gemini系列规模和功能强大,预计将快速融入谷歌生态,系列规模和功能强大,预计将快速融入谷歌生态,未来商业模式拥有极大的想象空间。未来商业模式拥有极大的想象空间。内部生态融合计划来看,内部生态融合计划来看,谷歌表示,从发布日起,Gemini
25、可开始应用于Bard 和 Pixel 8 Pro 智能手机,并将很快与谷歌服务中的其他产品集成,包括 Chrome、搜索和广告等。1)应用于)应用于 Bard 聊天机器人聊天机器人:从发布会当天开始,谷歌聊天机器人Bard 将使用 Gemini Pro 的微调版本来实现高级推理、规划、理解和其他功能。明年初,谷歌将推出Bard Advanced,其将使用 Gemini Ultra,这代表Bard 发布以来的最大更新。2)应用于)应用于 Pixel 8 Pro手机手机:从发布会当天开始,Pixel 8 Pro 手机的两项功能将由 Gemini Nano 提供支持:录音机应用(Recorder)中
26、的Summarize 等功能、WhatsApp Gboard 中的Smart Reply。由于模型在手机中运行,因此两者都可以离线工作,因此应该能拥有快速且原生的体验。谷歌表示,Nano 的目标是创建一个尽可能强大的 Gemini 版本,但同时不会占用手机的存储空间或使处理器过热。3)在接下来的几个月中,Gemini将出现在谷歌更多的产品和服务中,例如搜索、广告、Chrome 和 Duet AI。外部外部用户用户开放情况来看开放情况来看,谷歌计划通过谷歌云将 Gemini 授权给客户,供他们在自己的应用程序中使用。12 月 13 日开始,开发者和企业客户可以通过谷歌AI Studio 或谷歌
27、Cloud Vertex AI中的 Gemini API(应用程序编程接口)访问 Gemini Pro,安卓开发人员可以使用 Gemini Nano 完成构建。四、四、投资建议:全球巨头角逐愈演愈烈,继续看好投资建议:全球巨头角逐愈演愈烈,继续看好 AI算力需求增长和应算力需求增长和应用场景拓宽用场景拓宽 谷歌作为全球人工智能龙头之一,无论在算力、算法还是商业化各个方面都积蓄了优势,Gemini 系列大模型的如期推出,打破此前市场关于延期发布的传闻,同时Gemini 系列在传统文本领域以及多模态领域能力均对标 GPT-4,总体超出市场预期。我们可以看到人工智能巨头在大模型领域的竞争依然白热化,
28、在此背景下继续看好 AI 算力需求的增长,同时,当下对 请通过合法途径获取本公司研究报告,如经由未经许可的渠道获得研究报告,请慎重使用并注意阅读研究报告尾页的声明内容。计算机行业动态跟踪报告 9/10 于多模态 AI 的激烈角逐也将持续拔升大模型的整体能力水平,有助于不断拓展大模型的应用场景和边界,想象空间广阔。当前,我国通用人工智能产业政策逐步完善,国产大模型能力持续升级。美国对华半导体出口管制升级,将倒逼我国国产AI芯片产业链加快成熟。随着国产大模型厂商和 AI芯片厂商的持续发力,我国AIGC 产业未来发展前景广阔。在标的方面:1)算力方面,推荐海光信息、中科曙光、紫光股份、浪潮信息、龙芯
29、中科,建议关注神州数码、寒武纪、景嘉微;2)算法方面,推荐科大讯飞;3)应用场景方面,推荐金山办公,建议关注万兴科技、拓尔思;4)网络安全方面,强烈推荐启明星辰。五、五、风险提示风险提示 1)国内大模型算法发展可能不及预期。)国内大模型算法发展可能不及预期。当前,虽然国产大模型能力持续升级,但相比 OpneAI 等全球领先的大模型厂商,国产大模型的追赶进度存在不达预期的风险。2)AI 算算力供应链风险上升。力供应链风险上升。美国对华半导体出口管制升级,将倒逼我国国产 AI 芯片产业链加快成熟。但如果我国国产 AI芯片的迭代速度不达预期,将影响我国 AI算力的发展。3)大模型产品的应用落地低于预
30、期。)大模型产品的应用落地低于预期。当前,我国国产大模型已经开始在教育、医疗、汽车、办公、工业、智能硬件等 B 端和 C 端应用场景持续落地,如果产品的市场拓展不及预期,则我国大模型产品的应用落地将存在低于预期的风险。平安证券研究所投资评级:平安证券研究所投资评级:股票投资评级:强烈推荐(预计 6 个月内,股价表现强于市场表现 20%以上)推 荐(预计 6 个月内,股价表现强于市场表现 10%至 20%之间)中 性(预计 6 个月内,股价表现相对市场表现在10%之间)回 避(预计 6 个月内,股价表现弱于市场表现 10%以上)行业投资评级:强于大市(预计 6 个月内,行业指数表现强于市场表现
31、5%以上)中 性(预计 6 个月内,行业指数表现相对市场表现在5%之间)弱于大市(预计 6 个月内,行业指数表现弱于市场表现 5%以上)公司声明及风险提示:负责撰写此报告的分析师(一人或多人)就本研究报告确认:本人具有中国证券业协会授予的证券投资咨询执业资格。平安证券股份有限公司具备证券投资咨询业务资格。本公司研究报告是针对与公司签署服务协议的签约客户的专属研究产品,为该类客户进行投资决策时提供辅助和参考,双方对权利与义务均有严格约定。本公司研究报告仅提供给上述特定客户,并不面向公众发布。未经书面授权刊载或者转发的,本公司将采取维权措施追究其侵权责任。证券市场是一个风险无时不在的市场。您在进行
32、证券交易时存在赢利的可能,也存在亏损的风险。请您务必对此有清醒的认识,认真考虑是否进行证券交易。市场有风险,投资需谨慎。免责条款:此报告旨为发给平安证券股份有限公司(以下简称“平安证券”)的特定客户及其他专业人士。未经平安证券事先书面明文批准,不得更改或以任何方式传送、复印或派发此报告的材料、内容及其复印本予任何其他人。此报告所载资料的来源及观点的出处皆被平安证券认为可靠,但平安证券不能担保其准确性或完整性,报告中的信息或所表达观点不构成所述证券买卖的出价或询价,报告内容仅供参考。平安证券不对因使用此报告的材料而引致的损失而负上任何责任,除非法律法规有明确规定。客户并不能仅依靠此报告而取代行使
33、独立判断。平安证券可发出其它与本报告所载资料不一致及有不同结论的报告。本报告及该等报告反映编写分析员的不同设想、见解及分析方法。报告所载资料、意见及推测仅反映分析员于发出此报告日期当日的判断,可随时更改。此报告所指的证券价格、价值及收入可跌可升。为免生疑问,此报告所载观点并不代表平安证券的立场。平安证券在法律许可的情况下可能参与此报告所提及的发行商的投资银行业务或投资其发行的证券。平安证券股份有限公司 2023 版权所有。保留一切权利。平安证券研究所 电话:4008866338 深圳深圳 上海上海 北京北京 深圳市福田区益田路 5023 号平安金融中心 B 座 25 层 上海市陆家嘴环路 1333 号平安金融大厦 26 楼 北京市丰台区金泽西路 4 号院 1 号楼丽泽平安金融中心 B 座 25 层