《谷歌A-美股公司研究报告-全球搜索与移动生态公司巨头转型AI+云计算-231009(53页).pdf》由会员分享,可在线阅读,更多相关《谷歌A-美股公司研究报告-全球搜索与移动生态公司巨头转型AI+云计算-231009(53页).pdf(53页珍藏版)》请在三个皮匠报告上搜索。
1、 本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。同时请务必阅读正文之后的免责条款和声明。证券研究报告证券研究报告美股公司深度美股公司深度 软件与服务软件与服务 全球搜索与移动生态公司巨头,转型全球搜索与移动生态公司巨头,转型AI+云云计算计算 核心观点核心观点 大语言模型对社会降本增效的作用已经初步显现,未来进一步泛化普及的概率较高,这将推动云计算基础设施和大模型产品的需求增长,2023-25 年有望继续维持较快收入增长,广告和其他业务保持稳健发展,成本费用的持续
2、优化将支撑利润率的回升。尽管面临短期加息周期的波动和行业竞争的变化,我们持续看好公司中长期的成长性与投资价值。要点要点 谷歌为全球搜索与移动生态公司巨头,以在线广告收入为核心,谷歌为全球搜索与移动生态公司巨头,以在线广告收入为核心,并逐步推进“并逐步推进“AI+云计算”建设。云计算”建设。谷歌由拉里佩奇和谢尔盖布林于 1996 年联合创立,2004 年于纳斯达克上市,2015 年,谷歌成立母公司 Alphabet,Google 成为母公司旗下最大子公司,Calico、Nest、Fiber 等成为 Google 同级子公司。谷歌(Alphabet)的业务板块包括 Google 和 Other B
3、ets 两部分,其中 Google 为公司的核心收入来源。Google 以广告业务为核心,辅以云业务、应用商店、硬件产品等互联网产品与服务,具体包括 Android、Search、YouTube、Apps、Maps 和 Ads。此外,子公司 Other Bets业务涉及生物科技(Calico)、智能家居(Nest)、资本投资(GV)、宽带服务(Fiber)和自动驾驶(Waymo)等领域。谷歌在谷歌在 LLM 领域全栈技术积累深厚,总体处于第一梯队。领域全栈技术积累深厚,总体处于第一梯队。谷歌在大模型领域的布局是全方位的,涵盖上游芯片、分布式计算集群、深度学习框架,以及模型训练、调试优化策略,并
4、且在多数环节保持领先地位,OpenAI 的成功则是建立在与微软、英伟达等公司相互合作的基础上,并且是 OpenAI 与微软是通过股权投资绑定利益关系,这意味着其他竞争者模仿的难度较大,而就互联网平台而言,Google 在 AI 领域的积累深厚,整体并不落后于OpenAI 的情况。投资建议:投资建议:Google 业绩主要敞口仍然是广告需求,因此美国经济整体表现韧性预计有益公司业绩。我们预计公司 2023-25 年整体收入分别为 3001/3305/3604 亿美元,GAAP 归母净利润分别为685/819/938 亿美元。尽管面临短期加息周期的波动和行业竞争的变化,我们持续看好公司中长期的成长
5、性与投资价值,维持“买入”评级。维持维持 买入买入 于伯韬于伯韬 SAC 编号:S01 SFC 编号:BRR519 崔世峰崔世峰 SAC 编号:s04 许悦许悦 SAC 编号:s01 发布日期:2023 年 10 月 09 日 当前股价:137.58 美元 目标价格 6 个月:160 美元 主要数据主要数据 股票价格绝对股票价格绝对/相对市场表现(相对市场表现(%)1 个月 3 个月 12 个月 1.33/5.54 13.00/15.61 35.64/15.17 12 月最高/最低价(美元)138.21/83.43 总股本(万股
6、)1,260,900.00 流通股本(万股)593,300.00 总市值(亿美元)17,347.46 流通市值(亿美元)17,347.46 近 3 月日均成交量(万)2811.62 主要股东 BlackRock,Inc.股价表现股价表现 -15%5%25%45%2022/10/102022/11/102022/12/102023/1/102023/2/102023/3/102023/4/102023/5/102023/6/102023/7/102023/8/102023/9/10谷歌A纳斯达克综指谷谷歌歌 A(GOOGL.O)美股公司深度报告 谷歌谷歌 A 请务必阅读正文之后的免责条款和声明。
7、目录目录 1.公司分析:全球搜索与移动生态公司巨头,转型 AI+云计算.1 1.1 公司概况:全面推进 AI+云计算转型.1 1.2 财务分析:收入结构逐步优化,利润率保持稳定.3 2.Google Service:搜索广告处于长周期拐点,Youtube 商业化加速.5 2.1 Google Search:核心壁垒来自对移动端和浏览器等流量入口的布局.5 2.2 Google Mobile Service:生态壁垒深厚,监管压力驱动超额利润均值回归.11 2.3 Youtube:内容深度向上打开变现空间,时长向下巩固生态壁垒.13 3.Google Cloud:从技术为先转向客户中心,Gen
8、AI 时代有望加速发展.19 3.LLM 大语言模型:具备充分想象力的技术趋势.23 3.1 研究框架:聚焦模型结构、预训练模型、下游调试、部署、推断等环节.23 3.1.1 综述:Scaling Law、Prompt Engineering 驱动 LLMs 加速发展.23 3.1.2 预训练:差异来自数据集、知识图谱、参数规模、训练策略.33 3.1.3 下游调试、部署、推断:RHLF 仍处于技术发展的早期,潜在优化空间大.36 3.1.4 量化效果:基于公开测试集进行量化评估.38 3.2 谷歌的竞争分析:全栈技术积累深厚,总体处于第一梯队.39 3.2.1 预训练环节:谷歌在训练基础设施
9、/训练策略方面布局领先.39 3.2.2 模型调试:谷歌在 Fine-tuning,Prompt engineering 方面领先,在 Alignment Tuning 等领域与 OpenAI 存在差距.42 估值.44 投资评价和建议.44 风险分析.44 报表预测.46 图目录 图 1:谷歌(Alphabet)子公司概况.1 图 2:谷歌发展历程.2 图 3:谷歌现任高管团队简要情况.3 图 4:2013-22 年谷歌营业收入结构(%).4 图 5:2013-22 年谷歌毛利率、销售净利率情况(%).4 图 6:2013-22 年谷歌费用率情况(%).4 图 7:2013-22 年经调整归
10、母净利润率(%).4 图 8:2000M5-2001M8 Google/AltaVista 市场份额情况(%).5 图 9:2000-2013 年全球搜索引擎份额(%).5 图 10:PageRank 算法演进.6 图 11:2008-2020 年美国搜索引擎市场份额(%).7 图 12:2015-2023 年全球桌面端搜索引擎市场份额(%).7 图 13:2000-3Q09 全球浏览器份额(%).7 图 14:2009-2019 年全球浏览器份额(%).7 美股公司深度报告 谷歌谷歌 A 请务必阅读正文之后的免责条款和声明。图 15:Windows 95 起内置 IE 浏览器.8 图 16:
11、Windows 系统安装其他浏览器时报错.8 图 17:2008-2015 年 3 月欧洲浏览器份额情况(%).8 图 18:2010-2014 年欧洲地区 Windows 用户的浏览器选择页面.8 图 19:2008-2015 年北美浏览器份额情况(%).9 图 20:2009-2022 年 Google 向 Apple Inc.支付的 TAC 费用.9 图 21:2011-2021 年移动端浏览器份额(%).9 图 22:2012 年 6 月 Chrome 份额超越 IE&Edge.9 图 23:Google Chrome App 产品截图.10 图 24:Google Chrome 发展
12、历程.10 图 25:2008 年 12 月-2015 年 3 月全球手机 OS 市场份额(%).11 图 26:The Open Handset Alliance 官网介绍.11 图 27:Google Play Service 包含 Google 账号登录等功能.12 图 28:Google Play Service 与 App 的授权.12 图 29:2004-2023M6 北美地区数码相机出货量(万台).13 图 30:2003-2017 年全球数码相机出货量(百万他).13 图 31:美国宽带上网渗透率在 2005 年 3 月超过拨号上网.13 图 32:2005-2015 年社交媒
13、体在美国成年人中的渗透率(%).13 图 33:2005 年前后技术侧的最大变量是社交媒体的兴起(%).14 图 34:2004-2006M3 美国视频平台搜索指数情况(Youtube/Google Video 主要来自 MySpace/Google Search的导流).14 图 35:2006M1-M8 美国视频平台市场份额(%).15 图 36:2005M5-2006M5 Youtube UV 情况.15 图 37:Youtube 产品功能上线时间图.15 图 38:2005-2011 年 Youtube 垂类内容占比明显提升.16 图 39:2013 年 6 月 Youtube 内容结
14、构(%).16 图 40:2005-2012 年 Youtube 日均上传视频数量.16 图 41:2005-2013 年 Youtube 每日新增创作者.16 图 42:2009-2010 年美国前五大网站份额趋势(%).17 图 43:4Q10-3Q13 Facebook Mobile 占比逐步提升.17 图 44:2014 年 Facebook 平台上 FB Video 超过 Youtube.17 图 45:2013 年前后 Snapchat/Instagram 迅速崛起(单位:百万).17 图 46:2015-2023 年全球主要社交平台 MAU(亿).18 图 47:2015-202
15、3 年全球主要社交平台 DAU(亿).18 图 48:2015-2023 年全球主要社交平台 MAU 份额(%).18 图 49:2015-2023 年全球主要社交平台 DAU 份额(%).18 图 50:Youutbe Shorts 界面截图.19 图 51:2021 年 1-6 月 Youtube Shorts VV 和 Upload 趋势.19 图 52:2021H1 Youtube 流行、娱乐内容同比大幅增长.19 图 53:Google Cloud 相关高管人员及汇报关系变化.22 图 54:大模型的研究框架.23 美股公司深度报告 谷歌谷歌 A 请务必阅读正文之后的免责条款和声明。
16、图 55:超大规模预训练模型成为业界趋势.24 图 56:超大规模预训练模型存在规模扩张边际收益递减的规律.24 图 57:NLP 领域下游任务的范式迁移.25 图 58:模型效果与参数规模呈现幂律关系.26 图 59:GPT-3 效果并不明显好于小规模的 BERT Large 模型.26 图 60:模型在预训练阶段的表现基本仅依赖于模型的参数量.27 图 61:模型在微调阶段时的表现和模型结构关系很大.27 图 62:思维链提示在性能-比例曲线中表现出明显的相变.28 图 63:不同参数规模下直接 Prompt 与 CoT 的性能比较.28 图 64:CoT Prompt 对不同规模、语料训
17、练下模型性能的影响.29 图 65:指令微调相对预训练计算量占比很小.29 图 66:当模型性能超越一般人时,Alignment 成为挑战.30 图 67:RM 可能存在过拟合的情况.30 图 68:不同方法下模型过拟合情况.30 图 69:业界 AI 研究院的组织架构调整.31 图 70:2018-21 年谷歌经历介入军事、语音监听、伦理委员会风波,21-23 年大量研究人员离职.32 图 71:2017-22 年 NIPS 论文发布机构集中度有所下降.32 图 72:1950-2022 年美国司法部及欧盟反垄断诉讼案件数量(件).32 图 73:OpenAI GPT-3 模型的训练语料集.
18、33 图 74:ERNIE、BERT 掩码策略差异.34 图 75:ERNIE 团队提出序列多任务学习模式.35 图 76:OPT-175B 训练断点情况.36 图 77:GPT-4 模型的训练是基于小规模模型训练预测大模型的损失函数进行的.36 图 78:InstructGPT 论文中提到的下游调试过程.37 图 79:InstructGPT 经过调试后表现显著优于 SFT-175B 模型.37 图 80:大规模 PM 对不同参数规模模型的效果提升是显著的.37 图 81:小规模 PM 对模型的性能提升可能不显著.37 图 82:百度 ERNIE 团队提出在线蒸馏框架.38 图 83:GPT
19、-4 模型在多数下游语言任务中达到 SOTA.39 图 84:GPT-4 模型在视频下游任务方面领先幅度不如语言领域.39 图 85:不同大语言模型的预训练数据集结构(%).39 图 86:Google 在分布式集群计算资源利用率方面处于相对领先地位.40 图 87:TPUv4 在多个下游场景中表现优于 A100.40 图 88:TPU v4 在 BERT 上表现优于 A100.40 图 89:TPU v4 在 ResNet 上表现优于 A100.40 图 90:目前学界/业界提升模型计算效率的策略分类.41 图 91:OPT-175B survived 143K steps.41 图 92:
20、Fine-tuning performance of the T5 Base,Large,and 11B on the GLUE dev set.42 图 93:SAM 提升了模型对标签噪声的稳健性,并优化了模型训练效率.42 图 94:当模型性能超越一般人时,Alignment 成为挑战.43 表目录 美股公司深度报告 谷歌谷歌 A 请务必阅读正文之后的免责条款和声明。表 1:业界大模型相关论文影响力(截止 2023/4/17).25 表 2:训练语料引入多轮对话后模型预测准确率提升.33 表 3:不同掩码策略及数据集规模下的模型预测准确率.34 表 4:谷歌分项收入预测(单位:百万美元,%
21、).44 表 5:谷歌广告收入结构变化对 EPS 的敏感型分析.45 1 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 1.公司分析公司分析:全球搜索与移动生态公司巨头,全球搜索与移动生态公司巨头,转型转型 AI+云计算云计算 1.1 公司概况公司概况:全面推进:全面推进 AI+云计算转型云计算转型 谷歌为全球搜索与移动生态公司巨头,以在线广告收入为核心,并逐步推进“谷歌为全球搜索与移动生态公司巨头,以在线广告收入为核心,并逐步推进“AI+云计算”建设。云计算”建设。谷歌由拉里佩奇和谢尔盖布林于 1996 年联合创立,2004 年于纳斯达克上市,2015 年,谷歌成立母公司 Alp
22、habet,Google 成为母公司旗下最大子公司,Calico、Nest、Fiber 等成为 Google 同级子公司。谷歌(Alphabet)的业务板块包括 Google 和 Other Bets 两部分,其中 Google 为公司的核心收入来源。Google 以广告业务为核心,辅以云业务、应用商店、硬件产品等互联网产品与服务,具体包括 Android、Search、YouTube、Apps、Maps 和 Ads。此外,子公司 Other Bets 业务涉及生物科技(Calico)、智能家居(Nest)、资本投资(GV)、宽带服务(Fiber)和自动驾驶(Waymo)等领域。图图 1:谷歌
23、(谷歌(Alphabet)子公司概况)子公司概况 数据来源:CNN,中信建投 发展历程方面发展历程方面,谷歌成立谷歌成立 20 余年间,由单一的搜索引擎服务公司转型为全球搜索与移动生态公司巨头,其余年间,由单一的搜索引擎服务公司转型为全球搜索与移动生态公司巨头,其发展历程大致分为四个阶段发展历程大致分为四个阶段。第一阶段为 1996 年-2004 年,谷歌依靠搜索引擎广告收入营收。谷歌搜索最初版本为 BackRub 搜索引擎,利用读取网络标题并利用 PageRank 算法对搜索结果排序。2000 年,谷歌基于 BackRub,发布 AdWords,利用广告商针对搜索结果界面定向广告投放机会的价
24、格竞拍营收,为公司提供稳定的收入来源。第二阶段为 2004 年-2008 年,搜索引擎业务收入来源单一且局限,谷歌开始快速收购初创公司,构建公司主营业务框架。为寻找搜索引擎业务外新的收入增长点,谷歌于 2004 年上市后大量收购初创公司,其中包括 2005年收购 Android 拓展移动生态业务,2006 年收购 YouTube 拓展视频广告业务,2007 年收购网络广告服务商DoubleClick 和发布广告产品 AdSense,拓展在线广告业务。在此阶段,谷歌构建了其主要业务板块搜索和视频 2 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 广告、硬件、应用商店的基础。第三阶段为
25、 2008 年-2015 年,谷歌一方面在搜索引擎、移动生态领域快速发展,另一方面,主攻技术的联合创始人拉里佩奇于 2011 年重新担任 CEO,谷歌开始探索各类创新产品。具体而言 1)谷歌潜心深入发展移动生态和搜索引擎业务,于 2008 年推出 Chrome 浏览器并开源操作系统 2)谷歌在CEO 拉里 佩奇带领下开始尝试各种新奇的想法,比如开发自动驾驶技术、谷歌眼镜,成立生物科技公司 Calico等尝试。第四阶段为 2015 年至今,通过四年探索,谷歌的在线广告业务和其他业务逐步成熟,开始探索 AI 和云业务的布局。2014 年谷歌收购 DeepMind,2016 年整合谷歌云,谷歌云在公
26、司收入中占比逐年增加,未来公司将以“AI+云计算”作为公司新的业务增长点。图图 2:谷歌发展历程谷歌发展历程 数据来源:公司公告,中信建投 管理团队方面,公司共经历了拉里 佩奇、埃里克 施密特、拉里 佩奇和桑达尔 皮猜四任管理团队方面,公司共经历了拉里 佩奇、埃里克 施密特、拉里 佩奇和桑达尔 皮猜四任 CEO。拉里 佩奇自 1998 年-2001 年担任公司 CEO,因投资人质疑其年龄和经验限制要求其卸任。2001-2011 年,前 Sun 和 Novell的首席执行官埃里克施密特担任公司 CEO,因其具有丰富的管理经验,埃里克施密特负责公司运营,两位联合创始人专注于技术。埃里克施密特任职期
27、间,谷歌实现搜索引擎公司向科技巨头的转型。2011 年-2019年,拉里佩奇重新成为谷歌 CEO,谷歌在在线广告业务外,不断探索云业务、生物科技、智能家居、资本投资、宽带服务和自动驾驶等创新业务。2019 年桑达尔皮猜任职 Alphabet 和谷歌 CEO,桑达尔皮猜曾担任谷歌 Android 操作系统、Chrome 浏览器等核心产品负责人,对谷歌主营业务运营具备经验。佩奇和布林开发出BackRub搜索引擎正式以Google命名公司0发布Adwords,广告业务成为公司最大收入源2001施密特成为谷歌CEO,两位创始人专注技术研发2004发布Gmail谷歌上市2005-2
28、007推出Map收购Android收购YouTube开设数据中心推出Apps收购广告商DoubleClick2008推出Chrome浏览器第一部安卓操作系统手机HTC Dream发布2011佩奇接任施密特成为谷歌CEO2010开发自动驾驶技术推出Goolge TV2011-2014开源Chrome操作系统打造社交网络Google+收购摩托罗拉研发谷歌眼镜创立生物科技公司Calico收购Deepmind 2015调整组织结构,成立母公司Alphabet调整组织结构,佩奇和布林离职,皮猜成为谷歌和Alphbet CEO2016谷歌云整合2018整合前沿科技waymo和googlex等,成立Othe
29、r Bets成为子公司20192023谷歌大脑并入Deepmind定向广告收入为核心收购初创公司,奠定业务基础聚焦自研技术并探索新奇产品设立母公司,逐步推进“AI+云计算”-20-至今 3 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 3:谷歌现任高管团队简要情况谷歌现任高管团队简要情况 数据来源:craft,comparably,中信建投 组织架构方面,谷歌组织建构经过三次调整组织架构方面,谷歌组织建构经过三次调整。上市之初,公司组织架构运行“创始人+CEO 三人共同决策&扁平化”的组织结构,其中两位联合创始人聚焦技术
30、,具有丰富经验的桑达尔施密特担任 CEO 负责运营。此时组织架构特点为:公司内部减少层级关系,以项目组形式开展工作,但项目实行申请制且项目职责不明,导致公司管理混乱且复杂。2011 年,谷歌联合创始人拉里 佩奇(Larry Page)出任谷歌 CEO 后,简化组织框架,将组织架构调整为“CEO+六位高级副总裁”。此阶段组织架构特点为:YouTube、搜索、广告、社交、Chrome和移动业务等重要产品部门分别由一位高级副总裁负责,部门可独立提出产品计划,自主权提高。2015 年,因为谷歌除主营业务外,进一步探索了自动驾驶、生物科技等多领域产品,为解决组织架构庞大和体系臃肿问题,以及充分划分公司业
31、务和部门职能,谷歌组建母公司 Alphabet,将核心业务归于谷歌,非核心业务拆分谷歌的同级子公司,归于母公司 Alphabet 下。子母公司 CEO 分别由桑达尔皮猜和拉里佩奇担任。2019 年,谷歌进一步简化组织架构,Alphabet 和 Google 均由桑达尔皮猜担任 CEO。1.2 财务分析财务分析:收入结构逐步优化,利润率保持稳定:收入结构逐步优化,利润率保持稳定 收入结构上,广告收入是公司主要营收来源但占比逐年下滑,谷歌云营收占比逐年提高,而其他收入保持收入结构上,广告收入是公司主要营收来源但占比逐年下滑,谷歌云营收占比逐年提高,而其他收入保持稳定。稳定。谷歌收入结构包括广告业务
32、、谷歌云和其他收入等,FY12-FY22,谷歌广告收入从 95%降至 80%。谷歌云营收由 6%增至 9%,而其他收入稳定保持约 10%。费用率方面,FY21-FY22 受疫情影响、海外监管政策压制和招聘放缓,2021 年管理费用下降,但 2022 年呈现回升态势。Sundar Pichai谷歌和Alphabet CEOThomas Kurian谷歌云首席执行官Ruth Porat高级副总裁&首席财务官首席营销官高级副总裁&首席商务官谷歌&Alphabet全球事务总裁Benjamin Fried谷歌CIOSergey Brin联合创始人Larry Page联合创始人Eric Schmidt执行
33、主席Lorraine TwohillPhilipp SchindlerKent Walker曾担任Android产品负责人曾在摩根士丹利负责应用程序基础架构曾任甲骨文公司产品开发总裁摩根士丹利担任首席财务官2003年加入谷歌,首位负责美国外市场的营销高管2005年加入谷歌,曾在AOL任职负责监督负责内容政策、政府、法律等事务 4 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 4:2013-22 年谷歌营业收入结构(年谷歌营业收入结构(%)图图 5:2013-22 年谷歌毛利率、销售净利率情况(年谷歌毛利率、销售净利率情况(%)数据来源:公司公告,中信建投 数据来源:公司公告,
34、中信建投 图图 6:2013-22 年谷歌费用率情况(年谷歌费用率情况(%)图图 7:2013-22 年经调整归母净利润率(年经调整归母净利润率(%)数据来源:公司公告,中信建投 数据来源:公司公告,中信建投 0%20%40%60%80%100%2013 2014 2015 2016 2017 2018 2019 2020 20212022广告收入其他收入云业务00702013 2014 2015 2016 2017 2018 2019 2020 2021 2022销售毛利率(%)销售净利率0%5%10%15%20%25%30%35%40%2013 2014 2015 2
35、016 2017 2018 2019 2020 2021 2022研发费用销售费用管理费用0%5%10%15%20%25%30%35%2013 2014 2015 2016 2017 2018 2019 2020 2021 2022经调整归母净利润率(%)5 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 2.Google Service:搜索广告搜索广告处于长周期拐点处于长周期拐点,Youtube 商业化加速商业化加速 2.1 Google Search:核心壁垒来自对移动端和浏览器等流量入口:核心壁垒来自对移动端和浏览器等流量入口的的布局布局 搜索引擎本质是排序算法,搜索引擎本质
36、是排序算法,最初源自 Larry Page 和 Sergey Brin 在网站上做注释和评论的想法,并引申出创建一个评级系统。Larry Page 提出利用网络上的链接来确定评论的可信度或兴趣,并将学术论文引用的思路迁移至网页链接,从而在 1997 年提出 BackRub(Google 产品的前身),旨在逆向追踪链接,捕捉万维网的链接结构。BackRub 从 Stanford 大学 CS 系主页开始,扩展至 Stanford 校内所有网站,后续扩展至校外,其最终为网页上的每一个页面提供了排名,这些排名奠定了搜索的基础。AltaVista 聚焦信息索引,但搜索质量不佳导致份额落后。聚焦信息索引,
37、但搜索质量不佳导致份额落后。1995 年,数字设备公司(DEC)西部实验室推出 AltaVista,其关键设计师是路易斯莫尼耶(Louis Monier)。搜索过程分为四个步骤:爬取所有网页、索引信息、根据用户请求筛选出适合回答查询的页面(搜索质量),最后将结果格式化并提供给用户。Monier 主要关注第二步骤,即爬取数百万个文档并获取数据的耗时过程。通过将该过程并行化,即同时处理多个页面,可以及时获取所有数据,最终确定一次处理 1000 个页面为最佳数量。AltaVista 的搜索质量技术基于传统的信息检索算法。虽然 AltaVista 在收集了全部网络内容方面具有前瞻性,但未能充分利用链接
38、结构,导致其在搜索领域逐渐落后。Google引入引入PageRank算法优化搜索质量,提升市场份额。算法优化搜索质量,提升市场份额。Larry Page和Segery Brin于1997年提出PageRank算法1,通过分析链接并给网页分配一个从1到10的数值,来衡量页面在整个Web中的重要性和突出性。PageRank不仅考虑链接的数量,还考虑链接的来源和重要性,从而有效地确定页面的权威性。PageRank 与传统的信息检索技术相结合,如比较关键词与页面文本的匹配度,以及考虑字频、字体大小、大写、位置等因素,这些因素被称为信号,实现搜索质量的优化。图图 8:2000M5-2001M8 Goog
39、le/AltaVista 市场份额情况市场份额情况(%)图图 9:2000-2013 年全球搜索引擎份额(年全球搜索引擎份额(%)数据来源:A Eulogy For AltaVista,The Google Of Its Time,中信建投 数据来源:The Portal Problem:will Google repeat Yahoos mistakes?,中信建投 扭转战局的关键在于扭转战局的关键在于 1)Google 成为雅虎搜索供应商成为雅虎搜索供应商。2000 年 6 月 26 日,谷歌与雅虎达成协议,成为雅 1 早期的 Pagerank 算法主要考虑链接的数量,后续引入链接来源和重
40、要性等因素。6 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 虎的搜索引擎供应商,雅虎搜索结果页面上显示谷歌提供搜索服务的信息。通过与雅虎的合作,谷歌获得大量用户和数据。并基于此,谷歌的索引技术得以不断改进,其服务器持有超过十亿个网页的数据。谷歌通过分析用户的搜索行为,从日志中提取有价值的信息,使其搜索引擎成为一个学习机器,可以更好地满足用户需求。Google 对索引技术的改进包括:i)创建)创建 checkpointing 系统,系统,使索引在服务器或硬盘宕机时能够保存其位置。此外,谷歌在新系统中采用“并行处理”替代过去的“分片”,即将计算任务分割成多个计算机或处理器进行处理(分
41、片是将网络切分并将其分配给单独的计算机)。这两点创新提高谷歌处理索引的稳定性以及数据处理的效率和灵活性。ii)内存中的索引系统内存中的索引系统,谷歌引入“内存中的索引”创新方法,尽可能将索引存储在计算机实际内存中,而不是硬盘驱动器中。内存中的索引系统使得谷歌能够更快地处理更多的查询请求,提高搜索引擎的响应速度和性能,并降低成本。2)PageRank 算法算法2的改进(搜索质量提升)的改进(搜索质量提升)。Google 利用搜索日志改进搜索算法,Amit Patel 自 1999 年加入谷歌后,持续基于日志优化算法,具体包括 a)用户行为分析:通过分析用户在搜索引擎上的行为,谷歌可以了解用户的搜
42、索意图、偏好和行为习惯。这些数据有助于优化搜索算法,使搜索结果更加准确和相关;b)满意度评估:谷歌通过长点击和短点击等指标来评估用户对搜索结果的满意度。c)搜索结果个性化:通过了解用户的搜索历史和兴趣,谷歌可以为每个用户提供更加定制化的搜索结果,提高搜索命中率;d)大规模学习:谷歌在抓取和归档数十亿份文档和网页时,分析了哪些词语彼此相近,从而优化搜索体验。另外,早期 PR 算法基于链接引用量和关键链接进行排序,而没有考虑网页本身内容质量以及网页内部链接的相关性。这相比于 AltaVista 等仅仅以搜索关键词和网页关键词做匹配的效果有所改进,但仍然可能导致部分网站堆砌关键词或链接以获取流量。2
43、002-2003 年期间,Google 将关键词分析3、链接分析4引入 PageRank 算法,进一步优化搜索质量。图图 10:PageRank 算法演进算法演进 数据来源:in the Plex,the evolution of the pagerank algorithm,中信建投 2 PageRank 算法相较于 AltaVista 等搜索引擎有两方面优势。i)综合信号优势:如果关键词与网页标题或域名匹配,该页面的排名将更高。此外,由于锚文本被赋予高价值,因此在页面并未包含实际搜索词汇时,也能正确呈现。ii)适应性优势:新网站意味着更多的链接,这些额外信息使 BackRub 能够更准确地
44、识别与查询相关的网页,并提高网站的准确度。3 关注网页和网页内链接指向网页的关键词相关度。4 提升高质量网页内容权重,并抑制垃圾网页的流量权重。1998PageRank 专利申请提交PageRank 在 Google目录中公开,并在 Google 工具栏中推出20002005Nofollow属性被引入,其作用是帮助用户打击垃圾链接PageRank算法更新,考虑网站的点击率(CTR)和用户其他行为进行广告排名谷歌引入Canonical 链接元素,解决重复网站问题PageRank 从Google 网站管理员工具中删除更新PageRank 版本,新版本算法资源消耗更少熊猫算法更新,提高高质量网站在搜
45、索结果页面上的排名,惩罚低质量内容推出了企鹅算法更新,惩罚使用垃圾邮件或操纵性链接构建技术人为提高其搜索排名的网站Penguin 4.0版本推出,用于降低垃圾链接的价值添加Nofollow属性的更具体版本,引入rel=ugc和 rel=sponsored链接属性。PageRank更新,纳入关键字分析,考虑网站上和入站链接中使用的关键字。200920012垃圾链接更新,推出Link Spam Update针对付费外链进行打击20008SpamBrain基于 AI 防范网络垃圾,可检测购买链接的网站和用于传递出站链接的网站2022 7 美股公司深度报告
46、谷歌谷歌 A 请参阅最后一页的重要声明 后续后续 Google 在搜索引擎市场份额保持领先,并且不断优化在搜索引擎市场份额保持领先,并且不断优化 PR 算法实现成本和效果领先。算法实现成本和效果领先。2008 年 Google将 CTR 引入 PR 算法,隐含假设是点击率较高的网页质量较高。此外,Google 引入用户停留时长等信号优化搜索结果。2011-12 年 Google 推出 Penguin 和 Panda 算法,其中 Penguin 算法主要是针对垃圾网站做负向激励(降权等),Panda 算法主要是对低质量、重复内容降权,从而间接为优质内容的网页加权。图图 11:2008-2020
47、年美国搜索引擎市场份额(年美国搜索引擎市场份额(%)图图 12:2015-2023 年全球桌面端搜索引擎市场份额(年全球桌面端搜索引擎市场份额(%)数据来源:Statista,中信建投 数据来源:Statista,中信建投 一个重要变化是 2008 年 9 月 Google Chrome 的发布,当时市场流行的浏览器主要是 Internet Explorer(60%市场份额)和 Firefox(20%市场份额)。IE 浏览器的成功主要依靠 1)与 Windows 系统的捆绑,大多数用户都没有修改默认设置;2)与 Windows 系统兼容性更好,而其他外部浏览器与 Windows 系统和相关服务
48、的兼容性相对较差;3)由于历史原因,多数企业以 IE 浏览器为默认标准;4)微软以 Office/Windows 业务的优势向 OEM厂商施压,迫使其采用 IE 为默认浏览器。图图 13:2000-3Q09 全球浏览器份额(全球浏览器份额(%)图图 14:2009-2019 年全球浏览器份额(年全球浏览器份额(%)数据来源:TheCounter,中信建投 数据来源:StatCounter,中信建投 0%20%40%60%80%100%GoogleBingVerizon MediaAsk NetworkAOL0%20%40%60%80%100%2000 Q12000 Q32001 Q12001
49、Q32002 Q12002 Q32003 Q12004 Q12004 Q32005 Q12005 Q32006 Q12006 Q32007 Q12007 Q32008 Q12008 Q32009 Q12009 Q3Internet ExplorerFirefoxSafariOperaNetscape0%20%40%60%80%Jan-09Sep-09May-10Jan-11Sep-11May-12Jan-13Sep-13May-14Jan-15Sep-15May-16Jan-17Sep-17May-18Jan-19Sep-19ChromeFirefoxSafariIE&EdgeOther 8
50、美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 15:Windows 95 起内置起内置 IE 浏览器浏览器 图图 16:Windows 系统安装其他浏览器时报错系统安装其他浏览器时报错 数据来源:Internet Explorer is Evil:The story,中信建投 数据来源:Internet Explorer is Evil:The story,中信建投 Google Chrome依靠更快的访问速度取得一定市场份额。依靠更快的访问速度取得一定市场份额。Google希望推出Chrome能够与Google Docs/Gmail等产品更好地协同,而不受 IE 等浏览器的
51、限制。Google Chrome 的优势在于没有历史包袱,Chrome 推出前两年主要的工作就是优化浏览器的速度5,优化用户体验,从而实现用户增长,截止 2010 年底,Google Chrome 的市场份额达 9.88%,位居 IE(52.68%)和 Firefox(30.69%)之后。反垄断诉讼和解撬动微软给予用户选择权,驱动反垄断诉讼和解撬动微软给予用户选择权,驱动 Google Chrome 获取份额。获取份额。2009 年 12 月,欧盟委员会(Europen Commission)接受微软对于给予用户浏览器选择权的承诺,该承诺下微软将允许欧洲用户选择在Windows 系统下非 IE
52、 浏览器进行网页浏览6,承诺生效期限为 2010 年 3 月至 2014 年 12 月。在美国及加拿大,司法机关并未强制要求展示浏览器选择页面,而是以其他措施替代。自 2012 年 Windows 8 上线后,用户在初始安装阶段就可以选择设置默认浏览器,选项包含 IE/Edge、Chrome、Firefox 等。图图 17:2008-2015 年年 3 月欧洲月欧洲浏览器份额情况(浏览器份额情况(%)图图 18:2010-2014 年欧洲地区年欧洲地区 Windows 用户的浏览器选择页面用户的浏览器选择页面 数据来源:Statcounter,中信建投 数据来源:Techcrunch,中信建投
53、 5 根据 Techcrunch,Google Chrome V8 较 IE 快 16x,后续的 Crankshaft 版本进一步提升速度。6 https:/ec.europa.eu/commission/presscorner/detail/en/IP_09_1941 0070Jul-08Dec-08May-09Oct-09Mar-10Aug-10Jan-11Jun-11Nov-11Apr-12Sep-12Feb-13Jul-13Dec-13May-14Oct-14Mar-15FirefoxIEChromeSafari 9 美股公司深度报告 谷歌谷歌 A 请参阅最后一页
54、的重要声明 图图 19:2008-2015 年年北美浏览器份额情况(北美浏览器份额情况(%)图图 20:2009-2022 年年 Google 向向 Apple Inc.支付的支付的 TAC 费用费用 数据来源:Statcounter,中信建投 数据来源:CNBC,The New York Times,中信建投 除此以外,Google 采取付费的方式获取/维持市场份额,例如 Google 会向 Apple Inc./Firefox/Samsung 等支付高额的费用以成为其默认搜索引擎。这在一定程度上也限制了 Google Search 广告的毛利率进一步提升。Google Chrome 拥抱开
55、源社区,推动用户加速增长。拥抱开源社区,推动用户加速增长。2009 年 12 月,Google Chrome 推出 Extension 功能(插件),2010 年 12 月,Chrome 的插件库(Extension Gallery)插件数量/主题数量分别超过 8500/1500 个,且超过33%的用户使用Chrome的插件和主题功能7。2010年Google发布Chrome Web Store,2011年发布New Tab Page,允许多任务页并行处理。Google Chrome 插件整体上提升了用户粘性。关键转变来自于关键转变来自于 Chrome 登陆移动端。登陆移动端。2012 年 2
56、 月 Google 发布适配安卓系统的 Chrome 浏览器,同年 6 月Google 发布适配 iOS 系统的 Chrome 浏览器,并同时宣布插件开发者可以通过 Adsense 获取广告收入分成,这一举措开启了 Google Chrome 生态的商业化,促进生态日趋繁荣。相较之下,IE 和 Firefox 在移动端的布局相对落后,Google Chrome 在移动端的份额持续提升,至今稳定在 60%以上的水平。图图 21:2011-2021 年移动端浏览器份额(年移动端浏览器份额(%)图图 22:2012 年年 6 月月 Chrome 份额超越份额超越 IE&Edge 数据来源:BackL
57、imko,中信建投 数据来源:Statcounter,中信建投 Google 曾推动曾推动 Chrome Apps 更深层次地介入用户工作流,但更深层次地介入用户工作流,但由于强工具属性和商业化基础并不完备,由于强工具属性和商业化基础并不完备,最最终失败。终失败。2013 年 5 月,Google Chrome 插件后续延伸至轻量级的 Chrome Apps,相比于插件,Chrome App 介入的程度更深,用户可以离线使用,相比于应用,Chrome App 更轻量级。总体来看,Chrome Apps 是一种介于应 7 https:/ fee to be Safari default sear
58、ch engine0%20%40%60%80%Jan-09Sep-09May-10Jan-11Sep-11May-12Jan-13Sep-13May-14Jan-15Sep-15May-16Jan-17Sep-17May-18Jan-19Sep-19ChromeFirefoxSafariIE&EdgeOther 10 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 用和插件之间的产品(后续微信小程序的定位也大致类似)。但这类应用主要偏重工具属性,因此需要依附于开放平台导流,且需要构建支付/广告商业化基础,否则商业化生态容易偏倚,而 Google Chrome 本身工属性较强,类似的开
59、放平台往往都是依托于社交等刚需基础上(详见微信小程序报告),这也不利于 Chrome Apps 的发展。因而 2016 年 7 月 Chrome Apps 停止运营。图图 23:Google Chrome App 产品截图产品截图 数据来源:VentureBeat,中信建投 图图 24:Google Chrome 发展历程发展历程 数据来源:Nira Blog,中信建投 20082000152021Google Chrome以beta版本发布,仅支持Windows将Chrome的源代码开放发布Chrome 4 beta版,引入了扩展和书签同步功能,C
60、hrome与Firefox的可扩展性展开竞争2009Chrome首次在使用统计数据中超过FirefoxChrome 9与Gmail和Google Docs等Web应用程序集成,增强与Google服务的协同效应引入New Tab Page功能Chrome成为全球最受欢迎的浏览器,超过IE发布Chrome for Android,允许与桌面版本同步推出Chromebook和Chrome OSChrome浏览器的全球的用户数量已经超过10亿Chrome浏览器的活跃装机量已经超过了20亿,月活跃用户超过了十亿人推出了Chrome Enterprise捆绑包,在企业领域提供服务Chrome在全球桌面市场
61、份额达到约65%,成为PC和Mac上的主导浏览器Chrome推出Manifest V3,提高隐私、安全性和性能采用更高安全标准阻止不安全广告和网站,改善用户体验2018 11 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 2.2 Google Mobile Service:生态壁垒深厚,监管压力驱动超额利润均值回归生态壁垒深厚,监管压力驱动超额利润均值回归 Chrome 的份额增长很重要的驱动因素来自的份额增长很重要的驱动因素来自 Android 系统的成功,尤其考虑到移动端份额的提升。系统的成功,尤其考虑到移动端份额的提升。Google对安卓的收购促使 Google 进入移动平台
62、市场。安卓团队于 2003 年成立,最早聚焦于数码相机的操作系统,后于 2005 年转向移动手机的操作系统开发。安卓相比于当时流行的 Symbian 等系统的差异化在于 1)开源,制造商可以免费获取,而闭源系统授权费用门槛高,且不同设备之间的兼容性较差。2)虽然有其他开源方面,例如德州仪器给予 Linux 的开源平台,但驱动程序等很多细节都需要制造商完成,方案的成熟度并不高。因此,安卓的核心卖点是开源免费,且对制造商而言易用性强,无需复杂的自定义开发。Google 收购收购 Android 后推动成立后推动成立 OHA,抵御,抵御 Apple/Nokia 等等封闭生态封闭生态和系统和系统。20
63、07 年 11 月,Google 和其他手机制造商、应用开发、网络运营等 34 家企业共同成立开放手机联盟(The Open Handset Alliance),从而应对 Apple(iOS),Microsoft(Windows Phone),Nokia(Symbian),BlackBerry(BlackBerry OS)等为代表的闭源系统和生态。而 OHA 的措施就是将 Android 系统开源且免费开放给行业,此后 HTC 等厂商陆续发布基于安卓系统的手机,且包含了 Gmail、Google Search、Google Map 等服务,间接推动 Google 在移动端的渗透。图图25:20
64、08年年12月月-2015年年3月全球手机月全球手机OS市场份额(市场份额(%)图图 26:The Open Handset Alliance 官网介绍官网介绍 数据来源:Statcounter,中信建投 数据来源:The Open Handset Alliance,中信建投 Android 系统份额的增长除了开放性和低门槛外,还包括 1)Google 与与 Verizon,AT&T,T-Mobile 等等运营运营商达成合作协议,确保运营商帮助搭载商达成合作协议,确保运营商帮助搭载 Android 系统的手机推向市场。系统的手机推向市场。其中,Google 2009 年 10 月与 Veriz
65、on达成合作协议8;2010 年 1 月 AT&T 宣布将销售搭载 Android 系统的手机9;T-mobile 则于 2008 年 9 月发布搭载搭载 Android 系统的手机。2)手机发布搭载 Android 系统的手机,包括 Samsung,,HTC,Motorola,Sony,这些厂商大多是OHA的成员。3)GMS与与Android的结合实现差异化体验的结合实现差异化体验,例如Google Maps,Gmail,Google Chrome,Youtube,Google Play(Android Market)等。GMS(Google Mobile Services)对)对 Goog
66、le 而言是软性壁垒。而言是软性壁垒。GMS 包含了 App 和 API 服务、认证:1)App包含 Gmail、Google Maps、Youtube、Google Search、Google Chrome,这部分 App 预装在新手机上。未通过 Google认证的 Android 手机无法安装和运行 GMS 相关的 Apps,也没有 Google Play Store,一些产品和服务可以通过网址间接使用(如 Youtube 网页版),但 App 被 Google 禁止。2)更重要的是 GMS 的 API 允许开发者将 Google的产品/服务植入 App 内,例如通过 Google 账号登
67、录,利用 Google Maps 获取用户位置信息,通过 Google AdMob将广告接入 App 内并实现变现。未通过认证的 Android 手机也无法通过 API 将上述 Google 组件引入 App 内。8 https:/ https:/ 0070Dec-08May-09Oct-09Mar-10Aug-10Jan-11Jun-11Nov-11Apr-12Sep-12Feb-13Jul-13Dec-13May-14Oct-14Mar-15AndroidiOSSymbianOSBlackBerry OS 12 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明
68、 图图 27:Google Play Service 包含包含 Google 账号登录等功能账号登录等功能 图图 28:Google Play Service 与与 App 的授权的授权 数据来源:A backstory,history,and interesting details on Google Play Services for Android,中信建投 数据来源:A backstory,history,and interesting details on Google Play Services for Android,中信建投 Google Mobile Service 的发展大
69、体分为四个阶段:的发展大体分为四个阶段:1)孵化阶段(2009 年以前),GMS 早期表现为预装部分核心 Google 服务,如 Gmail、Maps、Youtube;2)构筑开发者生态阶段(2009-2013 年),引入 AdMob、Google+、Google Play Store 等服务,帮助开发者分发应用,搭建商业化基础设施等;3)聚焦 Play Service 完善(2014-2016年),Google 将 Play Service 打包成 Google Play Store 并以 App 形式展现,以便于快速更新;4)服务管线扩张和产品定位调整(2017 年至今),Google 于
70、 2017 年将 Google Play Service 从 App 重新打散成底层模组与系统,并引入安全服务,如 Crashlytics,Cloud Messaging。此外,Google 引入 Analytics 服务,丰富开发者运营工具。2020 年 Google 将 Google Play Servcie 更名为 Google Mobile Service,定位调整为移动服务平台。GMS 并非没有竞争对手,但由于先发优势,网络效应等竞争对手相继失败。并非没有竞争对手,但由于先发优势,网络效应等竞争对手相继失败。GMS 的竞争对手包括 Nokia(Nokia X Platform 201
71、4 年 2 月发布),Amazon(Fire OS 2011 年 11 月发布),Samsung(Samsung Galaxy Store 2009 年 9 月发布),Samsung(Tizen OS 2012 年 4 月发布)等,但其中较早发布的 Samsung 由于预装软件缺乏与 Google Search 等的竞争力,市场份额没有明显突破,其他竞争者发布时 GMS 已占据主要份额,网络效应明显。也就是说,早期 GMS 本身生态尚不成熟时凭借 Google 预装软件 Youtube、Gmail、Google Maps 等优势取得增长,而随着引入 Play Store 以及 Admob 后开
72、发者生态逐步成熟,网络效应构筑的壁垒更加深厚。市场竞争的胜利为市场竞争的胜利为 GMS 赢得超额利润。赢得超额利润。GMS 的商业模式包括 1)授权费用,例如预装 Google App 和 API需要支付一定的授权费用;2)通过 Google Play Store 的 APP 内购收入需要向 Google 支付 15%的分成(2021 年6 月前为 30%10);3)GMS 会在 APP 中内置广告(非开发者设置的广告),这部分广告收入归属 Google;4)其他,包括 GMS 收到回传的用户数据用于广告标签(非直接收入,但间接提升商业化效率),带动云服务等其他 Google 业务收入等。根据
73、 Google 2021 年向法院提交的文件,Google Play 2019 年产生 112 亿美元的收入,其中毛利率 85 亿美元,经营利润 70 亿美元,对应 OPM 62.5%11。但法律监管周期性地压制超额利润趋势但法律监管周期性地压制超额利润趋势。2021 年起,包括韩国、英国等在内的多国司法机构裁定 Google Play和 Apple iOS App Store 必须开放第三方支付方式。并且 Epic 等公司起诉 Google Play Store 的分成并不合理且妨害竞争12。这意味着对 GMS 长期维持超额利润率的期望可能是不现实的,GMS 的商业模式可能被监管重塑,从而回
74、归合理水平,正如 Google 在 MSFT 遭遇反垄断诉讼时快速扩张,来自监管的压力是周期性的,而当前正 10 https:/ https:/ https:/ 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 处于新一轮周期的起点。2.3 Youtube:内容深度向上打开变现空间,时长向下巩固生态壁垒内容深度向上打开变现空间,时长向下巩固生态壁垒 Youtube 诞生与社交媒体兴起及数码相机普及的时点。诞生与社交媒体兴起及数码相机普及的时点。Youtube 成立于 2005 年 2 月 14 日,主要聚焦视频上传与分享。时代背景是 1)北美数码相机出货量逐步起量,意味着用户记录生活的
75、视频内容呈现快速增长;2)社交媒体快速兴起,用户可以通过互联网分享和传播视频内容。但当时视频分享平台包括 Metacafe、Revver、Yahoo Video、Google Video 等集中在 2005 年前后成立,视频分享平台行业进入激烈竞争阶段。图图 29:2004-2023M6 北美地区数码相机出货量(万台)北美地区数码相机出货量(万台)图图 30:2003-2017 年全球年全球数码相机出货量(百万他)数码相机出货量(百万他)数据来源:Wind(转引自日本相机影像器材工业协会),中信建投 数据来源:Bussinees Insider(转引自CIPA),中信建投 图图 31:美国宽带
76、上网渗透率在美国宽带上网渗透率在 2005 年年 3 月月超过拨号上网超过拨号上网 图图 32:2005-2015 年年社交媒体社交媒体在美国成年人中的渗透率(在美国成年人中的渗透率(%)数据来源:Pew Research,中信建投 数据来源:Pew Research,中信建投 005006007--------072022-09北美出货数量:数码相机(万台)0204
77、06080032004200520062007200820092000162017CIPA成员数码相机出货量(百万台)-20 40 60 806/20004/20013/20023/20034/20043/20053/20063/20074/20084/20095/20108/20114/201212/20125/20139/20137/2015拨号上网比例(%)宽带上网比例(%)合计上网比例(%)007080社交媒体在互联网用户内的渗透率(%)14 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明
78、 图图 33:2005 年前后技术侧的最大变量是社交媒体的兴起(年前后技术侧的最大变量是社交媒体的兴起(%)数据来源:Pew Research,中信建投;注:数据为美国成年人渗透率。图图 34:2004-2006M3 美国视频平台搜索指数情况美国视频平台搜索指数情况(Youtube/Google Video 主要来自主要来自 MySpace/Google Search 的导流)的导流)数据来源:Google Trend,中信建投;注:绿线为Youtube,红线为Google Video。Youtube 社交网络效应逐步显现,社交网络效应逐步显现,Google Video 受制于审核瓶颈受制于审
79、核瓶颈。从 Google Trend 看,2005 年 9 月以前美国视频市场基本处于混战,2005 年 9 月后 Youtube、Google Video、B 起量,并进一步在 2006 年初分化,Google 一举奠定优势,确定市场地位。回顾 2005 年,Google Video 聚焦 PGC,起初社区内容来源包括 NBA、NASA 等 PGC,且用户上传内容需要经过 Google 工作人员审核,以确保内容不涉及版权风险,这种人力密集型的模式在 UGC 内容扩张后会遇到瓶颈13。根据Like,Comment,Subscribe,Youtube 创始人 Steve Chen 在2005 年
80、夏天注意到当时爆火的社交网站 MySpace 没有视频内容,因此将 Youtube 视频内嵌于 MySpace 中,吸引 MySpace 用户访问 Youtube14。此外,Youtube 在 2005-06 年先后增加热门页、收藏夹、评论、订阅、个人主页等,将 Youtube 逐步转向社交平台从而形成传播关系链,UGC+强互动内容(Music/Viral Video)+社交传播进一步助推 Youtube 走热。13 Youtube 在 2005 年 9 月曾经屏蔽了盗版视频,但后续又恢复了,相当于解决了内容扩张的瓶颈。14 Youtube 基于 Flash,使得相比其他视频平台,其嵌入 My
81、Space 的使用体验更好。15 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 35:2006M1-M8 美国美国视频平台市场份额(视频平台市场份额(%)图图 36:2005M5-2006M5 Youtube UV 情况情况 数据来源:Nielsen,中信建投 数据来源:comScore,中信建投 图图 37:Youtube 产品功能上线时间图产品功能上线时间图 数据来源:Youtube,中信建投 Youtube 并入并入 Google 后后快速发展后面临亏损扩大、版权诉讼等问题。快速发展后面临亏损扩大、版权诉讼等问题。2006 年 10 月 9 日,Google 宣布以16
82、.5 亿美元的股票收购 Youtube15。为应对与 Viacom 的版权诉讼(2007-2010),Youtube 于 2007 年底上线 Content ID 系统,基于算法识别视频内容是否涉及版权风险,版权方可选择下架侵权视频或分享视频产生的经济利益。2008 年 3 月,Google 股价相比 2007 年秋季下跌 40%,Google 内部希望缓解 Youtube 亏损压力,因此推动 Youtube商业化加速。商业化方面,Youtube 2007 年 5 月提出广告分成模式,按展示效果的后付费而非预先付费,Youtube平台分成 45%,剩余部分归 Youtuber 所有16。亏损加
83、剧的背景是与 Viacom 的版权诉讼尚未结束,Youtube 在商业化方面不敢过于激进。Youtube 希望提升 eCPM 缓解压力,但效果不佳,最终通过将广告加载率从 5%提升至 15 https:/ 16 根据 Like,comment,subscribe,For every dollar of advertising that ran with the videos,Google would take forty-five cents and give the balance to the YouTuber。20057月-推出热门视频页面8月-5 星评级系统10月-订阅功能20062月
84、-个人主页5月-上线评论功能6月-查看历史记录20076月-本地语言版本20083月-增加480p视频3月-视频分析工具5月-推出视频注释互动12月-Audioswap背景音乐转换20093月-五星评价改为点赞、不喜欢双向评分6月-推出电视机“YouTube XL”前端7月-720p 视频和对 3D 视频的支持12月-自动语音识别功能20103月-推出“Thumbs”评级系统7月-增加4K 视频20114月-实时直播功能11月-推出YouTube分析工具20月-YouTube与Google Video合并10月-60fps视频20143月-增加360视频6月-8K视频11
85、月-YouTube Red推出2月-YouTube订阅服务20162月-推出YouTube TV8月-标志重新设计20186月-推出“首映”功能202210月-新的UI界面设计 16 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 10%解决亏损问题。图图 38:2005-2011 年年 Youtube 垂类内容占比明显提升垂类内容占比明显提升 图图 39:2013 年年 6 月月 Youtube 内容结构(内容结构(%)数据来源:What Drives the Growth of YouTube?Measuring and Analyzing the Evolution Dynam
86、ics of YouTube Video Uploads,中信建投 数据来源:What Drives the Growth of YouTube?Measuring and Analyzing the Evolution Dynamics of YouTube Video Uploads,中信建投 图图 40:2005-2012 年年 Youtube 日均上传视频数量日均上传视频数量 图图 41:2005-2013 年年 Youtube 每日新增创作者每日新增创作者 数据来源:What Drives the Growth of YouTube?Measuring and Analyzing t
87、he Evolution Dynamics of YouTube Video Uploads,中信建投 数据来源:What Drives the Growth of YouTube?Measuring and Analyzing the Evolution Dynamics of YouTube Video Uploads,中信建投 随着规模化扩张随着规模化扩张 Youtube 转向算法分发转向算法分发,但,但 2010 年前后年前后时长增长放缓时长增长放缓。2008 年 Youtube 引入推荐算法,但主要是比较简单的算法,例如“看过这条视频的人也在看”等,随着深度学习的发展,推荐算法的效果
88、逐步提升。并且随着 Youtube 的全球化扩张,依靠本地化的编辑团队成本较高,2010 年 Youtube 决定彻底转向机器分发。但 Youtube 2010 年时长增长放缓,引发集团层面反思,后续将多目标制度转向单一目标(观看时长),因此长时间的视频品类受益。外部竞争方面,外部竞争方面,Facebook 在 2010 年将视频作为优先拓展目标,Facebook Video 2010 年增长迅猛,同时依赖 1)移动端的增长动能;2)内生视频体验由于外部链接跳转;3)Facebook 的社交关系链路传播等,Facebook Video 对 Youtube 的份额产生了负面影响。内部因素方面,内
89、部因素方面,出于对 Facebook 的阻击以及连接内部生态等原因,Google 于 2011 年 6 月推出 Google+社 17 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 交,并于 2012 年 1 月17强制要求新用户创建 Google+账号以使用 Youtube,但遭遇 Youtube 用户强烈的负面反馈18,并造成了社区管理的混乱,例如 Google+的实名制政策引发 Youtube 创作者反感19。图图 42:2009-2010 年美国前五大网站份额趋势(年美国前五大网站份额趋势(%)图图 43:4Q10-3Q13 Facebook Mobile 占比逐步提升占比
90、逐步提升 数据来源:comScore,中信建投 数据来源:TechCrunch,中信建投 图图 44:2014 年年 Facebook 平台上平台上 FB Video 超过超过 Youtube 图图 45:2013 年前后年前后 Snapchat/Instagram 迅速崛起(单位:百万)迅速崛起(单位:百万)数据来源:Socialbakers,中信建投 数据来源:Statista,中信建投 Youtube 市场份额企稳主要由于 1)Facebook 面临新兴玩家竞争,运营重心转向社交,视频分享优先级下降。2012-13 年,Facebook 收购 Instagram,同时与 Snapchat
91、 竞争,在视频平台方面的资源投入被分散;2)Youtube通过排他协议(exclusive deals)绑定部分头部主播;3)2014年11月推出Youtube Red(后更名Youtube Premium),即无广告的付费订阅版本,巩固重度忠实用户;4)2017 年 2 月推出 Youtube TV,覆盖 PGC 内容。但 2010 年 Youtube 转向提升用户观看时长后,Youtube 为短视频(Tiktok、Instagram Story)等留出市场空间,导致后续的竞争格局变化。因此,2017/2020 年 Youtube 分别发布 Youtube Stories(Reels)/Yo
92、utube Shorts。Youtube Story 与原有社区与原有社区/创作者生态并不匹配。创作者生态并不匹配。Youtube Stories(Reels)更多是受到 2013 年 Snapchat 发布 Story 功能后增长良好,2016 年 8 月 Instagram 复制 Story 功能后 DAU 迅速增长的压力,同时平台内短时长的娱乐内容可能被分流。Youtube Stories 发展不及预期的原因在于 1)算法倾向于长视频(拉长用户观看时长);2)创作者更适应中长视频的制作;3)Youtube 的社区调性更注重内容质量、人设而非跟风模仿,Snapchat/Instagram
93、17 https:/martech.org/google-now-forcing-all-new-users-to-create-google-enabled-accounts/18 https:/ 19 https:/ 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 等社交平台 Story 则催生了大量 meme。Youtube 最终于 2023 年 6 月 26 日关闭 Youtube Story 服务20。图图 46:2015-2023 年全球主要社交平台年全球主要社交平台 MAU(亿)(亿)图图 47:2015-2023 年全球主要社交平台年全球主要社交平台 DAU(亿)(亿
94、)数据来源:Sensor Tower,中信建投 注:Sensor Tower统计方法为插值拟合法,同时不含渠道预装用户。数据来源:Sensor Tower,中信建投 注:Sensor Tower统计方法为插值拟合法,同时不含渠道预装用户。图图 48:2015-2023 年全球主要社交平台年全球主要社交平台 MAU 份额(份额(%)图图 49:2015-2023 年全球主要社交平台年全球主要社交平台 DAU 份额(份额(%)数据来源:Sensor Tower,中信建投 数据来源:Sensor Tower,中信建投 Youtube Shorts 的成功归功于流量支持以及吸引短视频创作者加入。的成功
95、归功于流量支持以及吸引短视频创作者加入。2018 年以来 Tiktok 的迅速崛起迫使Youtube 等平台重视短视频赛道,Youtube 于 2020 年 9 月在印度推出 Youtube Shorts21。不同于 Youtube Story,Youtube 为短视频单独设立了一条信息流,避免长视频短视频在同一条信息流的混同。同时,Youtube 在搜索和推荐中强化对短视频的支持,相当于额外导流。此外,地缘政治的冲突为 Youtube 在一些地区的用户增长带来机会。例如在印度等已经被 Tiktok 教育后的地区,在 Tiktok 面临监管不确定性时上线,从而快速完成冷启动,结合 Youtub
96、e 原有的社区生态和平台规模,Youtube Shorts 步入业务发展的正循环。20 https:/ 21 https:/ 10 15 20 25 --------04YouTubeFacebookWhatsAppInstagramTikTokX(Twitter)-5 10 15 20 252015/102016/42016/102017/42017/102018/42018/10201
97、9/42019/102020/42020/102021/42021/102022/42022/102023/4YouTubeFacebookWhatsAppInstagramTikTokX(Twitter)0%20%40%60%80%100%--------04YouTubeFacebookWhatsAppInstagramTikTokX(Twitter)0%20%40%60%80%100%Y
98、ouTubeFacebookWhatsAppInstagramTikTokX(Twitter)19 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 50:Youutbe Shorts 界面截图界面截图 数据来源:TechCrunch,中信建投 图图 51:2021 年年 1-6 月月 Youtube Shorts VV 和和 Upload 趋势趋势 图图 52:2021H1 Youtube 流行、娱乐内容同比大幅增长流行、娱乐内容同比大幅增长 数据来源:Tubular Lbas,中信建投 数据来源:Tubular Lbas,中信建投 3.Google Cloud:从技术为先转向
99、客户中心,从技术为先转向客户中心,Gen AI 时代有望加速发时代有望加速发展展 Google Cloud 的转型的转型始于始于搜索广告业务扩张带动的基础设施建设。搜索广告业务扩张带动的基础设施建设。2000 年代初,Google 专注于其核心搜索和广告业务,同时基础设施建设也在大幅增加。根据纽约时报22,2001 年 3 月 Google 拥有 8000 台服务器处理每天 7000 万条网页的需求,而截止 2003 年服务器则增加至 10 万台,2006 年这一数字增长至 45 万台,同时期微软的服务器数量约为 20 万台。而服务器、数据中心的快速扩张带动 Google 对成本优化的关注。G
100、oogle 优化成本的两项重要技术是 GFS(Google File System,后来演变为 HDFS)以及 MapReduce,前者于 2003 年提出23,22 https:/ 23 https:/research.google/pubs/pub51/20 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 是一个分布式文件系统,旨在跨大型商用服务器集群提供可扩展且可靠的存储。它将文件拆分为块,并在多台服务器上复制它们,实现并行访问和高容错率。GFS 为 Google 提供了存储架构,用于存储搜索索引和其他服务所需的海量数据;后者于 2004 年提出24,用于在计算机集群上分布式处
101、理大数据集。它使用“Map”步骤将计算拆分到各个节点,并使用“Reduce”来汇总结果,实现并行处理数据能力的大幅提升。GFS 与与 MapReduce 在技术上在技术上为为 Google Cloud 转型奠定基础。转型奠定基础。MapReduce 可以在数千台服务器上对数据进行分布式处理,使 Google 能够并行计算以提高效率。GFS 为大型数据集提供了容错的分布式存储,并提供一个易于使用的文件接口,同时在下面管理复制和故障恢复。MapReduce 和 GFS 共同使 Google 能够利用廉价的商用硬件来解决以前无法解决的问题。构建这些核心技术使 Google 在以低成本可靠地管理复杂的
102、分布式系统方面获得重要经验。2008年年Google集成此前积累技术集成此前积累技术推出推出Google App Engine,试图推动,试图推动Web App生态建设生态建设。根据TechCrunch25,GAE 由 Python application servers、BigTable Database Access 和 GFS 数据存储服务组成。与 AWS 的 S3 存储、EC2 虚拟机、SimpleDB 数据库相比,GAE 的服务是必选而非可选,这意味更低的灵活性,但服务本身的标准化程度更高。尽管对于原生 App 也有支持,但 Google 推出 GAE 的目标是推广 Web App2
103、6。同时期同时期 Google 收购收购 Android 后推动成立后推动成立 OHA,抵御,抵御 Apple/Nokia 等封闭生态和系统。等封闭生态和系统。2007 年 11 月,Google和其他手机制造商、应用开发、网络运营等 34 家企业共同成立开放手机联盟(The Open Handset Alliance),从而应对 Apple(iOS),Microsoft(Windows Phone),Nokia(Symbian),BlackBerry(BlackBerry OS)等为代表的闭源系统和生态。2010 年 Google 发布 Chrome Web Store,推动 Web App
104、 的生态建立。总体来看,我们认为 2010 年前后智能手机兴起,但软件生态尚未成熟阶段,Google 积极推动 Web App 为代表的开放生态,抵御 iOS 为代表的封闭原生软件生态,最终 Web App 并未成形,但 Google Play Store 取得一定程度的市场成功。市场需求迫使市场需求迫使 Google 转向转向 IaaS 产品开发产品开发27。尽管我们没有从公开信息中找到 AWS 在 2010 年左右快速增长与 Google 从 PaaS 转向 IaaS 的直接联系,但二者在时序上的关联以及同时期微软类似的转变指向这一合理推测,即 Google 受市场需求驱动,云计算市场 I
105、aaS-PaaS-SaaS 层次至此逐步形成。2012 年 6 月 Google 推出 Compute Engine 预览版,于 2013 年 5 月向公众开放使用。根据 TechTarget28,Google Cloud 最初的市场策略是面向开发者,帮助开发者开发云原生的 App,而忽视了其他使用传统架构的企业。我们认为,这种策略的有效性只存在于低迁移成本的市场,本质是寄希望于云原生的渗透率快速提升,但大型企业 IT 架构复杂,受到历史遗留问题困扰,难以直接迁移,而中小型企业不一定具备开发能力直接介入开发流程,这导致 Google Cloud 早期的发展速度慢于 AWS。后续后续 Googl
106、e Cloud 从开发者导向转向企业导向,且不断强化从开发者导向转向企业导向,且不断强化渠道渠道/推广能力推广能力。Google Cloud 的战略调整也反映在人事变动方面,在 Google 成立 GCP 之前,Urs H lzle 主要负责工程方面的事务29。直至 2015 年 Google 收购 Bebop,并将 Bebop 创始人 Diane Greene 并入 Google 且担任 Google Cloud 的 CEO,此后于 2019 年招募前 24 https:/research.google/pubs/pub62/25 https:/ Google 将 GAE 描述为 an ap
107、plication-hosting tool that developers can use to build scalable web apps on top of Googles infrastructure。27 实质原因为 IaaS 灵活性更高,PaaS 的锁定效应更强。且根据 CIO.com 等机构调查,多数企业转向云并非为了成本节约,而是提升灵活性,事实上多数企业的云购买量均不同幅度大于工作负载的需求量。https:/ 28 https:/ 29 Urs H lzle 于 1999 年加入 Google,担任 VP of Engineering,后于 2001 年担任 SVP of
108、 Technical Infrastructure。21 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 Oracle Cloud 高管 Thomas Kurian,并担任 Google Cloud CEO 至今。从个人履历上看,Urs H lzle 在产品和工程上为 Google Cloud 奠定基础,但其在面向企业的商业化方面欠缺经验和意愿30。Diane Greene 曾为 VMware 联合创始人及 CEO,其在 to B 产品的商业化方面具备丰富经验,这有望强化 Google Cloud 在企业主心中的信誉31。Greene 上任后对 Google Cloud 的首要调整即
109、将分散的业务团队合并为一体,并成立 Google Cloud Platfrom,并担任 Google Cloud CEO,云业务单元将过去的工程、销售、产品团队合并32。Diane Greene 为 Google Cloud 带来的变化可以总结为 1)通过对业务团队架构调整强化协作,打造全栈产品线,并于 Google 优势产品深度结合,作为对微软的回应;2)拥抱开源,具体表现为对内部项目的开源以及对外部开源项目的兼容。大多数企业都不希望被供应商锁定,因而开源是产业趋势,Google 应当顺应趋势;3)在大型企业客户方面取得较大突破,例如 Disney,eBay,HSBC,LATAM Airli
110、nes,LG CNS,The Home Depot,The New York Times,Schlumberger,Target(塔吉特),Verizon,Twitter,Netflix 等客户均采用 Google 云服务,较 2016年以前的 Spotify,Snapchat,Khan Academy 有较大突破33。4)通过战略收购扩展技术栈的覆盖,例如 Apigee34(API管理)、API.AI35(AI 对话平台,ML 相关)、Qwiklabs36(客户培训平台)、Kaggle37(DS/ML 相关)、Bitium38(云安全相关)、Velostrata39(迁移服务)、Cask40
111、(大数据)等。整体上看,Diane Greene 为 Google Cloud 的战略进行了聚焦和梳理,并推动了 Google Cloud 在企业客户心中逐步建立起品牌心智。30 其加入 Google 前为 UCSB 的教授,2023 年卸任 SVP of Technical Infrastructure 后转而担任独立研究者(Independent researcher),据此推断其主要兴趣在于研究。31 https:/ 32 https:/ https:/ 34 https:/ https:/ https:/ https:/ https:/ https:/ https:/ 美股公司深度报告
112、 谷歌谷歌 A 请参阅最后一页的重要声明 图图 53:Google Cloud 相关高管人员及汇报关系变化相关高管人员及汇报关系变化 数据来源:TechCrunch,Forbes,Google Blog,CNBC,中信建投 Greene 最终由于项目合作与最终由于项目合作与 Google 价值观的分歧决定离开价值观的分歧决定离开 Google。2018 年 Google Cloud 与美国国防部Project Maven 的合作引发 Google 内外对于其与 Google 价值观相悖的担忧41,造成 Diane Greene 与 CEO Sundar Pichai 关系紧张,导致 Googl
113、e 后续放弃了与美国国防部的项目合作续约。Diane Greene 则宣布将于 2019 年 1 月正式卸任 Google Cloud CEO,并于 2019 年 6 月退出 Google 母公司 Alphabet 的董事会42。Google 后续招募后续招募 Thomas Kurian 任任 Google Cloud CEO,推动战略从技术驱动转向渠道、客户需求驱动推动战略从技术驱动转向渠道、客户需求驱动。Thomas Kurian 相比 Diane Greene,Kurian 在与大型企业的客户关系、渠道伙伴关系以及产品运营等方面具备更丰富的经验。Kurian 加入之前,Google Cl
114、oud 的品牌形象更偏向“极客”,总是希望用 Google 的方式解决问题,而不关注客户真正的需求43,Kurian 则将 Google Cloud 的市场策略转向关注客户需求,以及依托渠道合作伙伴的力量。在业务/团队规模快速扩张的情况下,Kurian 还对进行人员调岗、业务流程压缩等调整,提升团队的灵活度和执行效率,这些因素推动 Google Cloud 持续提升总体份额。Kurian 担任担任 CEO 后后在销售、渠道侧大力改革。对内在销售、渠道侧大力改革。对内 1)首先首先大幅提升 Google Cloud 销售人员的薪酬待遇,与 AWS/Azure 相匹配,其中资深销售的年薪(考虑佣金
115、和固定工资)可达 60-70 万美元,而销售人员的整体均薪可达 19 万美元,此举吸引了 SAP 等企业的资深销售加入 Google Cloud44。2)其次)其次优化销售流程,过去销售 41 https:/ 42 https:/ 43 https:/ Cloud).had a reputation as an organization that was more interested in convincing customers to do things Googles way than learning what they really needed”。44https:/ 23 美股公司
116、深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 人员申请客户折扣时需要 10 个管理人员的审批,Kurian 简化了类似流程45。3)扩充销售团队,)扩充销售团队,尽可能接近AWS/Azure,Kurian 2019 年上任后 3 年内将销售团队的人员规模扩张了 3 倍,从 2019 年约为 AWS/Azure 销售团队的 10%/20%扩张至 50%(目标在 2021 年达到任一团队规模的 50%46)。对外,对外,Google Cloud 与外部渠道合作伙伴积极合作,并从推广单一产品/服务转向推广打包的解决方案,这些解决方案包含 GCP 与 Google 其他业务的产品或外部公司的产品。
117、渠道合作伙伴 2019 年为 Google Cloud 带来的新客户同比增长 85%,收入同比增长 195%,且外部渠道合作伙伴数量同比增长 300%47,这些反映 Google Cloud 的渠道生态逐步建立48,且渠道为Google Cloud 自身带来的积极影响。此外,此外,Kurian 推动了组织架构的调整,核心目的是提升推动了组织架构的调整,核心目的是提升 Google Cloud 的灵敏度。的灵敏度。具体措施包括提升工程团队与 Google Cloud 及其他团队的联系紧密度49,建立行业销售团队强化专业度50,并设立客户反馈委员会(Google Cloud Customer Ad
118、visory Board,由 Top 50 客户的 CIO 及 CTO 组成)直接倾听头部客户的反馈51。3.LLM 大语言模型大语言模型:具备充分想象力的技术趋势具备充分想象力的技术趋势 3.1 研究框架研究框架:聚焦模型结构、预训练模型、下游调试、部署、推断等环节:聚焦模型结构、预训练模型、下游调试、部署、推断等环节 大模型领域的研究大模型领域的研究核心要素包括模型结构、预训练模型、下游调试、模型部署、模型推断等。核心要素包括模型结构、预训练模型、下游调试、模型部署、模型推断等。根据青源会,大模型研究领域存在一定问题,包括同质化严重的情况,多数厂商采取类似的模型架构,例如 GPT、Bert
119、、T5等。由于模型架构同质化,影响模型效果的核心因素更多是工程方面的技巧、细节。总体上,大模型领域的研究机会主要包括 1)模型结构,例如非注意力交互机制、稀疏路由结构等;2)预训练模型,例如预训练任务设计、模型更新方法等;3)下游调试,如探索任务微调效率提升方法;4)模型部署,如统一的任务范式,通过单一模型支撑多种任务;5)模型推断,如模型压缩、剪枝、动态路由等。我们对比不同厂商大模型研发水平也主要参照上述框架。图图 54:大模型的研究框架大模型的研究框架 数据来源:青源会2022年人工智能重要方向进展与未来展望报告,中信建投 3.1.1 综述:Scaling Law、Prompt Engin
120、eering 驱动 LLMs 加速发展 45 https:/ 46 https:/ 47 https:/ 48 截止 2022 年,Google Cloud 渠道合作伙伴数量已经达到 10 万家。https:/ 49 https:/ 50 https:/ 51 https:/ 模型结构预训练下游调试部署推断模型效率非注意力机制的建模稀疏路由结构训练效率提升知识嵌入知识更新调试效率提升上下文学习可靠性统一范式推断效率提升 24 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 从技术路线上看,从技术路线上看,GPT、T5、BERT 都是基于都是基于 Transformer 架构衍生而来的
121、。架构衍生而来的。Tranformer 相对 RNN 引入了注意力机制(Attention mechanism),实现对全局信息的利用,同时简化计算复杂度,实现对下游任务的泛化应用。由于更简洁的模型结构设计和参数假设,Transformer 在数据抓取能力方面有所取舍,从而导致为了实现效果提升,需要进行更大规模的数据训练,以及构建更大规模的模型,间接导致了当前模型越来越大的趋势。图图 55:超大规模预训练模型成为业界趋势超大规模预训练模型成为业界趋势 数据来源:百度智能云超大规模AI异构计算集群的设计和优化,中信建投 根据 OpenAI 研究,预训练模型的扩大带来资源投入的指数级增长,而效果呈
122、现线性增长的趋势,这意味着边际投入带来的效果提升,即边际收益呈现递减的趋势,也就是给定算力等资源成本下存在参数规模的极限值,使得 ROI 最优。另外,根据 GPT-4 技术报告,Inverse Scaling Prize 提出,在一些任务上,随着参数规模的扩张,大模型在任务上的表现反而出现下降的情况。图图 56:超大规模预训练模型存在规模扩张边际收益递减的规律超大规模预训练模型存在规模扩张边际收益递减的规律 数据来源:百度智能云超大规模AI异构计算集群的设计和优化,中信建投 GPT 是基于 Transformer 架构,将 decoder(解码器)取出,也就是 Decoder-only 模型;
123、相较之下,BERT是将 Transformer 架构的 Encoder(编码器)取出,即 Encoder-only,后续 T5 模型则是 Encoder-Decoder 模型。模型结构的差异会导致其在下游任务表现的差异,例如过去学界认为Encoder模型对上下文理解能力更强,因为其可以结合上下文信息进行辅助判断,而 Decoder-Only 模型仅能通过下文信息进行决策,存在一定信息损 25 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 失。这一定程度上解释了 BERT 类模型在小参数规模下在下游任务上表现好于 GPT 系列模型52。图图 57:NLP 领域下游任务的范式迁移领域下
124、游任务的范式迁移 数据来源:青源会2022年人工智能重要方向进展与未来展望报告,中信建投 然而,近年 NLP 行业下游任务的统一化趋势改变了 BERT 模型的相对优势,即学者发现可以通过改变提问方式将分类、匹配等下游任务统一为一类问题,从而最大化模型效果,后续发展出 Prompt engineering(提示工程)。下游任务的统一相当于帮助 Encoder/Decoder 模型规避其不擅长的任务领域。在此基础上,GPT 能够脱颖而出更多得益于工程方面的提升而非在技术思想上创新,需要指出的是,GPT 模型采用的多数技术都是此前的学术研究成果,就科研贡献本身,GPT 模型的提升并不多。从技术路线上
125、看,包括 ERNIE 在内的多数厂商选择 BERT 路线(Encoder-only),少数选择 T5 路线(Encoder-Decoder),较少选择 GPT 路线(Decoder-only)。这种选择可以从学术影响力看出,BERT 论文的被引用量远大于 GPT 系列论文及 T5 系列论文。事后看,当前 OpenAI 旗下 GPT 系列模型的领先得益于早期技术选型的成功,这一成功是建立在以下基础上GPT 的学界/业界影响力小于 BERT,导致多数厂商选择跟踪BERT 的工作。表表 1:业界大模型相关论文影响力(截止业界大模型相关论文影响力(截止 2023/4/17)发表时间发表时间 文章文章
126、核心贡献核心贡献 被引用次被引用次数数 2017/6/12 Attention is all you need Transformer 71128 2018/6/11 Improving Language Understanding by Generative Pre-Training GPT 1.0 5196 2018/10/11 BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding BERT 63400 2019/2/14 Language Models are Unsupervise
127、d Multitask Learners GPT 2.0 10432 2019/4/19 ERNIE:Enhanced Representation through Knowledge Integration ERNIE 1.0 677 2019/7/29 ERNIE 2.0:A Continual Pre-training Framework for Language Understanding ERNIE 2.0 560 2019/10/23 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Tran
128、sformer T5 6961 2020/5/28 Language models are few-shot learners GPT 3.0 9160 2021/3/1 M6:A Chinese Multimodal Pretrainer M6 94 2021/4/26 PanGu-:Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation PanGu-92 52 Language Models are Unsupervised Multitask Learners
129、GPT-2 论文中扩大规模的 GPT-2 模型表现弱于 BERT,但 OpenAI提出 Few-Shot/Zero-Shot 概念,从而间接实现 SOTA 效果。26 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 2021/7/5 ERNIE 3.0:Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation ERNIE 3.0 122 2021/12/23 ERNIE 3.0 Titan:Exploring Larger-scale Knowledge Enhanced
130、 Pre-training for Language Understanding and Generation ERNIE 3.0 titan 19 2022/3/4 Training language models to follow instructions with human feedback InstructGPT 434 2023/3/20 PanGu-:Towards Trillion Parameter Language Model with Sparse Heterogeneous Computing PanGu-1 资料来源:Google scholar,Arxiv,中信建
131、投 GPT 路线此前的影响力弱于路线此前的影响力弱于 BERT 路线主要由于路线主要由于 1)Google 品牌背书;品牌背书;2)开源精神;)开源精神;3)产研结合难度。)产研结合难度。OpenAI 旗下的 GPT 路线基于 Transformer 架构,将解码器单独取出,论文发布时间早于 BERT 论文发布时间。但论文的业界影响力弱于 BERT,我们认为,这主要由于 Google 的品牌背书,Google 研究团队在 AI 领域的研究积累导致业界对其研究关注度更高。另一方面,GPT 系列论文发布后,相关数据集、模型不完全开源,导致其他研究团队很难跟进和复现其研究成果,这进一步削弱了业界/学
132、界跟进研究的动力。最重要的是,OpenAI团队解决问题的思路与当时业界/学界有所差异,此前研究人员更倾向于设计精细的模型结构和高效的方法,实现相同规模下效果更优,而 GPT 引入 Few-Shot/Zero-Shot 下表现没有明显好于 Fine-tuning 下的其他模型,只是在数据量和参数量指数提升后表现快速提升。这里存在这里存在 2 个问题:个问题:1)线性外推的思维定式。)线性外推的思维定式。2)业界研究的思维习惯:追求效率,聚焦更具体的问题。)业界研究的思维习惯:追求效率,聚焦更具体的问题。首先是首先是 1)线性外推的思维定式,线性外推的思维定式,多数研究团队选择优先调整模型结构和训
133、练方法等路线的隐含假设是,规模扩张不会对技术路线的效率产生明显影响,或者即使产生影响,但相比规模扩张带来的成本,其投入难度很难同比扩大。例如,OpenAI 的团队在 2020 年 1 月发现模型参数规模与效果存在幂律关系,即模型参数呈指数增长时,性能会线性增加,但 GPT-3 规模大于 BERT large 几个数量级,Zero-Shot/One-Shot 下效果也没有明显优势。这意味着 Fine-tuned 的效率提升优于参数规模扩大所带来的影响。2022 年 1 月,Google 和 DeepMind 研究团队发现 Fine-tuning 也存在幂律关系53,因此行业主要聚焦既定规模模型的
134、效率提升。图图 58:模型效果与参数规模呈现幂律关系模型效果与参数规模呈现幂律关系 图图 59:GPT-3 效果并不效果并不明显明显好好于于小规模的小规模的 BERT Large 模型模型 数据来源:Scaling Laws for Neural Language Models,中信建投 数据来源:Language Models are Few-Shot Learners,中信建投 53 根据Scaling Efficiently:Insights from Pre-training and Fine-tuning Transformers,证明了模型的结构对下游任务微调的影响很大,并提出随着
135、规模扩大模型结构设计的一些方案。此外,OpenAI 在 2021 年 2 月发布Scaling Laws for Transfer,研究了迁移学习领域的幂律关系。27 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 注:GPT-3参数规模为175B,BERT large为340M。图图 60:模型在预训练阶段的表现基本仅依赖于模型的参数量模型在预训练阶段的表现基本仅依赖于模型的参数量 图图 61:模型模型在微调阶段时的表现和模型结构关系很大在微调阶段时的表现和模型结构关系很大 数据来源:Scaling Efficiently:Insights from Pre-training an
136、d Fine-tuning Transformers,中信建投 数据来源:Scaling Efficiently:Insights from Pre-training and Fine-tuning Transformers,中信建投 Google研究推动规模竞赛加速研究推动规模竞赛加速,规模界限分别是规模界限分别是62B和和175B。2022年1月,Google团队开创了思维链(CoT)领域研究Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,通过 prompt 中引导大模型进行逻辑推理的方式实现性能优
137、化,并且这种优化幅度大于此前规模提升带来的线性提升。而下一个自然的问题则是参数规模的界限,Google 团队在 2022 年 12 月54比较了不同参数规模下直接 prompt 以及 CoT 下的表现,得出以下结论:对于所有小于 62B 的模型,直接用提示词都好于思维链。结合 GPT-3 模型规模,至少需要大于 175B55,思维链的效果才能大于 Fine-tuned 小模型的效果。54 Scaling Instruction-Finetuned Language Models。55 如果考虑到 code-davinci-002 的基础模型可能不是初代 GPT-3 davinci 模型,CoT
138、 效果优于直接 Prompt 的界限可能大于175B。28 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 62:思维链提示在性能思维链提示在性能-比例曲线中表现出比例曲线中表现出明显的相变明显的相变 图图 63:不同参数规模下直接不同参数规模下直接 Prompt 与与 CoT 的性能比较的性能比较 数据来源:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,中信建投 数据来源:Scaling Instruction-Finetuned Language Models,中信建投 除规模外,
139、训练语料也可能对除规模外,训练语料也可能对 CoT 能力产生较大影响。能力产生较大影响。根据 Mirac Suzgun(2022)等人的研究56,基于代码和文本数据训练的 Codex 模型在基于提示遵循任务指令、探索算法规律方面表现优于 InstructGPT 和 PaLM。更进一步,学界/业界希望分析出具体哪一因素导致 CoT 能力产生(主要区分 fine-tuned/代码训练),因而进行对比研究。Jason Wei在第一版论文(https:/arxiv.org/pdf/2201.11903v1.pdf)提到,GPT-3 text-davinci-001在GSM8K测试集上表现的推理能力较弱
140、,而 text-davinci-001 是完全基于文本训练的模型。在论文第五版中 GPT-3 text-davinci-002/Codex code-davinci-002 在 GSM8K 测试集上表现明显提升。而 Percy Liang 等研究57总结基于代码训练的模型在推理能力方面强于非代码训练的模型,其测试集中平均推理能力 Codex cushman v1 位列(9/30),Codex davinci v2(1/30)。因此推理能力来自代码训练的可能性更大,代码训练对提升推理能力有明显帮助。56 Challenging BIG-Bench tasks and whether chain-
141、of-thought can solve them原文如下“Codex,trained on both code and text data,shows better performance in following task instructions and exploiting algorithmic patterns based on the prompt exemplars compared to InstructGPT and PaLM.”57 Holistic Evaluation of Language Models。29 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明
142、 图图 64:CoT Prompt 对对不同规模、语料训练下模型性能的影响不同规模、语料训练下模型性能的影响 数据来源:Challenging BIG-Bench tasks and whether chain-of-thought can solve them,中信建投 注:InstructGPT models 缩写如下:a-1(text-ada-001),b-1(text-babbage-001),c-1(text-curie-001),d-1(text-davinci-001),and d-2(text-davinci-002).Codex models缩写如下:c-1(code-cus
143、hman-001),d-1(code-davinci-002),and d-2(code-davinci-002).更进一步的佐证是 Zero-Shot Prompting。根据 Takeshi Kojima 等人的研究58,通过加入“Lets think step by step”提示,模型的表现有显著提升。且根据Scaling Instruction-Finetuned Language Models,Finetune 计算量仅占预训练的很小比例,因此更大可能逻辑推理能力是预训练模型本身具备的,CoT Prompt 激活了这类能力。图图 65:指令微调相对预训练计算量占比很小指令微调相对预
144、训练计算量占比很小 数据来源:Scaling Instruction-Finetuned Language Models,中信建投 对齐调优对齐调优方面,方面,根据根据A Survey of Large Language Models,RLHF 等技术主要是帮助实现对齐调优等技术主要是帮助实现对齐调优(Alignment Tuning),目前的主流目标是),目前的主流目标是 Helpful、Honest、Harmless。OpenAI 团队59提出通过递归法能够实现对长难文本的归纳总结,并指出这类方法可以进一步泛化至其他类型的任务上,实现与人类的对齐。此外,论文指出RL比SL更有效地帮助模型对
145、比。具体细节方面,John Schulman在 Reinforcement Learning from Human Feedback:Progress and Challenges60提到,SFT 与其等价的 BC 存在固有缺陷,即训练越充分越容易出现欺骗(即模型并不明确自己知识的边界),RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正 58 Large Language Models are Zero-Shot Reasoners。59 在 2021 年 9 月发布Recursively Summarizing Books with Human Feedback。
146、60 https:/ 30 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 反馈,而且对偏离样本的惩罚较重,RL 多样性更好,因而在面对不知道的问题时,SL 训练充分的模型倾向于回答(胡编乱造),而非反馈不知道61。需要指出的是,OpenAI 提出 alignment tax,即模型牺牲部分性能实现与人的对齐。图图 66:当模型性能超越一般人时,当模型性能超越一般人时,Alignment 成为挑战成为挑战 数据来源:Measuring Progress on Scalable Oversight for Large Language Models,中信建投 图图 67:RM 可能存在
147、过拟合的情况可能存在过拟合的情况 图图 68:不同方法下模型过拟合情况不同方法下模型过拟合情况 数据来源:Scaling Laws for Reward Model Overoptimization,中信建投 数据来源:Scaling Laws for Reward Model Overoptimization,中信建投 2)另一方面,)另一方面,业界追求效率的思路,关注投入产出比业界追求效率的思路,关注投入产出比。这种思路的本质是投入资源稀缺,要在有限的资源投入下最大化产出。而研究思路背后是互联网公司 AI 实验室与业务部门的博弈。61 https:/ 31 美股公司深度报告 谷歌谷歌 A
148、请参阅最后一页的重要声明 图图 69:业界业界 AI 研究院的组织架构调整研究院的组织架构调整 数据来源:雷峰网,中信建投 纵观国内外互联网公司的纵观国内外互联网公司的 AI 研究部门,其大致经历了职能制、矩阵制、事业部制等架构,背后反映了大研究部门,其大致经历了职能制、矩阵制、事业部制等架构,背后反映了大厂对厂对 AI 科研部门的不同期许和考核体制,这种激励体制也影响了科研部门的不同期许和考核体制,这种激励体制也影响了 AI 科研部门的中长期发展。科研部门的中长期发展。2013 年成立的FAIR 采取职能制,其定义 Facebook 的 AI 部门为 FAIR+Applied Machine
149、 Learning(应用机器学习团队)+Product Groups(产品部署团队)62。但 2018 年组织架构调整后,FAIR 转向矩阵制,即 AI 实验室同时对业务部门和技术领导(一般是 CTO 体系)负责。2021 年底 FAIR 进一步调整,将旗下 AI 研究团队并入业务部门,转向事业部制。从职能制向矩阵制、事业部制,考核体制上越来越接近业务,越来越远离学术影响力/前瞻研究,这种转变大多是由于互联网公司面临营收、利润压力,业绩压力倒逼研究团队转向业务团队的“外包”,压力下部分研究人员离开业界,重回学术界,这是过去我们看到的业界 AI 研究的循环。大厂在大模型领域研究大厂在大模型领域研
150、究的落后有一定时代特征:的落后有一定时代特征:对谷歌来说是价值观变革导致凝聚力减弱,同时创新工作对谷歌来说是价值观变革导致凝聚力减弱,同时创新工作不足;对不足;对 Meta 而言是企业声誉受损导致凝聚力减弱,此外则是战略重心调整导致人员流动。而言是企业声誉受损导致凝聚力减弱,此外则是战略重心调整导致人员流动。以谷歌为例,2018-21年谷歌经历了介入军事、语音监听、伦理委员会等风波,价值观或政治正确在内外部引发的争议导致研究人员产生分歧,进而离开公司。2021 年至今一些谷歌高级研究人员离职创业、加入竞争对手等。总体上来看,谷歌研究人员的离开主要是公司规模扩张带来价值观稀释,内部分歧管控失败导
151、致的,另一方面大企业机制下对“创新”的激励趋弱,部分员工离职创业或加入中小型公司,寻求更自由、追求创新的工作。对 Meta 而言,2018 年因非法向剑桥分析泄露超 5000 万用户信息从而影响美国选举,Meta 的企业形象大幅恶化,影响了员工对于企业的信心,导致当年大批高管及核心研究人员离职63。另外,2021 年 Meta 员工的离职潮主要受战略变化及组织架构调整影响,由于公司战略转向 AR/VR,一些员工出于职业发展的考虑64加入其他公司继续本领域的研究和工作。62 https:/ 63 https:/ 64 https:/ 事业部CEOCTO体系/工程事业部AI研究院事业部CEOCTO
152、体系/工程事业部AI研究院事业部CEOCTO体系/工程事业部AI团队AI团队职能制职能制矩阵制矩阵制事业部制事业部制 32 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 70:2018-21 年谷歌经历介入军事、语音监听、伦理委员会风波,年谷歌经历介入军事、语音监听、伦理委员会风波,21-23 年大量研究人员离职年大量研究人员离职 数据来源:观察者网,环球网,澎湃新闻,网易科技,新浪科技,虎嗅网,中信建投 更大的趋势在于 1)开源带来的技术扩散,)开源带来的技术扩散,头部科研院所及互联网科技公司相比中小公司/科研院所的相对优势在缩减,这主要由于过去 AI 领域的创新主要来自方
153、法论层面,而非工程层面,而方法论的创新更随机;2)对大型科技企业的监管约束趋严,对大型科技企业的监管约束趋严,大多数美国互联网科技企业都是在 1990 年后成立,并受益于 20 世纪末、21世纪初的反垄断监管,在快速发展阶段经历了经济高速增长、监管边际宽松的环境,但 2017 年以来欧盟、韩国等对谷歌、亚马逊、Meta、苹果公司、微软等加强监管,导致大型科技公司面临较高的监管压力。图图 71:2017-22 年年 NIPS 论文发布机构集中度有所下降论文发布机构集中度有所下降 图图 72:1950-2022 年美国司法部及欧盟反垄断诉讼案件数量年美国司法部及欧盟反垄断诉讼案件数量(件)(件)数
154、据来源:NIPS,Github,Vinai,中信建投 数据来源:DOJ,EU,中信建投 注:DOJ案件不含刑事诉讼,EU案件仅包含Antitrust/Cartels。此外,舆论环境对中小型创业公司容忍度更高也是影响大公司创新成本的要素。此外,舆论环境对中小型创业公司容忍度更高也是影响大公司创新成本的要素。包括 Meta、Google、微软在内的科技公司此前推出类似产品时都出现过由于语言模型生成内容存在虚假、政治不正确的情况,并引发舆AI部门Ethical AI团队Timnit GebruJeff DeanMargaret MitchellSamy Bengio负责人联席主管联席主管负责人202
155、0年12月3日被辞退原因为论文发表未经内部流程审批2021年2月20日被辞退被指控将文档转移出公司2021年4月7日离职与下属离职有关2021年2月20日 对处理问题的方式表示歉意2018年I/O大会谷歌推出AI服务机器人Duplex,旨在帮助替用户拨打语音电话进行预约服务。Duplex可以模仿人类的语气,发音也与真人十分接近。但遭到舆论批评。2018年4月谷歌与五角大楼签署协议,计划为利用人工智能提高无人机打击准确性的项目Maven提供技术支持,这一举动招致了谷歌员工和舆论界的广泛批评。2018年6月谷歌发布了人工智能十一条准则,包括谷歌进行AI研发的七个目标和谷歌AI绝不会进入的四种应用场
156、景。2019年3月谷歌宣布成立“先进技术外部咨询委员会”,希望通过哲学家、工程师和政策专家组成的团队帮助解决人工智能带来的道德风险。2019年7月谷歌陷语音监听风波2021年10月谷歌大型语言模型 LaMDA研究人员Noam Shazeer离职2022年1月DeepMind联合创始人Mustafa Suleyman退出谷歌2022年4月谷歌大模型研究人员David Luan、Ashish Vaswani、Niki Parmar离职2022年5月谷歌AI研究员Satrajit Chatterjee质疑Jeff Dean领衔的Nature论文被解雇2023年2月传OpenAI秘密雇佣多位前谷歌AI
157、研究人员,帮助改进ChatGPT40%45%50%55%00Top 10机构论文被接收数量(份)总论文被接收数量(份)CR 10-10 20 30 40 5080246201020142018Antitrust cases filed by DOJ-Civil MA(5)Antitrust cases filed by EU MA(5)Antitrust cases filed by EU+DOJ MA(5)33 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重
158、要声明 论热议,从而迫使产品下线。例如 2015 年 Google 将黑人女性的图片识别为 Gorilla(大猩猩)65;2016 年微软聊天机器人因种族歧视言论迅速被下线66;2021 年 Facebook(Meta)将黑人男性标注为 Primate(灵长类动物)67。对于大型科技公司的舆论和监管压力天然高于创业公司68,这也导致其面临较高的合规成本,丧失部分灵活性。总结来看,BERT 模型由于存在双向路径,实现相似效果需要的参数量更大,对计算资源的要求更高,在千亿规模下表现相对弱于 GPT,且下游任务统一化利于 GPT 模型。而据 OpenAI,其认为 GPT 模型规模已经接近极限,往后的
159、效果提升需要指数级参数/数据规模提升,边际效果提升较小,ROI 较低。在类似 Transformer的新架构出现前,GPT 较 BERT 是更好的技术路径,不同 GPT 模型的差异主要取决于预训练等环节的差异。3.1.2 预训练:差异来自数据集、知识图谱、参数规模、训练策略 预训练环节的主要差异来自 1)语料,包括语料规模、语料配比;2)知识图谱的引入;3)训练策略的优化;4)参数规模。1)语料)语料 ERNIE 团队在 ERNIE 1.0 时注意到引入不同种类的语料能够提升模型预测的准确率。OpenAI 团队在 GPT-3论文中也引入大规模且多种类的训练数据。总体而言,语料多样性越充分,高质
160、量语料占比越高,对模型的预测准确度有帮助,但学界在这方面的定量研究仍较为稀缺,语料对于模型预测准确率的量化影响尚不明确。表表 2:训练语料引入多轮对话后模型预测准确率提升训练语料引入多轮对话后模型预测准确率提升 Corpus proportion(10%of all training data)Dev Accuracy Test accuracy Baike(100%)76.50%75.90%Baike(84%)/news(16%)77.00%75.80%Baike(71.2%)/news(13%)/forum Dialogue(15.7%)77.70%76.80%资料来源:ERNIE:Enh
161、anced Representation through Knowledge Integration,中信建投 注:ERNIE模型的训练数据集主要是百度生态内数据,例如百度百科、百度新闻、百度贴吧。图图 73:OpenAI GPT-3 模型的训练语料集模型的训练语料集 数据来源:Language Models are Few-Shot Learners,中信建投 65 https:/ 66 https:/ 67 https:/ 68 https:/ Meta 没有推出类似 ChatGPT 的系统时,LeCun 回答说,因为谷歌和 Meta 都会因为推出编造东西的系统遭受巨大损失。”34 美股公
162、司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 2)知识图谱的引入 ERNIE 1.0 模型相比 BERT 最大的变化就是引入知识图谱,从而提升预测准确度。具体来讲,2019 年 4 月ERNIE 团队提出基于 BERT 的改进掩码策略,1)在单词级别随机生成掩码并引导模型预测(BERT 框架,basic-level masking),2)词组级别(phrase-level masking)、实体级别(entity-level masking)随机生成掩码并引导模型预测。通过引导模型预测词组、实体,模型训练隐性地69引入知识图谱概念。例如:哈利波特是 J.K.罗琳写的小说。单独预测哈MAS
163、K波特或者 J.K.MASK琳情况下,模型无法学到哈利波特和 J.K.罗琳的关系。如果把哈利波特直接 MASK 掉的话,那模型可以根据作者,就预测到小说这个实体,实现知识的学习。图图 74:ERNIE、BERT 掩码策略差异掩码策略差异 数据来源:ERNIE:Enhanced Representation through Knowledge Integration,中信建投 表表 3:不同掩码策略及数据集规模下的模型预测准确率不同掩码策略及数据集规模下的模型预测准确率 Pre-training dataset size Mask strategy Dev accuracy Test accur
164、acy 10%of all word-level(chinese character)77.70%76.80%10%of all word-level&phrase-level 78.30%77.30%10%of all word-level&phrase-leve&entity-level 78.70%77.60%All word-level&phrase-level&entity-level 79.90%78.40%资料来源:ERNIE:Enhanced Representation through Knowledge Integration,中信建投 与 GPT 相比,ERNIE 引入知
165、识图谱在可信度方面有一定提升,但相应地训练成本有所提升。GPT 模型在内容生产的真实性方面存在较大提升空间,大规模使用下容易频繁出现“一本正经地胡说八道”。3)训练策略的优化 69 ERNIE:Enhanced Language Representation with Informative Entities 通过显性引入 embedding 知识图谱,提升模型学习能力。35 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 ERNIE 2.0 引入持续学习框架,解决知识遗忘及训练效率的问题。ERNIE 1.0 相比基础版 BERT,改变了掩码策略(引入知识图谱)和数据结构(加入多轮对
166、话语料),提升了模型预测准确率。此后学界讨论通过多任务学习提升模型的预测准确率,例如微软研究团队在Multi-Task Deep Neural Networks for Natural Language Understanding中论证了通过在预训练模型中加入有监督的下游任务,能够优化模型在 NLU(自然语言理解)方面的效果。因此,后续的一个思路就是通过堆叠训练任务提示模型预测准确率,但相应存在一个问题,即模型出现学习新知识后容易遗忘旧知识,ERNIE 2.0 主要的变化就是针对这一问题提出持续学习框架,实现知识库扩充,优化模型效果。常规的模型训练即序列训练模式,即后一个模型训练是建立在前一个
167、模型训练结束后,从模型参数的角度,后一个模型训练初始参数为前一个模型,但训练结束后参数有所调整,且由于训练是基于后一个任务,其对此前任务的预测准确率可能低于此前的训练结果。学界此前的解决思路是将多个任务同时训练,确保模型对不同时序加入的任务等权学习,但每新增一个任务,模型都需要重新训练此前所有的任务,这对应较高的训练成本。ERNIE 2.0 提出序列多任务学习(Sequential Multi-task Learning)模式,通过给每个任务分配 N 个训练迭代,自动将每个任务的 N 个迭代分配到不同训练阶段,兼顾学习效果和效率,较 BERT 框架继续优化。图图 75:ERNIE 团队提出序列
168、多任务学习模式团队提出序列多任务学习模式 数据来源:ERNIE 2.0:A Continual Pre-Training Framework for Language Understanding,中信建投 OpenAI 在训练策略方面并未披露细节,但结果上看在训练策略方面并未披露细节,但结果上看 OpenAI 训练效果好于训练效果好于 Meta。GPT-4、InstructGPT 论文中其透露微软为 GPT 专门构建了计算集群和训练环境,确保训练的稳定性。GPT-4 的训练环境经过多次迭代后表现非常稳定。而根据 Susan Zhang 教授70,Meta 在 OPT-175B 模型的训练中出现
169、了 50 多次的断点(需要回到 Checkpoint 重启训练),下图中不同颜色代表着模型连续训练的时间。70 https:/cs.stanford.edu/events/mlsys-seminar-susan-zhang 36 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 76:OPT-175B 训练断点情况训练断点情况 数据来源:Stanford,中信建投 GPT-4 能够基于“小模型”训练预测大模型的损失函数,从而降低训练负载,同时并发训练多个模型,提升训练效率。目前没有在其他竞对中看到类似的效果。图图 77:GPT-4 模型的训练是基于小规模模型训练预测大模型的损失函
170、数进行的模型的训练是基于小规模模型训练预测大模型的损失函数进行的 数据来源:GPT-4 Technical Report,中信建投 3.1.3 下游调试、部署、推断:RHLF 仍处于技术发展的早期,潜在优化空间大 GPT 系列模型的拐点在 InstructGPT,其引入了 RHLF,对应 SFT、RM、PPO 三阶段,最终效果是 PPO 模型预测准确度好于 SFT-175 模型。而 Anthropic 团队研究Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback指出,I
171、nstructGPT 基于较小的 RM 训练反馈并非最优的,大规模的 RM 模型对模型性能的提升可能更好。37 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 78:InstructGPT 论文中提到的下游调试过程论文中提到的下游调试过程 数据来源:Training language models to follow instructions with human feedback,中信建投 图图 79:InstructGPT 经过调试后表现显著优于经过调试后表现显著优于 SFT-175B 模型模型 数据来源:Training language models to follow
172、 instructions with human feedback,中信建投 图图 80:大规模大规模 PM 对不同参数规模模型的效果提升是显著的对不同参数规模模型的效果提升是显著的 图图 81:小规模小规模 PM 对模型的性能提升可能不显著对模型的性能提升可能不显著 数据来源:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback,中信建投 数据来源:Training a Helpful and Harmless Assistant with Reinforcement
173、 Learning from Human Feedback,中信建投 38 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 注:PM即Preference Model,与Reward Model等价。Anthropic 团队上述研究的副产物即在 RLHF 中模型性能提升与 RM 的关系,进而在后续研究中可以通过这一关系估算给定性能提升目标需要多大规模的 RM,并且不同参数规模的模型性能提升曲线基本上平行的,也就是基于 RLHF 不同规模的模型的性能极限可能不同,并且性能提升的斜率可能是近似相同的。部署和推断在 OpenAI 论文中大多数被忽略了,仅提到微软在这方面的支持。ERNIE
174、在论文中提到在线蒸馏框架,实现算力节约。图图 82:百度百度 ERNIE 团队提出团队提出在线蒸馏框架在线蒸馏框架 数据来源:ERNIE 3.0 TITAN:EXPLORING LARGER-SCALE KNOWLEDGE ENHANCED PRE-TRAINING FOR LANGUAGE UNDERSTANDING AND GENERATION,中信建投 总结来看,OpenAI 在 GPT-4 训练结束后花费 6 个月左右时间进行调试和其他调整,其主要精力大体上是放在调试上,而部署、推断等更多依赖微软和其他合作方的支持。微软/英伟达在合作声明中提到,双方基于数万块 A100、H100 GP
175、U 芯片,NVIDIA Quantum-2 400Gb/s InfiniBand 架构,以及 NVIDIA 企业级配套软件等构建了基于公有云的 AI 超级计算机。此外,基于 ONNX runtime 的推理框架,模型的在线推理速度能够进一步优化。3.1.4 量化效果:基于公开测试集进行量化评估 学界/业界对 LLM 的评估主要是基于公开测试集的评分,例如 GPT-4 的评分情况如下,GPT-4 在绝大多数语言评测中都大幅超越了此前的 LLM SOTA(最高分),在视觉评测中部分超越此前的 SOTA,但整体表现并不如 GPT-4 的一骑绝尘。主要难点可能在于视觉信息、文本信息的联合训练、理解。3
176、9 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 83:GPT-4 模型在多数下游语言任务中达到模型在多数下游语言任务中达到 SOTA 图图 84:GPT-4 模型在视频下游任务方面领先幅度不如语言领域模型在视频下游任务方面领先幅度不如语言领域 数据来源:GPT-4 Technical Report,中信建投 数据来源:GPT-4 Blog,中信建投 3.2 谷歌的竞争分析谷歌的竞争分析:全栈技术积累深厚,总体处于第一梯队:全栈技术积累深厚,总体处于第一梯队 3.2.1 预训练环节:谷歌在训练基础设施/训练策略方面布局领先 谷歌在训练集方面不具备明显优势。谷歌在训练集方面不具
177、备明显优势。在训练数据集方面,现有的大模型主要采用书籍、文章、网页等文本数据,这些数据能够帮助大模型积累语法、文本知识、文本理解、上下文连贯逻辑等能力,而在前文“综述”部分我们提到代码对语言模型的逻辑推理能力具备帮助,因此训练数据集的多样性较为重要,确保大模型积累多样化的能力以便后续激活,这里的问题主要是,例如逻辑推理的培养需要一定比例的高质量代码数据,1)如何定义高质量的数据,怎么对原始数据进行清理、去重71、标注等?2)多大比例的数据能够积累能力?就我们的知识范围,目前学术界/业界尚未有较为公开且权威的研究能够回答上述问题,但总体而言,数据质量上论文/书籍/百科代码/文章对话网页。从这一角
178、度看,Google 在数据源方面不存在明显的优势。图图 85:不同大语言模型的预训练数据集结构(不同大语言模型的预训练数据集结构(%)数据来源:OpenAI,Google,Meta,中信建投 71 2022 年 5 月,Anthropic 团队在Scaling Laws and Interpretability of Learning from Repeated Data指出重复数据对 LLM 的损失产生较大影响。0%10%20%30%40%50%60%70%80%90%100%GPT-3LLaMaPaLMLaMDA社交媒体对话经过滤的网页书籍Github百科新闻资讯 40 美股公司深度报告
179、谷歌谷歌 A 请参阅最后一页的重要声明 谷歌在谷歌在AI架构、芯片方面处于行业领先地位。架构、芯片方面处于行业领先地位。Google在 Pathways:Asynchronous Distributed Dataflow for ML提出了 Pahtways 作为新一代 AI 架构,其特点是多任务,多通道,稀疏激活。在 PaLM:Scaling Language Modeling with Pathways 中,Google 提到 Pathway 下 MFU(Model Flops Utilization)达到 46.2%,高于 GPT-2/3 在 A100/V100集群上的利用率 35.7%
180、/21.3%,但低于 GPT-3 基于英伟达 Megatron-A100 集群实现的利用率 52%。TPU 方面,TPU 在 MLPerf 部分场景的性能测试中表现优于 A100,其中 TPU v4 在 4096 块芯片,应用 BERT 场景下性能是A100 的 1.15 倍左右;ResNet 场景下 TPU v4 则是 A100 性能的 1.67 倍。图图 86:Google在分布式集群计算资源利用率方面处于相对领在分布式集群计算资源利用率方面处于相对领先地位先地位 图图 87:TPUv4 在多个下游场景中表现优于在多个下游场景中表现优于 A100 数据来源:Nvidia,Efficient
181、 Large-Scale Language Model Training on GPU Clusters Using Megatron-LM,PaLM:Scaling Language Modeling with Pathways,中信建投 数据来源:TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,中信建投 图图 88:TPU v4 在在 BERT 上上表现优于表现优于 A100 图图 89:TPU v4 在在 ResNet 上表
182、现优于上表现优于 A100 数据来源:TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,中信建投 数据来源:TPU v4:An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings,中信建投 46.2%35.7%21.3%52.0%0%10%20%30%40%50%60%PaLM(Pathway
183、s-TPUv4)GPT-2(A100)GPT-3(V100)GPT-3(Megatron-A100)41 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 90:目前学界目前学界/业界提升模型计算效率的策略分类业界提升模型计算效率的策略分类 数据来源:A Survey on Efficient Training of Transformers,中信建投 大模型的训练稳定性是过去研究涉及较少的。大模型的训练稳定性是过去研究涉及较少的。由于小模型训练时长较短,涉及的软硬件协同面较窄,扩展至大模型下集群出现异常或错误的概率大幅提升,相应带来模型训练的不稳定性(Training inst
184、ability),以及资源的额外耗费(一般需要回到 checkpoint 重新训练)。在训练策略上,Google 团队在 PaLM 论文中提到模型训练过程中多次出现损失函数的突变(we observed spikes in the loss roughly 20 times during training72),而 Susan Zhang 在 Stanford 分享 OPT 模型训练过程中展示了模型训练中也出现了多次波动。图图 91:OPT-175B survived 143K steps 数据来源:Stanford,中信建投 谷歌在模型训练方面具有较好积累。谷歌在模型训练方面具有较好积累。D
185、iederik P.Kingma 和 Jimmy Lei Ba 2014 年发表Adam:A method for stochastic optimization,Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。Diederik P.Kingma 于 2015 年与其他合伙人共同创立 OpenAI,并于 2018 年加入 Google Brain。而 Google 团队于 2023 年 2 月提出了 Lion 优化器73,此前流行的 AdamW 等自适应优化器需要同时保存一阶和二阶矩相比,Lion 只需要动量,这意味着内存占用降低,且在训练大
186、型模型和大 Batch size 时效果显著。72 PaLM:Scaling Language Modeling with Pathways。73 Symbolic Discovery of Optimization Algorithms。42 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 图图 92:Fine-tuning performance of the T5 Base,Large,and 11B on the GLUE dev set 数据来源:Symbolic Discovery of Optimization Algorithms,中信建投 此外,Google 研究团
187、队在 2021 年Sharpness-aware minimization for efficiently improving generalization提出 Sharpness-aware minimization(SAM)方法,除了提升模型的泛化表现,SAM 可以提高模型对标签噪声的稳健性(robustness)。后续 NUS74和字节跳动75的研究团队进一步优化了 SAM 方法。图图 93:SAM 提升了模型对标签噪声的稳健性,并优化了模型训练效率提升了模型对标签噪声的稳健性,并优化了模型训练效率 数据来源:Sharpness-aware minimization for effici
188、ently improving generalization,中信建投 模型初始化策略方面,MIT 和 Google762019 年提出 Fixup 策略,避免梯度爆炸或消失,并可以应用于超过1 万层的神经网络。后续 UCSD77和 Google78进一步在此基础上提出 Rezero 和 SkipInit,具体到每一层执行操作,实现进一步优化。3.2.2 模型调试:谷歌在 Fine-tuning,Prompt engineering 方面领先,在 Alignment Tuning 等领域与 OpenAI 存在差距 Google 团队在模型调试和团队在模型调试和 Prompt engineeri
189、ng 方面积累领先行业。方面积累领先行业。在前文综述部分,我们提到谷歌团队开创了 CoT 研究,其论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 引入 CoT Prompt,并通过对比实验探测出模型能力涌现的界限大约是 62B 和 175B。Google 团队在 2022 年 12 月比较了不同参数规模下直接 prompt 以及 CoT 下的表现,得出以下结论:对于所有小于 62B 的模型,直接用提示词都好于思维链。结合 GPT-3 模型规模,至少需要大于 175B,思维链的效果才能大于 Fine
190、-tuned 小模型的效果。东京大学和Google 团队Large Language Models are Zero-Shot Reasoners更进一步提出 Zero-Shot Prompting,即加入“Lets 74 Efficient sharpness-aware minimization for improved training of neural networks。75 Sharpness-aware training for free。76 Fixup initialization:Residual learning without normalization。77 ReZe
191、ro is All You Need:Fast Convergence at Large Depth。78 Batch Normalization Biases Residual Blocks Towards the Identity Function in Deep Networks。43 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 think step by step”可以显著的提升模型性能。对齐调优方面,对齐调优方面,OpenAI 及及 Anthropic 相对领先相对领先。OpenAI 团队79提出通过递归法能够实现对长难文本的归纳总结,并指出这类方法可以进一步泛化至其他
192、类型的任务上,实现与人类的对齐。此外,论文指出 RL 比 SL更有效地帮助模型对比。具体细节方面,John Schulman 在 Reinforcement Learning from Human Feedback:Progress and Challenges80提到,SFT 与其等价的 BC 存在固有缺陷,即训练越充分越容易出现欺骗(即模型并不明确自己知识的边界),RLHF 则是让模型明确有些问题自己不知道。原理上是因为 SL 训练时只有正反馈,而且对偏离样本的惩罚较重,RL 多样性更好,因而在面对不知道的问题时,SL 训练充分的模型倾向于回答(胡编乱造),而非反馈不知道81。需要指出的是
193、,OpenAI 提出 alignment tax,即模型牺牲部分性能实现与人的对齐。图图 94:当模型性能超越一般人时,当模型性能超越一般人时,Alignment 成为挑战成为挑战 数据来源:Measuring Progress on Scalable Oversight for Large Language Models,中信建投 总结来看,谷歌在大模型领域的布局是全方位的,涵盖上游芯片、分布式计算集群、深度学习框架,以及模型训练、调试优化策略,并且在多数环节保持领先地位,OpenAI 的成功则是建立在与微软、英伟达等公司相互合作的基础上,并且是 OpenAI 与微软是通过股权投资绑定利益关
194、系,这意味着其他竞争者模仿的难度较大,而就互联网平台而言,Google 在 AI 领域的积累深厚,整体并不落后于 OpenAI 的情况。79 在 2021 年 9 月发布Recursively Summarizing Books with Human Feedback。80 https:/ 81 https:/ 44 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 估值估值 估值上,我们认为谷歌业务处于相对成熟阶段,因此适合 PE 估值。远期 PE 对应持有一年的名义回报率,以 22.5%的美国经济潜在增长率为基础,考虑额外的 10 年期国债利率,我们预计 34%的实际回报率水平处于
195、合理区间。我们按照 26xPE 估计,对应每股 160 美元的估值,较当前收盘价有约 16%的上行空间。投资评价和建议投资评价和建议 受益于经济的健康发展以及公司在广告产品结构上的调整,谷歌广告收入在 23-25 年有望维持高单位数增长。谷歌云作为全球 Top3 的云厂商,依靠在 AI 以及 SaaS 领域的深厚布局,大语言模型对社会降本增效的作用已经初步显现,未来进一步泛化普及的概率较高,这将推动云计算基础设施和大模型产品的需求增长,2023-25年有望继续维持 20%以上的收入增长,而 GooglePlay、YouTube 订阅、硬件等亦将持续受益在线化,成本费用的持续优化将支撑利润率的回
196、升。基于上述分析,Google 业绩主要敞口仍然是广告需求,因此美国经济整体表现韧性预计有益公司业绩。我们预计公司 2023-25 年整体收入分别为 3001/3305/3604 亿美元,GAAP 归母净利润分别为 685/819/938 亿美元。尽管面临短期加息周期的波动和行业竞争的变化,我们持续看好公司中长期的成长性与投资价值,维持“买入”评级。尽管面临短期加息周期的波动和行业竞争的变化,我们持续看好公司中长期的成长性与投资价值,维持“买入”评级。表表 4:谷歌分项收入预测(单位:百万美元,谷歌分项收入预测(单位:百万美元,%)2019 2020 2021 2022 2023E 2024E
197、 2025E 营业收入 160,743 181,694 256,735 279,808 300,110 330,520 360,455 yoy%18.1%13.0%41.3%9.0%7.3%10.1%9.1%广告收入 134,811 146,924 209,497 224,473 234,016 252,526 270,248 yoy%16.0%9.0%42.6%7.1%4.3%7.9%7.0%谷歌云收入 8,918 13,059 19,206 26,280 33,201 40,817 48,572 yoy%52.8%46.4%47.1%36.8%26.3%22.9%19.0%其他收入 659
198、 657 753 1,068 1,105 1,216 1,277 yoy%10.8%-0.3%14.6%41.8%3.5%10.0%5.0%资料来源:公司公告,中信建投 风险分析风险分析 业务发展不及预期:业务发展不及预期:云计算等业务竞争格局仍处于较快变化阶段,我们对谷歌的估值和投资判断很大程度上是基于主观预期,而市场竞争加剧可能影响微软相关业务的表现,使预期与实际业绩产生偏差。行业增长不及预期:行业增长不及预期:疫情下居家办公等需求脉冲式增长,这使得重新开放后高基数、需求透支下业绩可能增速将有所放缓。监管监管不确定性:不确定性:云计算等业务涉及多个国家和地区,同时满足不同国家的监管要求及潜
199、在的变化会对业务产生一定不确定性的影响。45 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 表表 5:谷歌广告收入结构变化对谷歌广告收入结构变化对 EPS 的敏感型分析的敏感型分析 谷歌广告收入/EPS-20%-10%0%10%20%-20%-17.8%-9.1%-0.4%8.3%17.0%-10%-17.6%-8.9%-0.2%8.5%17.2%0%-17.4%-8.7%0.0%8.7%17.4%10%-17.2%-8.5%0.2%8.9%17.6%20%-17.0%-8.3%0.4%9.1%17.8%资料来源:公司公告,彭博,中信建投 46 美股公司深度报告 谷歌谷歌 A 请参
200、阅最后一页的重要声明 报表预测报表预测 资产负债表(百万元)资产负债表(百万元)利润表(百万元)利润表(百万元)会计年度会计年度 2021A 2022A 2023E 2024E 2025E 会计年度会计年度 2021A 2022A 2023E 2024E 2025E 流动资产流动资产 188,143.0 164,795.0 263,455.9 370,765.8 488,483.3 营业收入营业收入 257,637.0 282,836.0 300,110.3 330,520.3 360,454.9现金 139,649.0 113,762.0 205,967.5 307,473.2 419,48
201、1.8 营业成本 110,939.0 126,203.0 133,881.2 145,871.1 157,351.2应收票据及应收账款合 39,304.00 40,258.00 46,451.78 51,158.72 55,792.06 其他营业费用 0.00 0.00 0.00 0.00 0.00 其他应收款 0.00 0.00 0.00 0.00 0.00 销售和管理费用 36,422.00 42,291.00 43,663.23 45,365.52 47,887.95 预付账款 0.00 0.00 0.00 0.00 0.00 研发费用 31,562.00 39,500.00 42,26
202、8.30 44,489.06 47,839.06 存货 1,170.00 2,670.00 1,798.23 1,959.27 2,113.46 财务费用-1,153.00-1,817.00-1,624.83-2,920.06-4,490.56 其他流动资产 8,020.00 8,105.00 9,238.43 10,174.55 11,096.04 其他经营损益 0.00 0.00 0.00 0.00 0.00 非流动资产非流动资产 171,125.0 200,469.0 182,470.3 164,471.6 146,473.0 投资收益 0.00 0.00 0.00 0.00 0.00
203、长期投资 29,549.00 30,492.00 30,492.00 30,492.00 30,492.00 公允价值变动收益 0.00 0.00 0.00 0.00 0.00 固定资产 97,599.00 112,668.0 95,016.68 77,365.36 59,714.04 营业利润营业利润 79,867.00 76,659.00 81,922.43 97,714.72 111,867.2无形资产 1,417.00 2,084.00 1,736.67 1,389.33 1,042.00 其他非经营损益 10,867.00-5,331.00 3,554.67 3,554.67 3,5
204、54.67 其他非流动资产 42,560.00 55,225.00 55,225.00 55,225.00 55,225.00 利润总额利润总额 90,734.00 71,328.00 85,477.09 101,269.3 115,421.8资产总计资产总计 359,268.0 365,264.0 445,926.3 535,237.5 634,956.4 所得税 14,701.00 11,356.00 14,020.64 16,344.21 18,628.33 流动负债流动负债 64,254.00 69,300.00 80,284.15 87,404.74 94,261.47 净利润净利润
205、 76,033.00 59,972.00 71,456.45 84,925.17 96,793.55 短期借款 0.00 0.00 0.00 0.00 0.00 少数股东损益 0.00 0.00 0.00 0.00 0.00 应付票据及应付账款合6,037.00 5,128.00 7,185.46 7,828.96 8,445.10 归属于母公司净利润归属于母公司净利润 76,033.00 59,972.00 71,456.45 84,925.17 96,793.55 其他流动负债 58,217.00 64,172.00 73,098.69 79,575.78 85,816.37 EBITDA
206、 102,022.0 83,208.00 101,850.9 116,347.9 128,929.9非流动负债非流动负债 43,379.00 39,820.00 39,820.00 39,820.00 39,820.00 EPS(元)6.03 4.76 5.67 6.74 7.68 长期借款 14,817.00 14,701.00 14,701.00 14,701.00 14,701.00 其他非流动负债 28,562.00 25,119.00 25,119.00 25,119.00 25,119.00 负债合计负债合计 107,633.0 109,120.0 120,104.1 127,22
207、4.7 134,081.4 主要财务比率主要财务比率 少数股东权益 0.00 0.00 0.00 0.00 0.00 会计年度会计年度 2021A 2022A 2023E 2024E 2025E 股本 0.00 0.00 1,000.00 2,000.00 3,000.00 成长能力成长能力 资本公积 61,774.00 68,184.00 67,184.00 66,184.00 65,184.00 营业收入(%)41.15 9.78 6.11 10.13 9.06 留存收益 189,861.0 187,960.0 259,416.4 344,341.6 441,135.1 归属于母公司净利润
208、93.26-22.40 20.63 17.29 12.79 归属母公司股东权益 251,635.0 256,144.0 327,600.4 412,525.6 509,319.1 获利能力获利能力 负债和股东权益负债和股东权益 359,268.0 365,264.0 447,704.6 539,750.3 643,400.6 毛利率(%)56.94 55.38 55.39 55.87 56.35 净利率(%)29.51 21.20 23.81 25.69 26.85 ROE(%)30.22 23.41 21.81 20.59 19.00 ROIC(%)55.88 41.80 36.21 47.
209、79 58.93 偿债能力偿债能力 现金流量表(百万元)现金流量表(百万元)资产负债率(%)29.96 29.87 26.93 23.77 21.12 会计年度会计年度 2021A 2022A 2023E 2024E 2025E 净负债比率(%)-49.61-38.67-58.38-70.97-79.47 经营活动现金流经营活动现金流 91,652.00 91,495.00 89,387.39 98,339.29 108,468.3 流动比率 2.93 2.38 3.28 4.24 5.18 净利润 76,033.00 59,972.00 71,456.45 84,925.17 96,793.
210、55 速动比率 2.79 2.22 3.14 4.10 5.04 折旧摊销 12,441.00 13,697.00 17,998.65 17,998.65 17,998.65 营运能力营运能力 财务费用-1,153.00-1,817.00-1,624.83-2,920.06-4,490.56 总资产周转率 0.72 0.77 0.67 0.62 0.57 其他经营现金流 4,331.00 19,643.00 1,557.11-1,664.48-1,833.26 应收账款周转率 6.55 7.03 6.46 6.46 6.46 投资活动现金流投资活动现金流-35,523.0-20,298.02,
211、971.60 2,980.97 2,980.97 每股指标(元)每股指标(元)资本支出-26,896.0-28,042.00.00 0.00 0.00 每股收益(最新摊薄)6.03 4.76 5.67 6.74 7.68 其他投资现金流-8,627.00 7,744.00 2,971.60 2,980.97 2,980.97 每股经营现金流(最新7.27 7.26 7.09 7.80 8.60 筹资活动现金流筹资活动现金流-61,362.0-69,757.0-153.47 185.52 559.17 每股净资产(最新摊薄)19.96 20.31 25.98 32.72 40.39 短期借款 0
212、.00 0.00 0.00 0.00 0.00 估值比率估值比率 长期借款 885.00-116.00 0.00 0.00 0.00 P/E 22.82 28.93 24.28 20.43 17.92 其他筹资现金流-62,247.0-69,641.0-153.47 185.52 559.17 P/B 6.89 6.77 5.30 4.21 3.41 现金净增加额现金净增加额-5,233.00 1,440.00 92,205.52 101,505.7 112,008.5 EV/EBITDA-0.97-0.85-0.23 0.13 0.34 资料来源:公司公告,iFinD,中信建投 47 美股公
213、司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 分析师介绍分析师介绍 于伯韬于伯韬 FRM,香港大学金融学硕士,武汉大学经济学学士,5 年互联网及港股策略卖方从业经历,2021、2020 年新财富港股及海外方向第五名成员,2022 年新浪金麒麟港股及海外市场最佳分析师第三名,2020 年新浪金麒麟港股及海外市场新锐分析师第一名。崔世峰崔世峰 海外研究首席分析师,南京大学硕士,6 年买方及卖方复合从业经历,专注于互联网龙头公司研究,所在卖方团队获得 2019-2020 年新财富传媒最佳研究团队第二名。2022年新财富海外研究最佳研究团队入围。许悦许悦 海外研究员,南洋理工大学硕士,专注于互联
214、网研究,2022 年加入中信建投海外前瞻组。48 美股公司深度报告 谷歌谷歌 A 请参阅最后一页的重要声明 评级说明评级说明 投资评级标准 评级 说明 报告中投资建议涉及的评级标准为报告发布日后 6个月内的相对市场表现,也即报告发布日后的 6 个月内公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A 股市场以沪深300 指数作为基准;新三板市场以三板成指为基准;香港市场以恒生指数作为基准;美国市场以标普 500 指数为基准。股票评级 买入 相对涨幅 15以上 增持 相对涨幅 5%15 中性 相对涨幅-5%5之间 减持 相对跌幅 5%15 卖出 相对跌幅 15以上 行业评级
215、 强于大市 相对涨幅 10%以上 中性 相对涨幅-10-10%之间 弱于大市 相对跌幅 10%以上 分析师声明分析师声明 本报告署名分析师在此声明:(i)以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,结论不受任何第三方的授意或影响。(ii)本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明 本报告由中信建投证券股份有限公司及/或其附属机构(以下合称“中信建投”)制作,由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。中信建投证券股份有限公司具有中国证监会许可
216、的投资咨询业务资格,本报告署名分析师所持中国证券业协会授予的证券投资咨询执业资格证书编号已披露在报告上海品茶。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告上海品茶。一般性声明一般性声明 本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础,不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料,但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告出具日该分析师的判断,该等观点、评估和预测可能在不发出通知的情况下有所变更,亦有可能因使用不同假
217、设和标准或者采用不同分析方法而与中信建投其他部门、人员口头或书面表达的意见不同或相反。本报告所引证券或其他金融工具的过往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基于相应的假设条件,而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况,报告接收者应当独立评估本报告所含信息,基于自身投资目标、需求、市场机会、风险及其他因素自主做出决策并自行承担投资风险。中信建投建议所有投资者应就任何潜在投资向
218、其税务、会计或法律顾问咨询。不论报告接收者是否根据本报告做出投资决策,中信建投都不对该等投资决策提供任何形式的担保,亦不以任何形式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内,中信建投可能持有并交易本报告中所提公司的股份或其他财产权益,也可能在过去 12 个月、目前或者将来为本报告中所提公司提供或者争取为其提供投资银行、做市交易、财务顾问或其他金融服务。本报告内容真实、准确、完整地反映了署名分析师的观点,分析师的薪酬无论过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系,分析师亦不会因撰写本报告而获取不当
219、利益。本报告为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有,违者必究。中信建投证券研究发展部中信建投证券研究发展部 中信建投(国际)中信建投(国际)北京 上海 深圳 香港 东城区朝内大街2 号凯恒中心B座 12 层 上海浦东新区浦东南路528号南塔 2103 室 福田区福中三路与鹏程一路交汇处广电金融中心 35 楼 中环交易广场 2 期 18 楼 电话:(8610)8513-0588 电话:(8621)6882-1600 电话:(86755)8252-1369 电话:(852)3465-5600 联系人:李祉瑶 联系人:翁起帆 联系人:曹莹 联系人:刘泓麟 邮箱: 邮箱: 邮箱: 邮箱:charleneliucsci.hk