《计算机行业大数据系列(二):数据仓库深度分析从Snowflake快速崛起深度解析数仓竞争要素-230922(39页).pdf》由会员分享,可在线阅读,更多相关《计算机行业大数据系列(二):数据仓库深度分析从Snowflake快速崛起深度解析数仓竞争要素-230922(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、 敬请阅读末页的重要说明 证券研究报告|行业深度报告 2023 年 09 月 22 日 推荐推荐(维持)(维持)大数据系列(二):数据仓库深度分析大数据系列(二):数据仓库深度分析 TMT 及中小盘/计算机 数据仓库因数据分析需求涌现而诞生,作为大数据分析的承载底座,将在数字数据仓库因数据分析需求涌现而诞生,作为大数据分析的承载底座,将在数字经济发展中扮演重要角色。本篇报告是我们大数据专题系列第二篇,我们从技经济发展中扮演重要角色。本篇报告是我们大数据专题系列第二篇,我们从技术架构、术架构、OLAP 分类、数据模型、数仓架构演化、新一代云原生数仓发展等多分类、数据模型、数仓架构演化、新一代云原
2、生数仓发展等多方面对数仓发展进行了详细解析;并深度挖掘了方面对数仓发展进行了详细解析;并深度挖掘了 Snowflake 快速崛起背后的核快速崛起背后的核心竞争力与成长潜力,对大数据产业链分析与相关企业筛选起到借鉴意义。心竞争力与成长潜力,对大数据产业链分析与相关企业筛选起到借鉴意义。分析型数据仓库因数据分析需求涌现而诞生分析型数据仓库因数据分析需求涌现而诞生,将,将受益于受益于 BI 需求持续增长。需求持续增长。随着企业对数据价值挖掘需求的涌现,传统 OLTP 事务型数据库存在部门间数据难以打通的问题,产生数据孤岛,为挖掘数据价值带来阻碍。数据仓库能够实现多源数据汇集,以及能够通过数据分层实现
3、解耦合,在不占用业务资源的同时,使其作为 BI 的技术底座,满足客户的数据分析和决策支持。根据Gartner,全球现代 BI 及分析工具市场预计将从 20 年起以 CAGR 为 16%的增速增长至 26 年的 130 亿美元,实现规模翻倍;根据 Modor Intelligence,全球数仓规模将与 BI 需求增长保持一致,2023 年全球数仓规模约为 90.1 亿美元,预计2028年将达到152.5亿美元,2023-2028年复合增长率为11.10%。数仓市场海外新老玩家角逐激烈,国内云厂商占据主导。数仓市场海外新老玩家角逐激烈,国内云厂商占据主导。海外市场,Microsoft、Amazon
4、、Google 等云计算龙头与自身完善的云生态结合,凭借多产品协同效应持续在数仓赛道发力;Oracle、IBM 等老牌关系型数据库龙头,凭借与自身数据库深度结合,在数据仓库方面也保持一定份额。以 Snowflake 为代表的新兴厂商凭借其中立身份、多云支持、算储分离的创新架构带来的弹性收费模式等优势,快速抢占份额,与龙头企业形成竞争与合作并存的发展逻辑。国内市场,对大数据平台需求较高的行业主要包括政府、金融、运营商、互联网等行业,华为、阿里等云厂商凭借在政企、互联网等行业优势,占据主要份额。他山之石:我们对新型云原生数仓企业他山之石:我们对新型云原生数仓企业 Snowflake 快速发展进行深
5、度分析,快速发展进行深度分析,发掘数仓行业竞争要素。发掘数仓行业竞争要素。通过对 Snowflake 的全面分析,我们认为其核心优势包括:1)Snowflake 创新型算储分离架构,使得资源分配更加合理。2)改变传统预先设定规模的模式,算储分离的弹性计费进一步降低使用门槛。3)作为中立的第三方平台,提供多云支持更易受客户青睐。未来数仓逐步向上层未来数仓逐步向上层 BI 应用融合与开辟数据交易市场,成为提升数仓产品应用融合与开辟数据交易市场,成为提升数仓产品价价值重要增量方向:值重要增量方向:1)以数仓为核,向 BI 融合:数据仓库作为 BI 的技术底座,Snowflake 可在高标准化的数据仓
6、库基础上开发直接面向客户、实现数据可视化功能的前端应用,逐步向上层 BI 拓展,有助于进一步提升数仓产品商业价值。2)数据交易提供业务增量:Snowflake 的数据分享功能孕育数据交易市场 Marketplace,目前已有 448 家数据供应商,公司凭借其中立第三方身份,提供跨云数据整合支持,同时交易的数据可在 Snowflake 平台上直接应用存储和计算资源,最终强化其核心业务变现能力。3)紧抓 AIGC 机遇,以数仓助力构建大模型。风险提示:风险提示:技术创新不及预期,数仓行业竞争加剧,大数据发展不及预期影技术创新不及预期,数仓行业竞争加剧,大数据发展不及预期影响数仓行业发展,被数据库、
7、数据湖替代风险。响数仓行业发展,被数据库、数据湖替代风险。行业规模行业规模 占比%股票家数(只)274 5.2 总市值(十亿元)2761.3 3.4 流通市值(十亿元)2264.6 3.2 行业指数行业指数%1m 6m 12m 绝对表现-7.0-11.9 27.8 相对表现-5.4-4.1 33.7 资料来源:公司数据、招商证券 相关相关报告报告 1、数据资产评估产业展望计算 机 行 业 周 观 察20230917 2023-09-17 2、曙光已现,华为计算产业生态加速发展华为产业链深度梳理 2023-09-15 3、华为生态日渐完善,关注产业链相关投资机会计算机行业周观察 20230910
8、2023-09-10 4、筚路蓝缕,星火燎原大数据系列(一):数据库深度复盘与展望2022-02-25 刘玉萍刘玉萍 S02 -20020406080Sep/22Jan/23May/23Aug/23(%)计算机沪深300从从 SnowflakeSnowflake 快速快速崛起崛起深度解析数仓竞争要素深度解析数仓竞争要素 敬请阅读末页的重要说明 2 行业深度报告 正文正文目录目录 一、分析需求增长促数仓快速发展.6 1、分析需求涌现:从数据库到数据仓库.6 2、数仓核心功能一:多源数据汇集,打破数据孤岛.6 3、数仓核心功能二:通过数据分层解耦合,实现业务与分析分离.9 4
9、、实时分析需求快速增长,从离线数仓到实时数仓.10 5、实时数仓架构演进:从 Lambda 到 Kappa、从集中式到云原生.11 二、国外市场新老玩家各具优势,国内市场云厂商占据主导.13 1、数仓作为技术底座,有望受益于 BI 需求增长.13 2、海外市场:新老玩家角逐激烈,同质化较高,以分析能力与生态建设为重要发力方向.14 3、国内市场:与海外厂商差距缩小,云厂商占据主导.19 三、颠覆传统数据仓库市场的 Snowflake.25 1、从算储分离技术创新和业务创新看 Snowflake 崛起.25 2、以数仓为核心,不断扩大功能边界.26 3、架构创新:横跨三大公有云,算储解耦.26
10、4、商业创新:算储分离下,实现单独、弹性计费.27 5、成本优势:Snowflake 存储资源价格优势明显.28 6、财务与业务分析:营收亮眼,规模效应加强,客户留存能力较强.29 四、Snowflake 核心竞争优势及发展启示:高性能、三方身份、网络生态圈 32 1、高性能是数仓重要指标.32 2、专注于数仓的第三方身份更易受客户青睐.32 3、依托网络效应构筑生态护城河.33 4、增长看点一:数据量爆发式增长下,数仓需求快速增长.34 5、增长看点二:以数仓为核,向 BI 融合.35 6、增长看点三:数据交易供增量,强化平台变现能力.36 7、增长看点四:与微软和英伟达合作,共同构建 AI
11、 大模型解决方案.37 风险提示.38 图表图表目录目录 图 1:数据仓将多源数据聚合并进行价值挖掘.7 OYiXuZoYdYnVvXoM9P9R7NpNmMtRpMjMmMvMkPsQpR8OqQuNvPsOuMwMsRyR 敬请阅读末页的重要说明 3 行业深度报告 图 2:事实表与维度表示意图.9 图 3:星型模型与雪花模型示意图.9 图 4:常见的数据分层架构(数据分层:对数据进行层层加工).10 图 5:实时数仓分层架构图.11 图 6:Lambda 架构 vs Kappa 架构.12 图 7:Snowflake 算储分离架构.13 图 8:数仓市场活跃度地图.14 图 9:全球数据仓
12、库及 BI 市场规模(亿美元).14 图 10:Snowflake 前期客户数保持快速增长.15 图 11:Azure Synapse 架构与 Snowflake 类似.16 图 12:Microsoft Azure 云数据生态系统成熟度高,集数据存储、分析、可视化等功能于一体.16 图 13:AWS Redshift 主架构采用 MPP,数据存储在计算节点中.17 图 14:Google BigQuery 架构.18 图 15:IDC 预计 2021-2026 年中国大数据市场规模将翻倍增长.19 图 16:2023-2027 年我国数据仓库软件市场规模预测.19 图 17:星环科技 201
13、6 年进入 Gartner 数据仓库及数据管理解决方案魔力象限(左图);阿里、腾讯 2022 年位列 Gartner 云数据库管理方案魔力象限中(右图).20 图 18:我国数据仓库软件市场厂商份额本地部署模式,2022H2.20 图 19:我国数据仓库软件市场厂商份额公有云模式,2022H2.20 图 20:AnalyticDB 架构.21 图 21:AnalyticDB 在 TPC-DS 性能测试中排名第一.21 图 22:GaussDB(DWS)实时数据分析流程.22 图 23:华为云 FusionInsight 智能数据湖方案围绕数据周期建立.22 图 24:腾讯云数据仓库 Postg
14、reSQL 架构未实现存算分离:存储和计算都在Segment 节点上进行.23 图 25:PostgreSQL 应用场景之辅助经营分析决策.23 图 26:PostgreSQL 应用场景之海量日志分析.24 图 27:公司技术框架从基于开源逐渐演进至高度自研.25 图 28:snowflake 在 3 年内为客户创造 612%的 ROI.25 图 29:2021 年 Snowflake 成功升级为云 DBMS 的领导者.26 图 30:Snowflake 平台的演化:从单一软件到生态系统的初步蜕变.26 敬请阅读末页的重要说明 4 行业深度报告 图 31:Snowflake 的平台部署在全球
15、22 个地区.27 图 32:Snowflake 的云数据平台建立在三大公有云之上,云原生架构中层级分明.27 图 33:Snowflake 实现资源弹性计费.28 图 34:营收规模扩大,产品收入贡献绝大部分营收.30 图 35:净利率,毛利率稳步提升.30 图 36:第三方云服务成本占据高比例营业成本.30 图 37:计算机三费费率大体呈下降趋势.30 图 38:剩余履约合同(RPO)增速快,收入增长可见度高.30 图 39:客户营收规模分布:受大型企业及小规模营收企业青睐.31 图 40:Snowflake 净收入留存率优异.31 图 41:Snowflake 总客户数不断增长.31 图
16、 42:大客户粘性持续增强.31 图 43:Snowflake 命令执行时间标准差较小,性能稳定.32 图 44:Gigaom 部分测试结果,Snowflake 性能表现优异.32 图 45:企业的“多云”策略.33 图 46:55%的企业表明使用2 种公有云服务.33 图 47:2020 年 2 月-7 月,Snowflake 账户之间的数据共享情况.34 图 48:Snowflake 扩大生态合作伙伴圈.34 图 49:全球数据圈每年规模.34 图 50:企业成为数据使用的主要场合.35 图 51:Snowflake 客户中,营收小于 100 万美元的小规模客户比例较低.35 图 52:简
17、化 BI 架构:数据仓库是承上启下的中枢.36 图 53:Snowflake 是数据与 BI 门户间的桥梁.36 图 54:目前 Snowflake Marketplace 平台已经汇聚大量数据提供商.37 图 55:固定月费模式.37 图 56:按次收费模式.37 图 57:英伟达 NeMO 产品框架.38 表 1:数据库和数据仓库的比较.6 表 2:数据仓库架构设计.7 表 3:MOLAP、ROLAP、HOLAP 详解.8 敬请阅读末页的重要说明 5 行业深度报告 表 4:传统业务数据库用于分析的痛点.10 表 5:数据分层优势解析.10 表 6:实时分析应用场景举例.11 表 7:数据仓
18、库持续进化.13 表 8:2017-2021 Snowflake 市场排名快速上升.14 表 9:数据仓库代表玩家发布产品的时间.15 表 10:云数据仓库海外代表产品同质化程度较高.18 表 11:Snowflake 收费模式以“消费”为导向,用多少、付多少.28 表 12:Snowflake 预留付费模式下的存储价格有相对优势.28 表 13:Snowflake 客户覆盖领域广泛.31 敬请阅读末页的重要说明 6 行业深度报告 一、一、分析需求增长促数仓快速发展分析需求增长促数仓快速发展 1、分析需求涌现:从数据库到数据仓库分析需求涌现:从数据库到数据仓库 回顾数据库回顾数据库 70 年发
19、展历程,行业顺应需求变化持续演化。年发展历程,行业顺应需求变化持续演化。根据我们大数据系列第一篇筚路蓝缕,星火燎原大数据系列(一):数据库深度复盘与展望对数据库行业发展的详细梳理:数据库的诞生可追溯至 20 世纪 60 年代,其主要使命为存储、查询及管理数据,当前正处于以关系型数据库与非关系型数据库并行发展的时代。关系型数据库占据主导地位,在企业 ERP、CRM 等核心业务领域被广泛应用。非关系型数据库,包括文档数据库、图形数据库、时序数据库等,在金融反欺诈、智能制造等特定应用场景具有很好的适配性。随着企业对数据分析需求的涌现,传统事务型数据库面临瓶颈,数据仓库应运随着企业对数据分析需求的涌现
20、,传统事务型数据库面临瓶颈,数据仓库应运而生。而生。随着数据规模增长,企业对数据价值挖掘需求快速增长,传统模式下,企业会根据业务需求,将数据存储在不同的数据库中,部门间数据隔阂难以打通,产生数据孤岛,为挖掘数据价值带来阻碍。同时企业需通过分析大量数据以支持经营决策,而主要面向事务处理的传统数据库,其性能难以满足数据分析等进阶需求。为从大量数据中获得洞察以支持企业决策,数据仓库在此背景下诞生。表表 1:数据库和数据仓库的比较:数据库和数据仓库的比较 比较维度比较维度 数据库数据库 数据仓库数据仓库 定义不同定义不同 侧重于 OLTP 事务型处理,针对具体业务,通常对记录进行查询、修改。OLTP
21、重在事务处理,主要面向交易过程,强调实时性和稳定性,常应用于 EPR、CRM、OA 等业务系统 侧重于 OLAP 分析型处理,一般针对某些主题的历史数据分析。OLAP 重在分析处理,主要对 OLTP 存储的数据进行后期分析以辅助决策 目的不同目的不同 存储、捕获数据 为分析数据、支持决策而创建 面向对象不同面向对象不同 面向事务:操作型数据库各业务系统间存在隔离,通常与某些特定应用相关,且是异构的 面向主题、集成的:主题指使用数仓进行决策时关心的重点方面,一个主题常与多个操作型数据库有关。数据仓库是多个异构的数据源有效集成,集成后按照主题进行重组。保证数仓内信息是关于整个企业一致的全局信息。数
22、据关注的时间数据关注的时间维度不同维度不同 关注当下时间点:存储瞬间数据 关注历史时间段:存储历史数据,反映历史变化 操作类型不同操作类型不同 更新、删除操作频繁:数据通常实时更新 定期加载、刷新:数仓的数据所涉及操作主要是查询,而修改和删除操作很少,通常只需定期的加载、刷新 资料来源:javatpoint、招商证券 2、数仓核心功能一:多源数据数仓核心功能一:多源数据汇集,打破数据孤岛汇集,打破数据孤岛 数据仓库有效打破原有数据孤岛,建立集中存储机制。数据仓库有效打破原有数据孤岛,建立集中存储机制。企业往往会根据业务需求而存在多种数据库,而数据库由于架构不同、存储容量限制等因素,在数据集中存
23、储、跨库操作等环节存在诸多问题。数据仓库是将来自不同来源的数据聚合到集中且一致的数据存储系统中,并解决传统关系型数据库无法跨库操作的问题,其功能集中于从其他来源提取、清理和准备数据,以及在关系数据库中加载和维护数据,并通过数据挖掘、人工智能等技术进行数据价值分析。数据仓库从架构设计来看,分为底层多元异构数据汇聚层、中层 OLAP 处理层和顶层数据应用层。敬请阅读末页的重要说明 7 行业深度报告 图图 1:数据仓将多源数据聚合并进行价值挖数据仓将多源数据聚合并进行价值挖掘掘 资料来源:brain station、招商证券 表表 2:数据仓库架构设计:数据仓库架构设计 架构架构 详细详细 底层底层
24、 底层一般由多个业务库组成(关系数据库),通过 ETL 过程对多个业务库数据进行提取、清洗、转换等操作。中层中层 中层主要为 OLAP 库,可实现数据的快速分析。OLAP 架构一般分为ROLAP、MOLAP、HOLAP 三种,具体根据业务需求进行选择。顶层顶层 顶层为前端数据应用层,根据数据分析结果生成报表等帮助管理层做辅助决策。资料来源:腾讯云、dataversity、招商证券 底层:数据仓库通过底层:数据仓库通过 ETL 过程实现多源数据汇聚。过程实现多源数据汇聚。数据仓库对多源数据进行采集,并经过数据分层处理,得到统一的、规范的数据后可以进行大数据分析,其核心是把数据从 OLTP 过程转
25、换到 OLAP 平台的一个过程。其中需要对数据进行操作和建模,这个过程统称为 ETL(Extract-Transform-Load),主要是指将源数据经过抽取、清洗转换之后加载到数据仓库,目的是将业务库中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供数据基础。中层:中层:数据存储和处理方式数据存储和处理方式层面看,层面看,HOLAP 混合型成为重要方向。混合型成为重要方向。数据仓库主要因分析型 OLAP 需求而诞生,其实现路径主要包括 MOLAP、ROLAP、HOLAP,目前正朝着 HOLAP 混合型方向发展。OLAP 有多种实现方法,根据存储数据的方式不同可以分为 ROLAP、M
26、OLAP,以及将前两者取长补短的HOLAP。目前,OLAP 发展更偏向于 HOLAP,因为大厂既不想丢弃一直使用的关系型数据库,又想在数据分析能力上获得进一步提升,所以 HOLAP 方向成为更好的选择。敬请阅读末页的重要说明 8 行业深度报告 表表 3:MOLAP、ROLAP、HOLAP 详解详解 分类分类 详细详细 优劣势优劣势 适用场景适用场景 MOLAP:基于多维基于多维数据组织数据组织的的 OLAP 需要对原始数据进行预计算得到需要的所有结果,并将其存储到优化过的多维数组存储 优势:优势:1)查询时无需进行复杂计算,且以数组形式可以进行高效的免索引数据访问,用户发起的查询均能够稳定地快
27、速响应。2)最后存储的预处理数据为高度聚合化,可以进行压缩等操作来减少存储占用空间。劣势:劣势:1)需要进行预计算,存储需要花费较多时间,无法保证数据的实时性 2)如果需要发生变化,需要进行预定模型之外新的查询操作,需要重新进行建模和预计算,不具有灵活性。适用于查询场景相对固定并且对查询性能要求非常高的场景。如广告主经常使用的广告投放报表分析。ROLAP:基于关系基于关系型数据库型数据库的的 OLAP 直接将原始数据同步,无需预计算,在每次查询时进行即时计算。优势:优势:1)无需进行数据预处理,查询灵活,可扩展性更好。2)数据入库效率更高,可以保证数据的实时性 劣势:劣势:在查询计算较为复杂的
28、场景下,需要较长时间返回结果。本质上,ROLAP 是把 MOLAP 预计算所需的时间分摊到了用户的每次查询上,会影响用户实时查询体验,并消耗较多算力资源。适用于对查询模式不固定、灵活性要求高的场景。如数据分析师的数据分析类产品,会对数据做各种预先不能确定的分析,所以需要更高的查询灵活性。HOLAP:混合数据混合数据组织的组织的OLAP 将MOLAP和ROLAP优点互补,对于频繁而稳定但又耗时的查询,通过预计算来提速;对于运算较少、发生次数较少或新的查询需求,像ROLAP 一样直接通过计算来提取。优势:优势:结合了 MOLAP 和 ROLAP 的优势之处,并且提供了聚合数据的快速查询。同时因为它
29、仅将聚合信息存储在OLAP 服务器上,而详细记录保留在关系数据库中。因此,减少了数据冗余,平衡了磁盘空间需求。劣势:劣势:需要同时支持 MOLAP 与 ROLAP,导致架构更为复杂,维护难度也更高。具有通用性 资料来源:javatpoint、CSDN、招商证券 中层:数据建模层面看,从实体中层:数据建模层面看,从实体-关系模型走向星型关系模型走向星型/雪花型。雪花型。数据仓库通过数据建模,将数据进行关联,主要基于事实表与维度表,通过事实表将各个维度表进行关联,从而建立完整的数据模型。其中事实表事实表是指处于数据结构的中心,存储某种业务各个维度的数据,其中各个维度一般都是对应编码,其本质可以理解
30、为关注的内容索引列表;维度表维度表可以看作是事实表的发散表,对应着事实表里面的每一个维度。根据业务需要,可以选择需要的细分维度进行分析关联。本质为将分析目标的多维度内容进行存储。数据仓库的数据模型根据事实表与维度表的关系可以分为星型(Star)与雪花(Snowflake)模型。星型模型星型模型中所有维度表直接与事实表关联,不存在渐变维度,有一定数据冗余产生;雪花雪花模型模型中有一个或多个维表没有直接连接到事实表,而是通过其他维表连接到事实表上,对星型模型的维表进一步层次化,雪花模型是对星型模型的扩展。敬请阅读末页的重要说明 9 行业深度报告 图图 2:事实表与维度表:事实表与维度表示意图示意图
31、 资料来源:腾讯云开发者社区、招商证券 图图 3:星型模型与雪花模型示意图星型模型与雪花模型示意图 资料来源:腾讯云开发者社区、招商证券 3、数仓核心功能二:通过数据分层解耦合,实现业务与分数仓核心功能二:通过数据分层解耦合,实现业务与分析分离析分离 为了防止数据分析对业务数据库的干扰,数据仓库另一核心功能为解耦合:为了防止数据分析对业务数据库的干扰,数据仓库另一核心功能为解耦合:即通过建立数据仓库达到业务处理与数据分析分离的目的。数据仓库除了将异构数据库汇集,解决跨库操作的难题外,将分析与业务解耦,也解决了传统数据库对于分析的诸多痛点。敬请阅读末页的重要说明 10 行业深度报告 表表 4:传
32、统业务数据库用于分析的痛点:传统业务数据库用于分析的痛点 痛点痛点 详细详细 结构复杂、大规模查询困难 一般业务库会以尽可能简洁的方式进行存储,表与表之间存在大量关联索引,如进行大规模分析时,查询需要花费大量时间,并占用较高的资源,可能会影响正常业务操作。数据不完善影响分析结果 在业务过程中可能由于系统故障等原因产生一些偏差数据,如果每次分析都对所有数据进行预处理,需要耗费大量时间与资源;不做处理,会导致分析误差加大,影响管理层决策判断。无法提供足够的历史数据 为了保证数据库对业务的实时响应效率,一般不会存储很长历史的数据,无法满足分析需要大量历史数据的回溯。资料来源:帆软、CSDN、招商证券
33、 数据分层是帮助数据仓库实现解耦合能力的关键,避免了因为数据分析而干扰数据分层是帮助数据仓库实现解耦合能力的关键,避免了因为数据分析而干扰数据库的业务操作。数据库的业务操作。由于数据仓库需要进行大量数据分析操作,通过建立数据分层,可以避免用户直接使用操作型数据,并更高效的访问数据;同时,如果业务发生变化,只需要根据需要调整底层数据,使得业务调整并不会对应用层产生影响。表表 5:数据分层优势解析:数据分层优势解析 分层优势分层优势 详细详细 结构清晰 每一个数据分层都有它的作用域和职责,在使用表的时候能更方便地定位和理解 减少重复计算 通过通用的中间层数据,能够减少极大的重复计算 统一数据口径
34、提供统一的数据出口,统一对外输出的数据口径 简化问题 将复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。当数据出现问题之后,不用修复所有的数据,只需要从有问题的步骤开始修复。资料来源:帆软、CSDN、招商证券 图图 4:常见的数据分层架构(常见的数据分层架构(数据分层:对数据数据分层:对数据进行层层加工进行层层加工)资料来源:CSDN、招商证券 4、实时分析需求实时分析需求快速快速增长增长,从离线数仓到实时数仓,从离线数仓到实时数仓 敬请阅读末页的重要说明 11 行业深度报告 大数据时代下业务场景不断丰富,实时分析的需求快速增长,传统离线数仓的批大数据时代下业务场景
35、不断丰富,实时分析的需求快速增长,传统离线数仓的批处理引擎难以满足数据分析的实时性要求,以流处理为核心的实时数仓快速发展:处理引擎难以满足数据分析的实时性要求,以流处理为核心的实时数仓快速发展:离线数仓擅长深度复杂的分析,但耗时较长无法满足实时性需求。离线数仓擅长深度复杂的分析,但耗时较长无法满足实时性需求。传统的离线数仓主要采用批处理计算引擎,其优点为对于业务逻辑复杂、数据规模有限的场景下,具有更好的数据挖掘能力,可以获得更优质的分析结果。但其运算耗时较长,时间跨度通常为分钟级到小时级,因此难以满足实时分析的要求。流处理模式强调处理速度,是构建实时数仓的核心计算引擎。流处理模式强调处理速度,
36、是构建实时数仓的核心计算引擎。实时计算一般采用流处理引擎,与离线计算相比,流处理减少了数据落地环节,实时对每个新到达的数据或者比较小的窗口数据进行计算,其分析计算量相对较小,使其可以在毫秒级到秒级完成,使时延可以达到实时系统要求。目前,实时数仓主要以 Lambda 架构(离线+实时混合)与 Kappa 架构(纯实时)为主。图图 5:实时数仓实时数仓分层架构图分层架构图 资料来源:cnblogs、招商证券 表表 6:实时分析应用场景举例实时分析应用场景举例 场景场景 具体具体 实时智能推荐 智能推荐会根据用户历史的购买或浏览行为,通过推荐算法训练模型,预测用户未来可能会购买的物品或喜爱的资讯。随
37、着互联网快速发展,用户对时延的要求越来越高,通过建立实时数仓,对用户指标进行实时预测,并将预测的信息推送给 Web/App 端,帮助用户获取想要的资讯,有助于帮助企业提升销售额,创造更大的商业价值。实时欺诈检测 在金融业务中,常常出现各种类型的欺诈行为,例如信用卡欺诈,信贷申请欺诈等。随着欺诈手段的不断升级,传统的反欺诈监测往往需要数小时才能通过交易数据计算出用户的行为指标,然后通过规则判别出具有欺诈行为嫌疑的用户,对于实效性大打折扣。而运用实时数仓的流式计算能够在毫秒内就完成对欺诈行为判断指标的计算,然后实时对交易流水进行实时拦截,避免因为处理不及时而导致的经济损失。舆情分析 有的客户需要做
38、舆情分析,要求所有数据存放若干年,舆情数据每日数据量可能超百万,年数据量可达到几十亿的数据。而且爬虫爬过来的数据是舆情,通过大数据技术进行分词之后得到的可能是大段的网友评论,客户往往要求对舆情进行查询,做全文本搜索,并要求响应时间控制在秒级。爬虫将数据爬到大数据平台的 Kafka 里,在里面做 Flink 流处理,去重去噪做语音分析,写到 ElasticSearch 里。大数据的一个特点是多数据源,大数据平台能根据不同的场景选择不同的数据源。资料来源:cnblogs、招商证券 5、实时数仓架构演进:从实时数仓架构演进:从 Lambda 到到 Kappa、从集中式到、从集中式到云原生云原生 敬请
39、阅读末页的重要说明 12 行业深度报告 (1)从从 Lambda 到到 Kappa Lambda 由于同时采用离线与实时两套计算引擎,其架构复杂性大幅提升,也由于同时采用离线与实时两套计算引擎,其架构复杂性大幅提升,也带来一系列问题:带来一系列问题:1)一个架构需要两套代码,维护繁琐)一个架构需要两套代码,维护繁琐。基于实时与离线两套架构,需要对两套代码分别修改,独立测试,同步上线,整体开发、维护难度较高。2)资源占用较高)资源占用较高。两套逻辑需要计算两次,系统资源占用较高。3)实时与离线引擎数据处理差异,易混淆实时与离线引擎数据处理差异,易混淆。由于流处理引擎尚不完善,离线处理会对实时处理
40、的结果再次计算,最后以离线处理为准,数据频繁变更,容易引起混乱。随着 Flink 等流处理引擎逐步成熟,采用纯实时计算的 Kappa 架构出现,解决了两套代码问题,但由于采用全流处理流,其吞吐能力弱于 Lambda。因此,在真实的场景中,很多时候采用 Lambda 与 Kappa 混合架构,比如大部分实时指标使用 Kappa 完成计算,少量关键指标(如金额)使用 Lambda 架构用批处理重新计算,增加一次校对过程。图图 6:Lambda 架构架构 vs Kappa 架构架构 资料来源:cnblogs、CSDN、招商证券(2)从集中式到云原生从集中式到云原生 顺应市场需求变化是数据仓库发展的核
41、心驱动力,目前正处于向云原生算储分顺应市场需求变化是数据仓库发展的核心驱动力,目前正处于向云原生算储分离方向发展。离方向发展。1)初代数仓采用集中式部署)初代数仓采用集中式部署,其扩展成本高昂,且存在瓶颈,随着企业业务数据爆发式增长,集中式部署存在明显瓶颈;2)第二代数仓采)第二代数仓采用用 Hadoop 等分布式开源框架等分布式开源框架,相较于集中式部署,其具有灵活扩展能力,对于算力与存储容量等方面均有大幅提升;3)随云计算的普及,第三代数仓)随云计算的普及,第三代数仓向云托管发展向云托管发展,扩展能力与运维成本更加友好,但数据仓库架构仍未解决存算一体化的根本问题:使用存算耦合架构时,两种资
42、源互相影响,需同步扩/缩容,无法根据需求灵活、合理匹配资源,经常造成资源的浪费和闲置。以以 Snowflake 为代表的第四代云原生数据仓库,采用算储分离架构,使得资为代表的第四代云原生数据仓库,采用算储分离架构,使得资源分配更加合理源分配更加合理。Snowflake 基于云原生的数据仓库平台,首创“存算分离,支持单独扩展”,实现两种资源的“弹性使用”,使得企业可以根据自身业务需 敬请阅读末页的重要说明 13 行业深度报告 求,对存储容量与计算资源进行合理分配,并通过数据仓库平台为企业提供存储、访问及数据分析能力。表表 7:数据仓库持续进化:数据仓库持续进化 第一代:第一代:本地集中部署本地集
43、中部署 第二代:第二代:本地分布式部署本地分布式部署 第三代:第三代:云托管云托管 第四代:第四代:云原生云原生 软硬一体架构 扩展性有限 扩容成本高昂 基于 Hadoop、Hive、Spark 等开源分布式架构 适配百 BP 级数据计算 灵活扩展 按需分配云资源 扩容能力大幅提升 更低的扩容成本 运维成本降低 算储分离,资源分配更合理 更低的成本,数据分析门槛进一步降低 更高的并发性能与更低的延迟 资料来源:CSDN、招商证券 图图 7:Snowflake 算储分离架构算储分离架构 资料来源:Snowflake 招股书、招商证券 二、二、国外市场新老玩家各具优势,国内市场国外市场新老玩家各具
44、优势,国内市场云厂商占云厂商占据主导据主导 1、数仓作为技术底座,有望受益于数仓作为技术底座,有望受益于 BI 需求增长需求增长 数据仓库是数据仓库是 BI 的技术底座,有望受益于的技术底座,有望受益于 BI 需求增长。需求增长。数据仓库根据 Gartner等官方定义:即多个数据库上的大容量存储库,它的作用在于存储大量的结构化数据,并能进行频繁和可重复的分析,帮助企业构建商业智能(BI)。可以理解数仓即 BI 的技术底座,通过从多源数据库系统提取数据,进行清洗、转换、标准化等操作,将数据加载到 BI 平台,进而满足业务用户的数据分析和决策支持。现代现代 BI 及分析工具细分赛道领涨商业及分析工
45、具细分赛道领涨商业智能市场大类。智能市场大类。根据 Gartner,现代 BI及分析工具市场 2015 年和 2019 年增速分别为 63.6、17.9,均为大类中增长最快类别;预计全球现代BI及分析工具市场将从20年起以CAGR为16%的增速增长至 26 年的 130 亿美元,实现规模翻倍。据研究机构 Modor Intelligence 预计,全球数仓规模将与 BI 需求增长保持一致,2023 年全球数仓 敬请阅读末页的重要说明 14 行业深度报告 规模约为 90.1 亿美元,预计 2028 年将达到 152.5 亿美元,2023-2028 年复合增长率为 11.10%,其中以中国为代表的
46、亚洲地区将是主要增长驱动力。我们认为未来企业产生的数据将继续呈爆发式增长,随之而来的是企业从海量我们认为未来企业产生的数据将继续呈爆发式增长,随之而来的是企业从海量数据中获取洞察以辅助决策的需求增长。对数据中获取洞察以辅助决策的需求增长。对 BI 应用的落地场景将不断丰富,应用的落地场景将不断丰富,作为其技术底座的数据仓库应用亦将持续受益于前端作为其技术底座的数据仓库应用亦将持续受益于前端 BI 的增长的增长。图图 8:数仓市场活跃度地图数仓市场活跃度地图 图图 9:全球数据仓库及全球数据仓库及 BI 市场规模(亿美元)市场规模(亿美元)资料来源:Modor Intelligence、招商证券
47、 资料来源:Modor Intelligence、招商证券 2、海外市场:新老玩家角逐激烈,同质化较高,以分析能海外市场:新老玩家角逐激烈,同质化较高,以分析能力与生态建设为重要发力方向力与生态建设为重要发力方向 数据库云化是行业发展重要趋势。数据库云化是行业发展重要趋势。Gartner 研究显示,2018 年全球数据库管理系统收入增长 18.4(其中云数据库管理系统收入增长 68%),达到 460 亿美元。到 2022 年,75%的数据库都将部署或者迁移到云数据平台;到 2023年,云数据库管理系统收入将占数据库管理系统市场总收入的 50%。传统科技巨头布局较早,凭借其完善的生态,占据大量市
48、场份额。传统科技巨头布局较早,凭借其完善的生态,占据大量市场份额。Microsoft、AWS 等云服务龙头凭借在云数据库布局,并通过自身客户规模与完善的生态在云数据仓库市场取得较高份额;Oracle、IBM、SAP 等老牌关系型数据库龙头,凭借在数据库领域的先天优势,在数据仓库方面也取得领先优势。以以 Snowflake 为代表的新势力快速崛起。为代表的新势力快速崛起。以 Snowflake 为代表的新兴厂商具备以下优势:1)支持多云灵活部署。)支持多云灵活部署。Snowflake 把自身架构同时部署于三大公有云之上,根据Snowflake CFO,截止22年7月AWS承载Snowflake
49、80+%的工作负载,其余 18%分布在 Azure 上,2%分布在 Google Cloud Platform上,在多云支持方面具备优势。2)算储分离新型架构。)算储分离新型架构。Snowflake 率先采用算储分离弹性架构,在成本端更具优势,具有先发优势,在前期快速抢占市场份额。而传统厂商主要基于 MPP 架构,对存量的架构升级投入较大,具有一定滞后性。表表 8:2017-2021 Snowflake 市场排名快速上升市场排名快速上升 2017 2021 排名 厂商 份额 排名 厂商 份额 1 Oracle 36.1%1 Microsoft 24.0%268.1424.990.1152.50
50、050020232028BI数仓CAGR:11.10%CAGR:9.65%敬请阅读末页的重要说明 15 行业深度报告 2 Microsoft 21.5%2 AWS 23.9%3 IBM 12.7%3 Oracle 20.6%4 AWS 9.2%4 Google 6.5%5 SAP 7.4%5 IBM 5.6%29 Snowflake-13 Snowflake-资料来源:Gartner、墨天轮、招商证券 表表 9:数据仓库代表玩家发布产品的时间数据仓库代表玩家发布产品的时间 产品产品 初始版本发布时间初始版本发布时间 Google BigQuery 2010 Amazon
51、Redshift 2013 Snowflake 2014 Microsoft Azure Synapse 前身 Azure SQL Data Warehouse 于 2016年发布,Synapse 于 2019 年发布 资料来源:Gartner、HG Insights、IDC、Wiki、墨天轮、招商证券 图图 10:Snowflake 前期客户数保持快速增长前期客户数保持快速增长 资料来源:Snowflake 招股书、招商证券(1)微软微软 Azure Synapse:可实现多源数据集成可实现多源数据集成,聚焦上层,聚焦上层 BI 应用应用 Azure Synapse聚 焦 上 层聚 焦 上
52、层BI应 用。应 用。2016年Azure SQL Data Warehouse(Azure Synapse 的前身)诞生。2019 年底微软宣布将 SQL Data Warehouse 升级为数据仓库+数据分析一体化平台。Synapse 可实现多源数据集成:可以将本地数据、私有云/公有云数据、SaaS 等多种数据源加载到Synapse中。与Snowflake相比,Synapse更聚焦于上层的BI应用;且Synapse与微软生态中其他应用协同,云数据生态系统成熟度高。Synapse 可与 Power BI 实现数据的可视化;与 Azure Machine Learning、SQL 和 Spar
53、k 深度集成以训练机器模型。948239241395944152%73%44%0%20%40%60%80%100%120%140%160%004000500060007000FY2019FY2020FY2021FY2022客户数YoY 敬请阅读末页的重要说明 16 行业深度报告 图图 11:Azure Synapse 架构与架构与 Snowflake 类似类似 资料来源:Microsoft Azure 官网、招商证券 图图 12:Microsoft Azure 云数据生态系统成熟度高,集数据存储、分析、可视化等功能于一体云数据生态系统成熟度高,集数据存储、分析、可视化等功
54、能于一体 资料来源:Microsoft Azure 官网、招商证券(2)Amazon:AWS Redshift 引入引入 RA3 节点实现存算分离节点实现存算分离 AWS Redshift拥有庞大的拥有庞大的Amazon生态作为支撑,与生态作为支撑,与AWS产品等无缝连接。产品等无缝连接。作为 Amazon Web Services(AWS)生态系统的一部分,Redshift 数据仓库服务提供了诸如将用户数据从数据湖中导出,并与其他平台(如:Salesforce、Google Analytics、Facebook Ads、Slack、Jira、Splunk、以及 Marketo)相集成等服务。
55、此外,Redshift 仓库服务使用列式存储、数据压缩、以及区域映射,来实现高性能和高效存储。与其他云原生数据仓库相比,Redshift 劣势在于维护难度较大。Redshift 需要大量手动维护,且需要有一定 AWS 架构知识的人员监控集群以提高性能。Redshift 迎合行业“存算分离”趋势较慢。迎合行业“存算分离”趋势较慢。由于 AWS Redshift 本身采用 MPP架构,即存储与计算共享一个节点,数据存储在计算节点中(下图中红框)。随其他巨头数仓产品相继效仿 Snowflake 采取创新架构,而未实现存算解耦的Redshift 受到诟病颇多。为迎合客户需求与行业趋势,Redshift
56、 后于 2019 年底引入节点“RA3”实现存算分离,支持存储和计算资源的独立拓展。敬请阅读末页的重要说明 17 行业深度报告 图图 13:AWS Redshift 主架构采用主架构采用 MPP,数据存储在计算节点中,数据存储在计算节点中 资料来源:AWS Redshift、招商证券(3)Google:BigQuery 特有元素鲜明,生态完善特有元素鲜明,生态完善 云原生数据仓库云原生数据仓库 BigQuery,源自谷歌内部工具的整合。,源自谷歌内部工具的整合。起初,Google 发明工具 Colossus,Jupiter 和 Dremel 以解决海量数据的存储和查询需求,且仅供内部使用。其中
57、 Dremel 是 BigQuery 的查询执行引擎,高度可扩展的系统,旨在对 PB 级数据集处理;Colossus 是分布式文件系统,用于数据的备份;Jupiter 网络是 Colossus 存储和 Dremel 执行引擎之间的桥梁。后 Google 将这些工具整合到谷歌云平台上并对外产品化,更名 BigQuery。BigQuery 基于谷歌强大的技术与生态加持,在机器学习、大数据分析等方面基于谷歌强大的技术与生态加持,在机器学习、大数据分析等方面具有较强优势。具有较强优势。其中 BigQuery ML:使用 SQL 即可进行机器模型的训练和使用,目前支持包括 K-means、深度神经网络等
58、 10 种模型;BigQuery GIS:实现对地理空间分析的原生支持,进而挖掘位置信息价值;高级分析功能BigQuery BI Engine:允许用户以互动方式分析 BigQuery 中大型数据集。大数据生态系统集成:BigQuery 借助 Dataproc 和 Dataflow,实现与 Apache 大数据生态系统的集成,Hadoop/Spark 能够使用 Storage API 直接从 BigQuery 读写数据。敬请阅读末页的重要说明 18 行业深度报告 图图 14:Google BigQuery 架构架构 资料来源:Google、招商证券 数据仓库产品功能具有一定同质化,以机器学习为
59、核心的分析能力与生态建设数据仓库产品功能具有一定同质化,以机器学习为核心的分析能力与生态建设是重要发力方向:是重要发力方向:海外云数据仓库产品功能同质化较高:海外云数据仓库产品功能同质化较高:Snowflake 率先实现存算分离掀起行业变革浪潮,巨头纷纷效仿,优化自身架构,均以实现存算弹性化;提升以机器学习为核心的分析能力是各厂商重要的发力方向,科技巨头与自身技术积累结合,Snowflake 则是选择与第三方平台(Zepl)等进行合作。科技巨头数仓可以与自身生态无缝集成,具备先天优势:科技巨头数仓可以与自身生态无缝集成,具备先天优势:亚马逊、谷歌及微软等凭借完善的生态体系,与其数仓产品进行功能
60、协同,增加各自数仓的竞争力,提供与其他产品无缝衔接的使用体验,具有先天优势;Snowflake 也在通过Snowflake Partner Connect 的合作伙伴,不断强化自身生态建设。表表 10:云数据仓库海外代表产品同质化程度较高:云数据仓库海外代表产品同质化程度较高 功能功能 AWS-Redshift Google-BigQuery Micorsoft Azure-Synapse Snowflake 数据处理能力 PB 级别 PB 级别 PB 级别 PB 级别 存储空间和计算空间的独立拓展能力 否 是 是 是 弹性(根据工作负载上下调整计算能力)是 是 是 是 自动暂停和恢复(在没有
61、查询需求时自动停止)否 不适用(Serverless 架构无需客户控制)是 是 分析及机器学习能力 Amazon Sagemaker(可大规模快速构建、训练和部 署 ML 模 型)、Amazon Redshift ML 用户可通过SQL语句执行机器学习模型 提供原生“PREDICT”语句,该语句可以对在Apache Spark 或等框架中训练的机器学习模型评分,无需执行大规模数据移动 本身不能运行机器学习、没有专门的机器学习组件,但与第三方数据分析平台(如 Zepl)进行集成以提供该功能 敬请阅读末页的重要说明 19 行业深度报告 集成能力 与 AWS 一系列服务集成,包括 Kinesis D
62、ata Firehose,SageMaker,EMR,Glue,DynamoDB等 与Google Cloud Platform 一系列服务集成 与其他 Azure 产品轻松集成 集成能力有限,可以通过其他入口集成部分Amazon服务,例如使用Snowpipe将AWS上的数据导入到Snowflake 数据仓库部署地区数量 24 个,分布于美洲、欧洲、亚太地区、中东及非洲 34 个,分布于美洲、欧洲、亚太地区、中东及非洲 60 余个,分布于美洲、欧洲、非洲及亚太地区 22 个,分布于北美洲、欧洲及亚太地区 用户对平台的管理和维护难度 成本较高、难度较大,需要 AWS 架构知识 维护负担低,近乎为
63、 0,Google 负责运维 维护负担低 维护负担低,管理和运维成本几乎为0,Snowflake 负责运维 资料来源:各公司官网、招商证券 3、国内市场:与海外厂商差距缩小,云厂商占据主导国内市场:与海外厂商差距缩小,云厂商占据主导 中国大数据软件规模占比与海外仍有较大差距,“十四五”期间有望快速发展。中国大数据软件规模占比与海外仍有较大差距,“十四五”期间有望快速发展。根据 IDC,2021 年全球大数据市场的 IT 总投资规模为 2,176.1 亿美元,并有望在 2026 年增至 4,491.1 亿美元,2021-2026 年 CAGR 约为 15.6%;中国市场方面,2022 年中国大数
64、据市场总体 IT 投资规模约为 170 亿美元,并将在2026 年增至 364.9 亿美元,实现规模翻倍。与全球总规模相比,中国市场在五年预测期内占比持续增高,有望在 2024 年超越亚太(除中日)总和,并在2026 年接近全球总规模的 8%。作为大数据市场中高增长细分赛道头部选手,数据仓库具有较强成长潜力。作为大数据市场中高增长细分赛道头部选手,数据仓库具有较强成长潜力。数据分析需求在海量数据时代不断增长,大数据技术是满足数据分析需求的有利工具,其核心在于从海量数据中挖掘价值,而数据挖掘与分析链条的第一环即是数据仓库。我们认为数据仓库成长空间有望与数据分析需求市场空间保持同比例增幅。根据 I
65、DC 2022 年下半年中国数据仓库软件市场跟踪报告,2022年中国数据仓库软件市场规模为 8.7 亿美元,同比增长 23.7%。其中,本地部署数据仓库软件规模为 4.6 亿美元,同比增长 12.5%;公有云数据仓库软件规模为 4.1 亿美元,同比增长 39.3%。到 2027 年,中国数据仓库软件市场规模预计将达到 27.3 亿美元,2022-2027 的 5 年市场年复合增长率(CAGR)为25.7%。图图 15:IDC 预计预计 2021-2026 年中国大数据市场规模将翻年中国大数据市场规模将翻倍增长倍增长 图图 16:2023-2027 年我国年我国数据仓库软件市场规模预测数据仓库软
66、件市场规模预测 资料来源:IDC、招商证券 资料来源:IDC、招商证券 敬请阅读末页的重要说明 20 行业深度报告 Gartner 魔力象限显示中国厂商实力不断增强,与海外巨头差距正持续缩小。魔力象限显示中国厂商实力不断增强,与海外巨头差距正持续缩小。2016 年星环科技进入 Gartner 数据仓库和数据管理魔力象限的远见者象限,在前瞻性维度上优于 Cloudera、Hortonworks 等美国主流大数据平台厂商,是国内第一家入选厂商;2017 年华为云入选,2018 年阿里云入选,2021 年阿里云已进入云数据库管理系统的领导者象限。与海外相似,在国内数仓竞争与海外相似,在国内数仓竞争中
67、,云厂商占据主导。中,云厂商占据主导。根据 IDC,国内市场对大数据平台需求较高的行业主要包括政府、金融、运营商、互联网等行业。1)传统政企、金融等领域对于大数据建设的关注点在于软硬件的高度集成,安装部署实施运维服务,以及在大数据平台之上的数据分析应用,其中华为云具备完善的产品体系以及在政企等大客户积累广泛,具有较强竞争优势;2)互联网行业,用户的关注点在于弹性可扩展、性能、成本与性价比,并且对最前沿的技术高度关注,阿里云凭借其在公有云上积累的大批互联网行业用户,牢牢占据公有云数仓主要份额;3)亚马逊云科技则依托智能湖仓一体、全面丰富的数据管理及分析产品组合在中国市场获得大批公有云用户。图图
68、17:星环科技星环科技 2016 年进入年进入 Gartner 数据仓库及数据数据仓库及数据管理解决方案魔力象限管理解决方案魔力象限(左图);阿里、腾讯(左图);阿里、腾讯 2022 年位年位列列 Gartner 云数据库管理方案魔力象限中(右图)云数据库管理方案魔力象限中(右图)资料来源:Gartner、招商证券 图图 18:我国我国数据仓库软件市场厂商份额数据仓库软件市场厂商份额本地部署模本地部署模式,式,2022H2 图图 19:我国数据仓库软件市场厂商份额我国数据仓库软件市场厂商份额公有云模式,公有云模式,2022H2 资料来源:IDC、招商证券 资料来源:IDC、招商证券 敬请阅读末
69、页的重要说明 21 行业深度报告 (1)阿里:阿里:AnalyticDB 精细打磨,性能不凡精细打磨,性能不凡 AnalyticDB 是经阿里巴巴内部精细打磨的云原生数据仓库,性能超前。是经阿里巴巴内部精细打磨的云原生数据仓库,性能超前。2012年 AnalyticDB 在集团内部上线,2014 年借助阿里云正式对外输出。2019 年、2020年均被全球知名的数据管理系统评测标准化TPC组织评为全球最快的实时数据仓库。其架构主要分为 3 部分:1)数据库级别服务组件:包括前端节点、计算节点和缓冲节点。2)集群级别服务组件:包括一系列面向开发人员、管理人员的服务。3)数据模型:分为事实表组和维度
70、表组,数据模型是支撑其实现单数库 PB 级数据实时分析能力的关键,阿里云上某客户曾单日分析查询超过 1 亿次。AnalyticDB 自研核心技术领先业界:自研核心技术领先业界:1)高性能 SQL Parser:曾经的主流 SQL语法解析器 Antlr,JavaC 无法满足 AnalyticDB 需求,阿里巴巴引入自研组件FastSQL 提高查询与实时写入能力。2)玄武存储引擎:读/写分离,可分别独立扩展,海量数据写入不影响查询分析性能。图图 20:AnalyticDB 架构架构 资料来源:阿里云、招商证券 图图 21:AnalyticDB 在在 TPC-DS 性能测试中排名第一性能测试中排名第
71、一 资料来源:阿里技术公众号、TPC、招商证券(2)华为:华为:从从 GaussDB(DWS)到一站式数据平台到一站式数据平台 敬请阅读末页的重要说明 22 行业深度报告 2020 年年 8 月,华为云发布月,华为云发布 GaussDB(DWS)实时数仓,主要覆盖数据库迁移、实时数仓,主要覆盖数据库迁移、交互式交互式 BI 分析、数据湖分析、实时数据分析四大应用场景。分析、数据湖分析、实时数据分析四大应用场景。其中数据库迁移指提供配套迁移工具,数据可从常用数据系统平滑迁移;交互式 BI 分析指实时整合业务数据,及时优化、调整经营决策;数据湖分析指整合数据资源,构建大数据平台,使用 SQL 语言
72、即可访问数据。实时数据分析指快速入库和数据查询功能支撑来自 IoT 和互联网等数据的实时分析。针对上述应用场景,华为配备附属性业务提供全面的解决方案、扩大产品边界。华为云为数据湖分析场景搭配 MRS 服务(提供企业级大数据集群云服务,运行Hadoop、Spark 等大数据组件),数据湖分析可进阶为“华为云 FusionInsight智能数据湖”,提供贯穿数据生命周期“采、存、算、管、用”的大数据平台解决方案。图图 22:GaussDB(DWS)实时数据分析流程实时数据分析流程 资料来源:华为云官网、招商证券 图图 23:华为云:华为云 FusionInsight 智能数据湖方案围绕数据周期建立
73、智能数据湖方案围绕数据周期建立 资料来源:华为云 TechWave 大数据专题日、招商证券 敬请阅读末页的重要说明 23 行业深度报告 (3)腾讯腾讯云数仓云数仓 PostgreSQL 围绕核心业务展开围绕核心业务展开 腾讯云数据仓库腾讯云数据仓库 PostgreSQL 基于基于 MPP 架构,并对接丰富开源生态架构,并对接丰富开源生态工具。工具。云数据仓库 PostgreSQL(原 Snova 数据仓库)为用户提供简单、快速的 PB 级云端数据仓库解决方案。借助云数据仓库 PostgreSQL,客户可使用丰富的 PostgreSQL 开源生态工具,实现对数据仓库中海量数据的即席查询分析、ET
74、L 处理及可视化探索;还可以借助云端数据无缝集成特性,分析位于 COS、TencentDB、ES 等数据引擎上的 PB 级数据。腾讯云数据仓库是一种基于 MPP(大规模并行处理)架构的数仓服务,未实现存算分离,本质上更接近于第三代数据仓库。腾讯云数据仓库腾讯云数据仓库 PostgreSQL 围绕腾讯核心的金融、游戏等领域开展围绕腾讯核心的金融、游戏等领域开展经营分经营分析决策析决策、海量日志分析海量日志分析、用户行为实时洞察用户行为实时洞察三大应用场景。三大应用场景。经营分析决策指在金融、零售等领域,对多种业务数据汇总分析,以掌握公司经营情况、提高决策精准度。海量日志分析指在互联网金融、游戏、
75、O2O 等领域,分析 PB 级用户行为、系统日志、订单等结构化或半结构化数据。用户行为实时洞察指在互联网、游戏领域,对用户行为实时分析、优化运营策略。图图 24:腾讯云数据仓库:腾讯云数据仓库 PostgreSQL 架构未实现存算分离:存储和计算都在架构未实现存算分离:存储和计算都在 Segment 节点上进行节点上进行 资料来源:腾讯云、招商证券 图图 25:PostgreSQL 应用场景之辅助经营分析决策应用场景之辅助经营分析决策 资料来源:腾讯云、招商证券 敬请阅读末页的重要说明 24 行业深度报告 图图 26:PostgreSQL 应用场景之海量日志分析应用场景之海量日志分析 资料来源
76、:腾讯云、招商证券(4)星环科技:高度自主,具有多模等先进技术储备星环科技:高度自主,具有多模等先进技术储备 星环科技的大数据基础平台星环科技的大数据基础平台 TDH 具有以下重要特点:具有以下重要特点:支持多种数据结构,拥有多模型技术。支持多种数据结构,拥有多模型技术。传统 Oracle 等关系型数据库仅能支持结构化数据,公司产品除结构化数据外还可以支持图、文档、时序、时空地理等在内的多种半结构化和非结构化数据,且拥有统一 SQL、计算引擎对多源异构数据整合,打通不同类型数据库之间的数据孤岛;高度兼容高度兼容 SQL,可以实现对,可以实现对 Oracle 等传统数据库的平滑替代。等传统数据库
77、的平滑替代。TDH 已经兼容大部分SQL 99、SQL 2003 OLAP标准;同时,逐步实现了对Oracle、IBM DB2 和 Teradata 等数据库 SQL 方言的支持,以及 Oracle PL/SQL、IBM DB2 SQL PL 等 SQL 扩展;采用分布式技术。采用分布式技术。支持分布式事务,保证数据的一致性和准确性,并将分布式事务处理能力用于数据仓库等核心数据业务系统中。采用容器技术。采用容器技术。TDH 采用容器技术来部署、调度和管理,从而可以适配更复杂的异构硬件资源以及降低系统的运维难度。高度自主研发。高度自主研发。公司 TDH 产品技术基本实现全部自研,不依赖主流开源技
78、术,这是公司区别于其他市场参与者的重要特征。开源技术进入壁垒低、成本低、修改灵活,是当前市面上大多数大数据基础平台的选择,但为适应传统硬件特性而设计的开源技术架构存在局限性,且目前数据库开源体系由国外主导,其修改和发行等仍然要受到版权法或者开源软件许可证的制约,在逆全球化背景下,公司采取全部自研策略、突破核心技术瓶颈具有重要意义,既体现公司硬核技术能力,又能获得对安全性要求高的客户青睐。敬请阅读末页的重要说明 25 行业深度报告 图图 27:公司技术框架从基于开源逐渐演进至高度自研公司技术框架从基于开源逐渐演进至高度自研 资料来源:星环科技招股说明书,招商证券 三、三、颠覆传统数据仓库市场颠覆
79、传统数据仓库市场的的 Snowflake 1、从算储分离技术创新和业务创新看从算储分离技术创新和业务创新看 Snowflake 崛起崛起 Snowflake 将存储和计算功能分离是区别于传统数仓最大的技术革新。将存储和计算功能分离是区别于传统数仓最大的技术革新。传统数仓无法实现存储和计算单独拓展,而 Snowflake 存算分离架构实现“不影响数据库(存储层)工作状态的条件下,根据需求动态匹配计算资源”。没有查询语句执行时,可彻底“关闭”计算资源,减少资源浪费。提供横跨多个公有云的存储、迁移服务是提供横跨多个公有云的存储、迁移服务是 Snowflake 最亮点的业务创新。最亮点的业务创新。为平
80、衡商业、技术等风险,企业倾向选择多家云服务厂商部署资源,例如Salesforce 与 Google、IBM 等多个云服务提供商开展合作。多云平台带来操作复杂性,为数据整合、同步、对接带来困境,而 Snowflake 允许用户将数据存储三大公有云中且提供云间迁移服务。根据 Forrester 咨询公司对四家 Snowflake 客户的调查,Snowflake 预计在三年内帮助客户累计获得超过 2150 万美元的收益,承担的成本为 300 万美元,投资回报率为 612%。图图 28:snowflake 在在 3 年内为客户创造年内为客户创造 612%的的 ROI 资料来源:Forrester、招商
81、证券 敬请阅读末页的重要说明 26 行业深度报告 2、以数仓为核心,不断扩大功能边界以数仓为核心,不断扩大功能边界 Snowflake 从单一数据仓库产品向数据融合、智能实时分析等方向拓展,不从单一数据仓库产品向数据融合、智能实时分析等方向拓展,不断朝着数据云一体化方向进化断朝着数据云一体化方向进化。Snowflake 打破传统数据仓库发展桎梏,持续提升产品能力。根据最新的 Gartner 云数据管理系统(Cloud DBMS)魔力象限统计,Snowflake 的技术创新加速行业升级变革,成功由 2020 年的挑战者升级为 2021 年的领导者。Snowflake 于 2014 年推出云数据仓
82、库产品,实现数据高效存储和计算;2019 年数据仓库进化为云数据平台,实现数据的合并、分析等功能;2020 年云数据平台升级为可看作生态系统的数据云,用户、合作伙伴、数据提供者可在 Snowflake 平台内紧密交互,深度挖掘数据价值,实现数据分析和决策。图图 29:2021 年年 Snowflake 成功升级为云成功升级为云 DBMS 的领导的领导者者 图图 30:Snowflake 平台的演化:从单一软件到生态系统平台的演化:从单一软件到生态系统的初步蜕变的初步蜕变 资料来源:Gartner、招商证券 资料来源:Gartner、Snowflake 招股说明书、招商证券 3、架构创新:横跨三
83、大公有云,算储解耦架构创新:横跨三大公有云,算储解耦 Snowflake平台建立在三大公有云上,由平台建立在三大公有云上,由3个独立的可拓展层组成。个独立的可拓展层组成。Snowflake的云原生架构部署在横跨全球 22 个地区的三个公共云 Google Cloud、AWS和 Microsoft Azure 上。中心存储层:中心存储层:基于三大公有云的存储设施,可存储结构化和半结构化数据,独立于计算资源进行扩展并对数据自动分区。Snowflake允许用户将数据存储在三个公有云任意之一。多集群计算层:多集群计算层:虚拟数据仓库是计算集群的核心,数据查询在此完成。每个虚拟仓库都是一个计算集群,集群
84、使用多个云提供商提供的计算节点,由 Snowflake 分配组成。云服务层:云服务层:与客户直接交互的接口,包含一系列的服务,可执行优化查询、系统监测、数据治理等功能。敬请阅读末页的重要说明 27 行业深度报告 图图 31:Snowflake 的平台部署在全球的平台部署在全球 22 个地区个地区 资料来源:ClicData 官网、招商证券 图图 32:Snowflake 的云数据平台建立在三大公有云之上,云原生架的云数据平台建立在三大公有云之上,云原生架构中层级分明构中层级分明 资料来源:Snowflake 招股说明书、Snowflake 官网、招商证券 4、商业创新:算储分离下,实现单独、弹
85、性计费商业创新:算储分离下,实现单独、弹性计费 收费模式灵活创新,将存储、计算、转移项目单独计费,有助于降低客户使用收费模式灵活创新,将存储、计算、转移项目单独计费,有助于降低客户使用成本。成本。Snowflake 存算分离的架构使收费项目的单独计费成为可能:过往使用云服务时,厂商不会公布存储和计算资源分别消耗多少,而 Snowflake 开创单独计费的先河。Snowflake 的产品收入可看成三部分:来自存储、计算和数据传输的费用,但 Snowflake 是将三种服务视为统一整体,即计算、存储和数据传输共同推动用户消费。Snowflake 采用关键客户精准营销采用关键客户精准营销(Accou
86、nt-based Marketing,ABM)方法方法提高营销效率。提高营销效率。ABM 是一种针对性较强的营销方法,针对特定潜在客户和高价值的客户提供个性化的营销。Snowflake 销售重点放在大型组织上,营销方式的成功在 Snowflake 高净收入留存率中可见一斑。敬请阅读末页的重要说明 28 行业深度报告 表表 11:Snowflake 收费模式以“消费”为导向,用多少、付多少收费模式以“消费”为导向,用多少、付多少 Snowflake 收费模式收费模式 资源预留(Capacity arrangement)用户承诺在规定的时间内消耗一定数量的资源,通常是按年付费且提前收费。若用户未在
87、规定时间内消耗完合同规定的资源,可将未使用的资源滚动到未来,若用户超量使用,可再继续购买资源或提前续订。按需付费(On-demand arrangement)实行按月付费制度,且 Snowflake 对这类用户实行“先使用、后付款”。此类合同收入占比低于 10%,主要是新客户作为尝试 Snowflake 的初始消费。资料来源:Snowflake 招股说明书、招商证券 图图 33:Snowflake 实现资源弹性计费实现资源弹性计费 资料来源:Snowflake 招股说明书、招商证券 5、成本优势:成本优势:Snowflake 存储资源价格优势明显存储资源价格优势明显 Snowflake 采用关
88、键客户精准营销采用关键客户精准营销(Account-based Marketing,ABM)方法方法提高营销效率。提高营销效率。ABM 是一种针对性较强的营销方法,针对特定潜在客户和高价值的客户提供个性化的营销。Snowflake 销售重点放在大型组织上,营销方式的成功在 Snowflake 高净收入留存率中可见一斑。表表 12:Snowflake 预留付费模式下的存储价格有相对优势预留付费模式下的存储价格有相对优势 地区地区 Snowflake BigQuery us-central1 按需付费 35 美元/TB/月,预留资源 20美元/TB/月 活跃存储 0.023 美元/GB/月,折合
89、23.32 美元/TB/月;长期存储 0.016 美元/GB/月,折合 16.22美元/TB/月。每月前 10GB 免费 europe-west2 按需付费 40 美元/TB/月,预留资源 23美元/TB/月 活跃存储 0.023 美元/GB/月,折合 23.32 美元/TB/月;长期存储 0.016 美元/GB/月,折合 16.22美元/TB/月。每月前 10GB 免费 europe-west4 按需付费 35 美元/TB/月,预留资源 20美元/TB/月 活跃存储 0.02 美元/GB/月,折合 20.28 美元/TB/月;长期存储 0.01 美元/GB/月,折合 10.14 美元/TB/
90、月。每月前 10GB 免费 地区地区 Snowflake Microsoft Azure-Synapse East US 2 按需付费 40 美元/TB/月,预留资源 23美元/TB/月 23 美元/TB West US 2 按需付费 40 美元/TB/月,预留资源 23美元/TB/月 23 美元/TB Canada Central 按需付费 46 美元/TB/月,预留资源 25美元/TB/月 25 美元/TB West Europe 按需付费 40 美元/TB/月,预留资源 23美元/TB/月 23 美元/TB Australia East 按需付费 46 美元/TB/月,预留资源 25美元
91、/TB/月 23.55 美元/TB 敬请阅读末页的重要说明 29 行业深度报告 Southeast Asia 按需付费 46 美元/TB/月,预留资源 25美元/TB/月 23 美元/TB Switzerland North 按需付费 50.5 美元/TB/月,预留资源28.8 美元/TB/月 25.30 美元/TB US Gov Virginia 按需付费 68 美元/TB/月,预留资源 39美元/TB/月 28.75 美元/TB 地区地区 Snowflake AWS Redshift US East(Northern Virginia)按需付费 40 美元/TB/月,预留资源 23美元/T
92、B/月 0.024 美元/GB,折合每月 24.58 美元/TB US East(Ohio)按需付费 40 美元/TB/月,预留资源 23美元/TB/月 0.024 美元/GB,折合每月 24.58 美元/TB US West(Oregon)按需付费 40 美元/TB/月,预留资源 23美元/TB/月 0.024 美元/GB,折合每月 24.58 美元/TB Canada Central 按需付费 46 美元/TB/月,预留资源 25美元/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB EU(London)按需付费 42 美元/TB/月,预留资源 24美元/TB/月 0.
93、025 美元/GB,折合每月 25.60 美元/TB EU(Ireland)按需付费 40 美元/TB/月,预留资源 23美元/TB/月 0.024 美元/GB,折合每月 24.58 美元/TB EU(Frankfurt)按需付费45美元/TB/月,预留资源24.5美元/TB/月 0.0256 美元/GB,折合每月 26.21 美元/TB Asia Pacific(Sydney)按需付费 46 美元/TB/月,预留资源 25美元/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB Asia Pacific(Singapore)按需付费 46 美元/TB/月,预留资源 25美元
94、/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB Asia Pacific(Tokyo)按需付费 46 美元/TB/月,预留资源 25美元/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB Asia Pacific(Mumbai)按需付费 46 美元/TB/月,预留资源 25美元/TB/月 0.0261 美元/GB,折合每月 26.73 美元/TB US East(Commercial Gov-N.VA)按需付费 40 美元/TB/月,预留资源 23美元/TB/月 0.024 美元/GB,折合每月 24.58 美元/TB 资料来源:Snowflake
95、官网、招商证券 6、财务与业务分析:营收亮眼,规模效应加强,财务与业务分析:营收亮眼,规模效应加强,客户留存客户留存能力较强能力较强 营收增长强劲,产品收入占比高。营收增长强劲,产品收入占比高。Snowflake FY2020-FY2022 增速均超过100%,产品收入是指 Snowflake 将存储、计算和转移数据所消耗的资源作为整体向用户收取的费用,专业服务和其他服务包括咨询、为客户培训及现场技术解决方案,产品收入占据绝大部分营收。随着规模效应不断强化,盈利能力持续改善。随着规模效应不断强化,盈利能力持续改善。随着用户规模不断扩大,公司净利率持续回升,盈利能力不断改善;同时得益于云服务购买
96、基数增大带来折扣,毛利率稳步提升。但我们认为,因需从第三方采云服务基础设施,Snowflake毛利率提升空间有限。敬请阅读末页的重要说明 30 行业深度报告 图图 34:营收规模扩大,产品收入贡献绝大部分营收营收规模扩大,产品收入贡献绝大部分营收 图图 35:净利率,毛利率稳步提升净利率,毛利率稳步提升 资料来源:公司招股书、财务报告、招商证券 资料来源:公司招股书、财务报告、招商证券 营业成本主要由第三方云服务基础设施营业成本主要由第三方云服务基础设施(即产品收入成本即产品收入成本)成本构成,主要包括成本构成,主要包括存储、计算资源。存储、计算资源。Snowflake 盈利模式为:购买公有云
97、基础服务-为客户分配存储和计算资源-通过数据资源的消耗和集成外部应用形成增值产品。因此购置第三方云服务基础设施成本比例较高。剩余履约合同剩余履约合同(RPO)的增长反映的增长反映 Snowflake 产品获得认可。产品获得认可。据公司招股书,RPO 的提升主要是由于客户在与 Snowflake 签署合同时间更长、规模更大的资源预留合同,部分订单金额攀升和服务期限延长表明 Snowflake 产品认可度较高。图图 36:第三方云服务成本占据高比例营业成本第三方云服务成本占据高比例营业成本 图图 37:计算机计算机三费费率大体呈下降趋势三费费率大体呈下降趋势 资料来源:公司招股书、财务报告、招商证
98、券 资料来源:公司招股书、财务报告、招商证券 图图 38:剩余履约合同剩余履约合同(RPO)增速快,收入增长可见度高增速快,收入增长可见度高 资料来源:Snowflake 招股说明书、Snowflake 财报、招商证券。注:财年截至每年 1 月 31 日。如:FY2021 对应 2020 年 1 月 31日-2021 年 1 月 31 日;递延收入+未开票递延收入=RPO 0.962.525.5411.40.010.130.380.79173.2%123.4%105.9%0%50%100%150%200%051015FY2019FY2020FY2021FY2022专业服务和其他(亿美元,左轴)
99、产品收入(亿美元,,左轴)总收入增速(右轴)-184%-132%-91%-55.76%46%56%59%62.40%-200%-150%-100%-50%0%50%100%FY2019FY2020FY2021FY2022净利率毛利率0.420.971.943.480.10.20.491.11125%108%89%0%20%40%60%80%100%120%140%012345FY2019FY2020FY2021FY2022专业服务及其他收入的成本(亿美元,左轴)产品收入成本(亿美元,左轴)总营业成本同比增长(右轴)129.90%110.94%80.85%61.03%71.13%40.00%35
100、.82%38.31%37.11%40.75%28.86%21.74%0.00%20.00%40.00%60.00%80.00%100.00%120.00%140.00%FY2019FY2020FY2021FY2022销售费用率研发费用率管理费用率1.284.2613.3326.46233%213%98%0%50%100%150%200%250%051015202530FY2019FY2020FY2021FY2022RPO(亿美元,左轴)RPO同比增长(右轴)敬请阅读末页的重要说明 31 行业深度报告 业务方面,业务方面,Snowflake 获得大量财富榜单公司青睐。获得大量财富榜单公司青睐。2
101、020 年 1-7 月,来自 7家财富 10 强公司和 146 家财富 500 强公司的收入比例为 4%和 26%。优异的净收入留存率反映客单价的提升和高用户粘性。优异的净收入留存率反映客单价的提升和高用户粘性。FY2020 的净收入留存率为 169%系由于资源预留合同价格同比增长 12%。我们认为,Snowflake 留住客户的能力较强且客户粘性极高。高付费能力用户为高付费能力用户为 Snowflake 持续付费意愿强。持续付费意愿强。Snowflake 有 56 个客户在2019 年 8 月-2020 年 7 月间贡献收入超过 100 万美元,这些用户合共贡献对应时期营收的 46%。而这一
102、数字在 2019 年 7 月仅为 22 个客户,贡献相应时期 47%的营收。表表 13:Snowflake 客户覆盖领域广泛客户覆盖领域广泛 行业行业 代表客户代表客户 娱乐媒体广告 2K Games、Accordant Media、KIXEYE、Nielsen、PLAYSTUDIOS、Sharethrough 金融服务 AXA、Bankrate、Capital One、CapSpecialty、Chime、Experian 医疗生命健康 Amino、Asics、HC1、McKesson、Strava 制造零售业 Logitech、Madison Reed、Office Depot、Sains
103、burys、Sony、US Foods 在线服务 Ask、Blackboard、DoorDash、Instacart、OfferUP 科技 Adobe、Akamai、DocuSign、Dropbox、Micron 资料来源:Snowflake 招股说明书、公司财报、招商证券 图图 39:客户营收规模分布:受大型企业及小规模营收企客户营收规模分布:受大型企业及小规模营收企业青睐业青睐 图图 40:Snowflake 净收入留存率优异净收入留存率优异 资料来源:Snowflake 招股说明书、公司财报、招商证券 资料来源:Snowflake 招股说明书、公司财报、招商证券 图图 41:Snowfl
104、ake 总客户数不断增长总客户数不断增长 图图 42:大客户粘性持续增强大客户粘性持续增强 资料来源:Snowflake 招股说明书、公司财报、招商证券 资料来源:Snowflake 招股说明书、公司财报、招商证券 3926204006008000180%169%168%178%160%165%170%175%180%185%FY2019FY2020FY2021FY2022948239241395944152%73%44%0%20%40%60%80%100%120%140%160%0040005000600
105、07000FY2019FY2020FY2021FY2022客户数YoY3%88%139%0%50%100%150%200%250%0204060800180200FY2019FY2020FY 2021FY2022一年内贡献收入超100万美元客户数YoY 敬请阅读末页的重要说明 32 行业深度报告 四、四、Snowflake 核心竞争优势及发展启示核心竞争优势及发展启示:高性能、:高性能、三方身份、网络生态圈三方身份、网络生态圈 1、高性能是数仓重要指标高性能是数仓重要指标 Snowflake 数仓在性能方面处于行业领先水平。根据我们开篇的分析,数仓性
106、能取决于架构、模型选择、数据分层优化等多方面因素,在产品优化方面具有较高难度,Snowflake 多项测评均处于行业前列,显示出其产品具有较强市场竞争力:Snowflake 语句执行时间短,产品性能方面具有领先优势:语句执行时间短,产品性能方面具有领先优势:GigaOm 对时下最热的四大云数据仓库 SDL DW(Synapse 前身)、AWS Redshift、Snowflake 和Google BigQuery 进行测试,该测试共执行在 22 个查询语句,包括查询总和、平均值、表间 JOIN 连接等操作。在部分语句执行结果中,Snowflake 表现较为突出,运行时长较短。Snowflake
107、 产品具有较高的稳定性:产品具有较高的稳定性:在根据执行时间标准差判断产品稳定性中,Snowflake 命令执行时间总体方差较小,表明 Snowflake 在执行查询及数据分析时性能表现较为一致。图图 43:Snowflake 命令执行时间标准差较小,性能稳定命令执行时间标准差较小,性能稳定 资料来源:Gigaom、Microsoft、招商证券 图图 44:Gigaom 部分测试结果,部分测试结果,Snowflake 性能表现优异性能表现优异 资料来源:Gigaom、Microsoft、招商证券 敬请阅读末页的重要说明 33 行业深度报告 2、专注于数仓的第三方身份更易受客户青睐专注于数仓的第
108、三方身份更易受客户青睐 多云部署逐渐成为企业的主流方案,潜在需求市场广阔。多云部署逐渐成为企业的主流方案,潜在需求市场广阔。多云战略意指企业同时购买多家云服务,同时将数据和 IT 资源部署在多个云中。据 IDC 2020 年研究表明,55的组织选择会在多个公共云上运行服务,其中 21的组织表示使用 3 个云或更多。中立性是中立性是 Snowflake 与大型云服务提供商的最大区别与大型云服务提供商的最大区别:Snowflake 深度洞察到企业对多云战略的需求,作为专注于提供云数仓存储服务的第三方厂商,其中立性更易受客户青睐。Snowflake 于 2014-2019 年间陆续在三大公有云上运行
109、。目前大型公有云服务商未提供与其他云服务商无缝对接的能力,Snowflake允许客户在任意一家公有云上存储数据、在不同云间无缝迁移数据,能够帮助分摊客户依赖、绑定单一厂商带来的多重风险,包括技术与业务风险(减少单一云出现服务中断造成的损失)、议价风险(间接提升客户的议价能力,降低单一厂商提价风险)等,客户可对比多家云服务质量,根据自身需求灵活变更厂商。图图 45:企业的“多云”策略企业的“多云”策略 图图 46:55%的企业表明使用的企业表明使用2 种种公有云服务公有云服务 资料来源:Snowflake 招股说明书、招商证券 资料来源:IDC、招商证券 3、依托网络效应构筑生态护城河依托网络效
110、应构筑生态护城河 Snowflake 强大的分享、交换机制带来的网络效应逐步建立护城河。强大的分享、交换机制带来的网络效应逐步建立护城河。Snowflake 赋予用户分享数据的能力,将数据提供商、合作伙伴和客户紧密结合且。Snowflake 的用户及分享的数据的增长会带动合作伙伴或数据提供商加入 Snowflake。随数据不断迁移到数据云,这种网络效应的正向反馈会不断扩大 Snowflake 数据云的边界,形成一定的规模效应后会转化为 Snowflake 的生态护城河。生态系统内成员价值得到发挥,需求得到满足。数据提供商:生态系统内成员价值得到发挥,需求得到满足。数据提供商:2020 年 3
111、月,Starschema(领先的数据提供商)在Snowflake上发布其COVID-19流行病学数据,截至 2020 年 7 月 31 日,数百名 Snowflake 的客户利用这些数据分析疫情对自身业务的影响;Snowflake 提供专门的数据连接器,Adobe 的用户可以直接分析数据、改进策略。应用开发商:应用开发商:Lime 是短途出行共享平台,提供共享单车、电动单车及共享汽车服务,其借助 Snowflake 发布骑行路线数据,协助智能出行系统开发。科技厂商:科技厂商:Tableau、Qlik 通过与 Snowflake 的集成实 敬请阅读末页的重要说明 34 行业深度报告 现高性能数据
112、处理,改进现有用户体验、扩展客群。Snowflake 作为连结器,粘合众多伙伴,平台溢价不断提升。图图 47:2020 年年 2 月月-7 月,月,Snowflake 账户之间的数据账户之间的数据共享情况共享情况 图图 48:Snowflake 扩大生态合作伙伴圈扩大生态合作伙伴圈 资料来源:Snowflake 招股说明书、招商证券 资料来源:Snowflake 招股说明书、招商证券 4、增长看点一:数据量爆发式增长下,数仓需求快速增长增长看点一:数据量爆发式增长下,数仓需求快速增长 从行业趋势看:数据量爆发式增长下,对数据分析及数据仓库相关需求将快速从行业趋势看:数据量爆发式增长下,对数据分
113、析及数据仓库相关需求将快速增长。增长。据 IDC 预测,2025 年全球数据圈数据总量将达 175ZB,其中超过 25%是实时数据;而 2018 年全球数据圈数据总量仅为 33ZB,呈现爆发式增长。数据量的激增或将带来成倍的数据分析需求:企业对从数据中获取洞察的需求日益增长,实时数据分析需求尤甚。我们认为,作为数据分析工具后端引擎的Snowflake 将继续受益于行业需求的增长。图图 49:全球数据圈每年规模全球数据圈每年规模 资料来源:IDC、招商证券 33ZB 敬请阅读末页的重要说明 35 行业深度报告 图图 50:企业成为数据使用的主要场合企业成为数据使用的主要场合 资料来源:cloud
114、ian、招商证券 Snowflake 通过更低的成本优势,向中小型企业拓展,纵向注重渠道下沉。通过更低的成本优势,向中小型企业拓展,纵向注重渠道下沉。先前提及大型客户是 Snowflake 的营销重心。通过对比 Snowflake 及目前主流云数仓产品客户结构,我们发现Snowflake客户中营收超过10亿的比例较高,而营收小于 100 万美元的客户比例仍有提升空间,未来 Snowflake 可以注重中小型客户池的开发,优化客户结构。图图 51:Snowflake 客户中,营收小于客户中,营收小于 100 万美元的小规模客户比例较低万美元的小规模客户比例较低 资料来源:Snowflake 招股
115、说明书、招商证券 5、增长看点二:增长看点二:以数仓为核,向以数仓为核,向 BI 融合融合 数仓作为数仓作为 BI 的技术底座,的技术底座,Snowflake 已具备已具备 BI 雏形。雏形。在 BI 架构中,数据仓库上承面向用户的应用,下接多类型源数据。Snowflake 已经紧握 BI 的重要引擎-数据仓库,依靠自身数据仓库标准化高、普适性高的优势,发展面向多行业的差异性产品。Snowflake 目前聚焦在目前聚焦在 BI 产业链中部的数仓功能,缺少原生的数据分析上层产业链中部的数仓功能,缺少原生的数据分析上层应用。应用。主流的 BI 应用如 Tableau、Looker、PowerBI
116、更专注于数据的可视化,Snowflake 目前攻破更为底层的存储、计算功能 且主要靠集成、调用外部应用 Tableau 等间接提供数据可视化服务,缺少原生的数据分析、可视化应用。敬请阅读末页的重要说明 36 行业深度报告 图图 52:简化简化 BI 架构:数据仓库是承上启下的中枢架构:数据仓库是承上启下的中枢 资料来源:saudi-solutions、招商证券 向向 BI 看齐,集成中层数据仓库看齐,集成中层数据仓库+面向用户的业务前端应用形成“一站式”平台。面向用户的业务前端应用形成“一站式”平台。除集成第三方BI应用外,Snowflake未来可创建基于自身数据仓库的BI产品,植入自身基因的
117、 BI 应用与数据仓库无缝衔接和高效协同有望带来更优质的用户体验。Snowflake 已在已在 BI 领域的初步开拓。领域的初步开拓。Snowsight 是 Snowflake 自身团队研发的 BI 应用,预计于 2021 年上半年发布,可开发数据可视化和仪表板以执行数据驱动决策。图图 53:Snowflake 是数据与是数据与 BI 门户间的桥梁门户间的桥梁 资料来源:Snowflake 官网、招商证券 6、增长看点三:增长看点三:数据交易供增量,强化平台变现能力数据交易供增量,强化平台变现能力 数据分享需求创造“数据交易”增量市场。数据分享需求创造“数据交易”增量市场。Snowflake
118、构建起数据分享平台Marketplace,允许客户购买并使用所需要的数据,截至目前,平台已经汇聚448 家数据供应商,覆盖商业、环境、财经、生命科学、媒体、体育等众多行业。我们认为,Snowflake 作为一个第三方平台,可促成跨多云平台的数据整合,并促成提供者和需求者间的交易,强化自身数仓平台变现能力。Snowflake 以中立第三方身份,凭借多云支持与数仓一站式平台,在数据交以中立第三方身份,凭借多云支持与数仓一站式平台,在数据交 敬请阅读末页的重要说明 37 行业深度报告 易中具有较强竞争优势。易中具有较强竞争优势。Redshift、BigQuery 和 Synapse 仅支持存储在自身
119、云上的数据的分享,而 Snowflake 横跨三大公有云,为用户分享跨云的数据带来极大便利。此外,Snowflake 非仅促成交易的中介,数据需求者获取数据后可直接在 Snowflake 平台上进行分析处理,交换+分析的一站式服务下Snowflake 囊括该场景全部链条。即可向交易双方收取一定费用,数据的存储与分析亦会在交易发生后产生收入。图图 54:目前目前 Snowflake Marketplace 平台已经汇聚大量数据提供商平台已经汇聚大量数据提供商 资料来源:Snowflake 官网、招商证券 Snowflake Marketplace 的数据定价由数据提供商决定,主要包括四种收费的数
120、据定价由数据提供商决定,主要包括四种收费方式:方式:1)固定月费:每月支付固定价格(不同数据产品价格不同),至少使用一次付费数据的查询,如不使用,则不收取月费。2)按次查询费用:每次查询支付固定价格,如果定价计划包括月费,则除收取固定月费外,还会按查询量收费。3)每月最高总费用:数据提供商可定义每月最高收费,达到最大值后,该数据的后续查询将免费。4)免费查询次数:第一次查询之后,按查询价格收费之前,一个月内允许的免费查询次数。每个月的第一次查询会产生固定月费、每次查询费用或者两者都有,具体取决于供应商的定价计划。图图 55:固定月费模式固定月费模式 图图 56:按次收费模式按次收费模式 资料来
121、源:Snowflake 招股说明书、招商证券 资料来源:Snowflake 招股说明书、招商证券 7、增长看点四:增长看点四:与微软和英伟达合作与微软和英伟达合作,共同构建共同构建 AI 大模型大模型 敬请阅读末页的重要说明 38 行业深度报告 解决方案解决方案 Snowflakes 与与微软微软合作,将公司的数据云专业知识与合作,将公司的数据云专业知识与人工智能龙头企业的人工智能龙头企业的云云技术技术、人工智能功能人工智能功能和算力优势和算力优势相结合,帮助企业更加安全、更加便捷地构建相结合,帮助企业更加安全、更加便捷地构建专属专属 AI 大模型。大模型。目前,微软的云技术、人工智能功能在业
122、内均处于领先地位;Snowflake 与微软的合作旨在构建人工智能、低代码及 no-code 应用开发和数据治理方面的尖端解决方案。而英伟达作为 AI“算力之王”,Snowflake 将整合其人工智能软件和芯片领域优势,为企业根据 Snowflakes 平台数据构建 AI模型提供动力。具体而言,微软将把生成式具体而言,微软将把生成式 AI 引入引入 Snowflake 的数据云平台,并将该公司与的数据云平台,并将该公司与OpenAI 联系起来。英伟达则提供了底层工具包联系起来。英伟达则提供了底层工具包 NeMO 和基础设施。和基础设施。其中NeMO 提供了一个基础的大型语言模型,Snowfla
123、ke 客户可以使用自己的数据进行模型自定义。而英伟达提供的基础设施包括客户培训其生成人工智能模型所需的图形处理单元等。三家公司共同构建的 AI 模型解决方案将使 Snowflake客户将能够利用他们账户中的数据量身定制大语言模型,从而用于打造高级生成式 AI 服务,比如聊天机器人、搜索和总结等;还可以在不移动数据的情况下定制 LLM,从而使专有信息在 Snowflake 平台内保持完全安全并受到管理。图图 57:英伟达英伟达 NeMO 产品框架产品框架 资料来源:英伟达官网、招商证券 风险提示风险提示 技术创新不及预期:技术创新不及预期:数仓行业正朝着存算分离等新型架构发展,如果技术创新不及预
124、期,可能会导致行业发展受影响。数仓行业竞争加剧:数仓行业竞争加剧:数仓行业玩家众多,包括云厂商、数据库厂商、初创厂商等,可能导致未来竞争加剧,对行业发展产生不利影响。大数据发展不及预期影响数仓行业发展:大数据发展不及预期影响数仓行业发展:大数据发展是数仓发展的重要驱动力,如果未来大数据产业发展不及预期,可能对数仓发展产生影响。被数据库、数据湖替代风险:被数据库、数据湖替代风险:目前数据库、数据湖等行业正朝着融合的方向发展,数仓行业未来存在被其他产品替代的可能性。敬请阅读末页的重要说明 39 行业深度报告 分析师分析师承诺承诺 负责本研究报告的每一位证券分析师,在此申明,本报告清晰、准确地反映了
125、分析师本人的研究观点。本人薪酬的任何部分过去不曾与、现在不与,未来也将不会与本报告中的具体推荐或观点直接或间接相关。评级评级说明说明 报告中所涉及的投资评级采用相对评级体系,基于报告发布日后 6-12 个月内公司股价(或行业指数)相对同期当地市场基准指数的市场表现预期。其中,A 股市场以沪深 300 指数为基准;香港市场以恒生指数为基准;美国市场以标普 500 指数为基准。具体标准如下:股票股票评级评级 强烈推荐:预期公司股价涨幅超越基准指数 20%以上 增持:预期公司股价涨幅超越基准指数 5-20%之间 中性:预期公司股价变动幅度相对基准指数介于 5%之间 减持:预期公司股价表现弱于基准指数
126、 5%以上 行业评级行业评级 推荐:行业基本面向好,预期行业指数超越基准指数 中性:行业基本面稳定,预期行业指数跟随基准指数 回避:行业基本面转弱,预期行业指数弱于基准指数 重要重要声明声明 本报告由招商证券股份有限公司(以下简称“本公司”)编制。本公司具有中国证监会许可的证券投资咨询业务资格。本报告基于合法取得的信息,但本公司对这些信息的准确性和完整性不作任何保证。本报告所包含的分析基于各种假设,不同假设可能导致分析结果出现重大不同。报告中的内容和意见仅供参考,并不构成对所述证券买卖的出价,在任何情况下,本报告中的信息或所表述的意见并不构成对任何人的投资建议。除法律或规则规定必须承担的责任外,本公司及其雇员不对使用本报告及其内容所引发的任何直接或间接损失负任何责任。本公司或关联机构可能会持有报告中所提到的公司所发行的证券头寸并进行交易,还可能为这些公司提供或争取提供投资银行业务服务。客户应当考虑到本公司可能存在可能影响本报告客观性的利益冲突。本报告版权归本公司所有。本公司保留所有权利。未经本公司事先书面许可,任何机构和个人均不得以任何形式翻版、复制、引用或转载,否则,本公司将保留随时追究其法律责任的权利。