上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

【研报】计算机行业: 分布式数据库或成为新增量-210402(35页).pdf

编号:33348 PDF 32页 1.02MB 下载积分:VIP专享
下载报告请您先登录!

【研报】计算机行业: 分布式数据库或成为新增量-210402(35页).pdf

1、 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 1 证券研究报告 计算机计算机 分布式分布式数据库数据库或成为新增量或成为新增量 华泰研究华泰研究 计算机计算机 增持增持 ( (维持维持) ) 行业行业走势图走势图 资料来源:华泰研究,Wind 2021 年 4 月 02 日中国内地 专题研究专题研究 数据库行业螺旋上升,分布式数据库或成新增量数据库行业螺旋上升,分布式数据库或成新增量 纵观计算机行业发展历程,计算载体经历了从大型机到小型机,再到分布式数据中心的演变。在数据库领域,小型机时代促成了 Oracle 等关系型数据库兴起,分布式架构时代 AWS、Snowflake 等

2、分布式数据库兴起。在计算载体变革的过程中,数据库市场往往不是简单的代替旧市场,而是不断创造新的增量。 据 Garter, 2018 年全球数据库管理系统市场规模达 461 亿美元,预计于 2024 年整体市场规模达千亿美元,但与此同时关系型数据库市场规模增长渐趋平缓。伴随着分布式计算架构的兴起,分布式数据库或成为数据库市场新的增量,以史为鉴,该领域也有望诞生新的龙头。 数据、计算场景变革推动分布式数据库时代到来数据、计算场景变革推动分布式数据库时代到来 随着智能终端的普及及云计算的兴起, 据 IDC 全球数据产生量从 2010 年的1.2ZB 上升至 2018 年的 33ZB。另一方面,数据类

3、型不断丰富,非结构化数据逐渐增加。应运而生的分布式数据库能够较好的满足大数据分析的需求。而随着 Snowflake、Databricks 等厂商推出分布式数据库产品满足云计算、大数据的使用需求,分布式数据库时代到来的趋势逐步确定。 开源或商业闭源模式均导向企业级服务,自研内核具有稳定性优势开源或商业闭源模式均导向企业级服务,自研内核具有稳定性优势 数据库在 IT 架构中向下对接操作系统,直接调度硬件,向上则需支撑大量不同形态的上层应用。与应用软件相比,数据库作为基础软件更加注重稳定性。开源与商业闭源模式的商业策略,最终均需要导向优质的产品及企业级服务,为客户创造价值,获得客户及行业认可。另一方

4、面,自研内核有助于数据库厂商从源头解决问题,并且能掌握迭代控制权,同样是影响稳定性的重要因素,因此自研内核厂商有望凭借稳定性在企业级服务市场获得优势。 数据库的六大评判维度数据库的六大评判维度 我们认为评判数据库有六大维度,除了上文提到的商业架构、内核基础外,还包括品牌基因、技术架构、商业落地、人才体系。其中品牌基因影响技术路线、侧重领域、应用场景等。技术架构方面,分析型、大数据场景驱动分布式数据库发展。 商业落地方面, 金融、 电信等的落地场景由于具备高并发、宕机代价高的特点, 因此在这一领域的商业落地案例一定程度上能够说明数据库产品稳定性高。人才体系则体现了数据库厂商的生态建设成效。 风险

5、提示:市场竞争加剧,芯片及 AI 行业发展导致 IT 投资倾斜。 (3)13284459Apr-20Jul-20Nov-20Mar-21(%)计算机沪深300 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 2 计算机计算机 正文目录正文目录 数据库行业:行业螺旋上升,分布式数据库时代到来数据库行业:行业螺旋上升,分布式数据库时代到来 . 3 数据库发展需要关注增量市场,分布式数据库或成新机遇 . 3 数据库发展历程复盘:计算载体变革往往催生新兴数据库龙头 . 5 进入战国时代,云计算场景推动分布式数据库时代到来 . 8 分布式数据库满足云计算场景的需求 . 8 Snowflak

6、e、Databricks 引领数据湖兴起. 10 Snowflake:提供数据仓库、数据湖等多种产品 . 10 Databricks:Lakehouse 概念,帮助客户构建统一分析平台. 13 数据库六大评判维度数据库六大评判维度 . 14 品牌基因:品牌定位和创始团队背景 . 14 商业模式:基础软件需要企业级服务,开源具有两面性 . 14 内核基础:原厂自研能力关键,掌控核心代码或成重要竞争力 . 15 技术架构:不同数据库适用于不同场景 . 16 落地情况:中标客户行业&应用场景 . 18 公开的人才体系:自营培训认证体系、企业技术级社区 . 19 国内数据库市场:新兴与传统厂商并存国内

7、数据库市场:新兴与传统厂商并存 . 21 人大金仓:背靠 CETC 中国电子科技集团,老牌数据库 . 21 武汉达梦:背靠中国电子,主攻混合型数据库 HTAP . 22 巨杉数据库:自研金融级分布式数据库独立厂商 . 23 PingCAP TiDB:开源分布式关系型数据库 . 26 阿里 Oceanbase:金融级分布式关系数据库 . 27 华为 GaussDB:AI 原生,支持异构计算 . 29 总结:分布式数据库或诞生新龙头,关注六大评判维度总结:分布式数据库或诞生新龙头,关注六大评判维度 . 31 风险提示. 32 oPrPnQpMsRvMvNuNnPvMmM7NaObRpNoOmOpO

8、iNnNrNfQnNoQ6MrRwONZoNyRxNtOnP 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 3 计算机计算机 数据库行业:行业螺旋上升,分布式数据库时代到来数据库行业:行业螺旋上升,分布式数据库时代到来 数据库发展需要关注增量市场,分布式数据库或成新机遇数据库发展需要关注增量市场,分布式数据库或成新机遇 数据库的发展数据库的发展与计算载体紧密相关。与计算载体紧密相关。数据库是计算机行业的基础核心软件,所有应用软件的运行和数据处理都要与其进行数据交互。数据库的开发难度,不仅体现在与其他基础器件的适配,更在于如何实现对数据高效、稳定、持续的管理。从数据库的发展历程来

9、看,计算架构的变化,计算载体的变化、计算场景的变化,以及计算数据格式的变化都对数据库的发展带来的一定的影响。或者说,在以上计算环境变化下,其需要的数据库类型也发生了变化。 从计算载体来看从计算载体来看,数据的计算从原来的大型机、到小型机、个人电脑 PC、互联网、移动互联网、云计算,以及未来更多终端的物联网智能终端。计算的载体更加多样化。 从计算场景来看从计算场景来看,数据计算也从单独的单机计算,到互联网多群体交互的联网计算和云计算,以及万物互联的高并发、低时延的物联网计算。 从计算架构来看从计算架构来看,传统的 IT 架构也正逐步向云架构迁移。我们也经历了从 C-S 架构到 B-S架构,而目前

10、的云原生、分布式计算架构正对传统计算架构带来深刻变革。而新的计算架构也对计算的基础软件(操作系统、数据库、芯片等)提出更高的需求。 图表图表1: 计算的变化计算的变化 资料来源:华泰研究 在以上计算环境的变化下,我们看到,联网的数据也在发生深刻变化。在以上计算环境的变化下,我们看到,联网的数据也在发生深刻变化。 数据的大小数据的大小。目前联网数据量也在高速增长。通信技术的发展带动从 2G 到 3G、4G、5G的演进,每代通信技术之间,联网的数据规模也呈现(几个)数量级的增加。对大容量、高性能计算提出更高要求。 数据的类型数据的类型。计算场景的演变,我们对数据的定义也在发生变化。图片、语音、视频

11、等非结构化数据成为增量数据的主要类型。联网的数据类型也逐步从原来的结构化数据到非结构化数据演变,这就对计算的并发性提出了更高的要求。 数据的快慢数据的快慢。对数据的高速计算是计算机一直以来的追求。但原有的 IT 架构下,计算速度的提升存在一定的物理条件限制。经典的 IT 架构已经存在了几十年的历史,当时的 IT 架构并没有完全考虑到目前计算场景的变化。因此,新的计算场景下,对数据高速计算的追求,需要我们从底层基础软件的变革开始。我们看到无论芯片、操作系统还是数据库,都在经历深刻变革。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 4 计算机计算机 图表图表2: 数据的变化数据的

12、变化 资料来源:华泰研究 在以上计算和数据多个维度变化的情况下,我们认为,数据库行业也正在经历历史演进的深刻变革。在传统计算环境和数据类型方面,传统数据库依然发挥比较重要的作用。但在面向未来新的计算场景方面,我们需要的可能是新型的数据库产品。这种新型数据库,是计算架构迁移、计算载体演进以及计算环境变化之后的产物;同时,也是数据规模大幅增加,数据结构变化之后所需要的产品。 图表图表3: 数据库发展数据库发展 资料来源:华泰研究 全球关系型数据库市场增速渐趋平稳。数据库是对数据的管理,全球关系型数据库市场增速渐趋平稳。数据库是对数据的管理,数据库诞生于上世纪 60 年代,传统的数据库产品面临的是以

13、事务型、交易处理为主的任务,事务支持性能较好的关系型数据库如 Oracle、 DB2 迅速兴起。 而近年来, 传统的关系型数据库市场增长渐趋平稳,据Gartner, 2018年全球数据库管理系统 (DBMS) 市场规模达461亿美元, 同比增长18.4%,增速达到近十年峰值。但关系型数据库市场增长渐趋平缓,据 T4.ai 预测,全球关系型数据库市场规模 2018-2022E CAGR 为 6%,较 2012-2017 的 11%或将有所下降。 数据量上升催生分析需求,数据库市场新机遇显现。数据量上升催生分析需求,数据库市场新机遇显现。随着智能移动手机的普及及云计算的兴起,全球数据产生量不断上升

14、,从 2010 年的 1.2ZB 上升至 2018 年的 33ZB。未来几年内随着各类智能物联设备的推广以及云计算的进一步应用,数据量有望进一步上升。随着数据量上升,大数据分析的需求逐步显现,传统的关系型数据库在高并发、分析等方面存在一定的劣势,应运而生的分布式数据库能够较好的满足大数据分析的需求,或形成数据库市场新的增量。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 5 计算机计算机 图表图表4: 全球全球数据库市场规模数据库市场规模 图表图表5: 全球全球数据数据产生量产生量 资料来源:Gartner、华泰研究 资料来源:IDC、华泰研究 图表图表6: 数据库数据库演进演

15、进 资料来源:华泰研究 数据库发展历程复盘:计算载体变革往往催生新兴数据库龙头数据库发展历程复盘:计算载体变革往往催生新兴数据库龙头 阶段一:大型机到小型机时代促成了阶段一:大型机到小型机时代促成了 Oracle 的兴起的兴起 上世纪上世纪 90 年代小型机兴起促成年代小型机兴起促成 Oracle 兴起。兴起。上世纪 80 年代到 90 年代,IBM PC 兼容机的出现使新兴中小厂商能够提供价格更低,并且同样能兼容多种第三方软件的计算机产品,IBM PC 兼容机市场份额也因此迅速增长,推动了计算机在美国家庭内普及。此后,Windows3.0 于 1990 年推出, 提供了较为成熟的图形界面操作

16、系统, 推动了计算机的普及。这一阶段内,Oracle 数据库等产品最终战胜了主机数据库占领了这一新增市场,从收入规模变化看,1990-2000 年 Oracle 营业收入高速增长,期间 CAGR 达到 27.3%。 2004006008001,0001,200200720182024E亿美元数据库市场规模344002000182020E2025EZB全球数据产生量 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 6 计算机计算机

17、 图表图表7: 90 年代美国计算机销售快速增长年代美国计算机销售快速增长 资料来源:Wind、华泰研究 图表图表8: 90 年代年代 Oracle 营业收入规模高速增长营业收入规模高速增长 资料来源:公司年报、华泰研究 技术积累帮助技术积累帮助 Oracle 开拓小型机市场。开拓小型机市场。 基础软件从产品诞生到走向成熟往往需要十年左右的时间。以 Oracle 为例,公司于上世纪 80 年代初开始产品化,一直处于技术与商业的积累过程。 直到 1992 年, 公司推出旗舰产品 Oracle7, 迅速把握小型机发展带来的市场机遇,在与 IBM DB2 for LUW、Informix、Sybas

18、e 等著名数据库厂商的一系列竞争后,一跃成为行业的霸主。 图表图表9: Oracle 主要数据库产品(主要数据库产品(2010 前)前) 时间时间 数据库产品数据库产品 特点特点 1979 Oracle2 商业 SQL 实现 1985 Oracle5 多版本读取一致性 1988 Oracle6 分布式 SQL&事务处理 1992 Oracle7 旗舰产品,数据库仓库优化 1997 Oracle8 新增对象关系 1998 Oracle8i 全方位 JAVA 支持;为互联网开发设计 2001 Oracle9i RAC、OLAP 2003 Oracle10g 自我管理数据库 2007 Oracle1

19、1g 数据库保险库 资料来源:公司官网、华泰研究 阶段二:小型机到分布式时代,阶段二:小型机到分布式时代,AWS 兴起兴起 分布式架构时代,分布式架构时代,AWS 等数据库兴起。等数据库兴起。随着数据量的增长,传统数据库面临挑战,分布式数据库的访问模式从过去单一标准化的 SQL,向包括 SQL 在内的多种访问模式转化,催生了分布式数据库的发展。2005 年起,人们开始了针对分布式数据库的探索,以 HBase、Cassadra、MongoDB 为代表的 NoSQL 数据库快速发展。此类数据库通过提供 KV 接口、0%10%20%30%40%50%60%70%0204060801001201401

20、6028402002200420062008200162018美国GDP物量指数:计算机最终销售变化率-20%-10%0%10%20%30%40%50%60%0500300350400450258042005200620072008200920000192020亿美元营业收入同比 免责声明和

21、披露以及分析师声明是报告的一部分,请务必一起阅读。 7 计算机计算机 简化存储模型等方式实现容量水平扩展,但对业务的支撑有所减弱。2012 年左右随着Google 关于 Spanner 和 F1 论文的发表,以 Aurora、Spanner 为代表的分布式数据库迅速发展。分布式数据库结合了非关系型数据库的存储管理能力、关系数据库的 ACID 特性和SQL 便利性。从结果看,分布式技术历经十年左右的发展,如今逐步被大量企业接受,而在这一阶段内,AWS aurora 等新兴数据库逐步兴起。 国产分国产分布式数据库布式数据库 2011 年陆续起步。年陆续起步。自 2011 年起,以 Oceanbas

22、e、巨杉数据库、TiDB为代表的国产分布式数据库相继诞生。三者发展路径及商业化时间有所区别,其中Oceanbase 诞生于 2011 年,最初主要用于阿里集团内部,在 2017 年首次实现商用;巨杉数据库诞生于 2011 年,于 2013 年正式发布商用版本,并持续服务于金融银行行业;TiDB于 2015 年发布,重点经营开源策略。 图表图表10: 分布式数据库发展历程分布式数据库发展历程 资料来源:各公司官网、华泰研究 AWS 发展全新的技术体系,把握分布式数据库浪潮。发展全新的技术体系,把握分布式数据库浪潮。AWS 数据库平台可以视为一个大型数据服务资源池,在底层共享统一的存储与计算资源,

23、在上层则提供了 Aurora、RDS、DynamoDB、Neptune 等数据库服务实例,从而实现对更多业务场景和服务模式的覆盖。通过全新的技术体系,亚马逊 AWS 满足了多样化的计算需求,2013-2020 年收入 CAGR达到 46.7%。并且凭借云计算业务的快速扩张,获得了领先的市场地位。截至 2019 年,据Canalys,AWS 在云基础设施市场份额达到 32.3%,具有一定的优势。 图表图表11: AWS 收入及占亚马逊总收入比收入及占亚马逊总收入比 图表图表12: 2019 年全球云基础设施市场份额年全球云基础设施市场份额 资料来源:公司年报、华泰研究 资料来源:Canalys、

24、华泰研究 0%10%20%30%40%50%60%70%80%005002000192020亿美元AWS增速占比AWS32%Microsoft Azure17%Google Cloud6%Alibaba Cloud5%Others40% 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 8 计算机计算机 图表图表13: AWS 数据库技术体系数据库技术体系 资料来源:AWS 官网、华泰研究 进入战国时代,云计算场景推动分布式数据库时代到来进入战国时代,云计算场景推动分布式数据库时代到来 分布式数据库满足云计算场景的需

25、求分布式数据库满足云计算场景的需求 计算场景不断变化,云成为重要的计算场景。计算场景不断变化,云成为重要的计算场景。不同的计算场景对数据库有不同的要求,随着数据量的不断增长,传统的终端计算场景难以满足大量的数据处理需求。而云计算将计算与存储资源弹性、动态分配,边缘计算通过边缘节点提升了计算的效率,实现了高效的数据处理,云端、边缘端的计算场景重要性逐步提升。据 Gartner,全球云计算市场规模由2011 年的 910 亿美元增长到 2019 年的 1880 亿美元,期间 CAGR 达到 9.5%。 图表图表14: 全球云计算市场规模全球云计算市场规模 资料来源:Gartner、华泰研究 分布式

26、数据库能够较好满足云计算场景的需求。分布式数据库能够较好满足云计算场景的需求。分布式数据库将数据库进行资源池化管理,具备多模式、多租户、HTAP、弹性扩张、高可用等特性,与云计算、分布式应用开发模式相匹配。分布式数据库包括底层数据库资源池化管理、多模式两大重要特点。 (1)底层数据库资源池化管理:)底层数据库资源池化管理:指以资源池的方式,上层应用中所有模块在底层数据库资源池中创建独立的数据库实例,服务于自身业务。每一个数据库实例可以提供完全不同的兼容 MySQL、PostgreSQL、MongoDB、S3 等接口,也可以将所使用的底层物理资源扩展到多个服务器中做到自由伸缩,同时也能够保障不同

27、实例之间的数据可以根据策略做到物理或逻辑层面的相互隔离。 在这种体系架构中, 应用程序依然能保持独立的微服务形态。 9000350400201120192023E十亿美元全球云计算市场规模 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 9 计算机计算机 (2) “多模式”特性:) “多模式”特性:指同一套分布式架构底座同时支撑上层超过一种数据访问接口,访问方式包括但不限于 SQL 引擎、类似 JSON 的半结构化数据、S3 的非结构化数据、KV 键值对存储、图数据库接口、时序型数据接口等。通过此种方式,可以对存储于不同的物理服务器、不

28、同格式的数据进行数据结构与算法的优化,从而形成“数据服务平台” ,突破数据库类型的限制,对上层不同类型的应用同时提供多种类型的数据服务。 图表图表15: 云原生概念变迁云原生概念变迁 资料来源:云原生计算基金会、华泰研究 分布式数据库满足云原生需求,或将成为新的增长点:分布式数据库满足云原生需求,或将成为新的增长点:从云原生概念变迁看,云原生使用微服务、容器等技术,目的在于提供更加敏捷的服务支持,协助业务更易于实现扩展及持续交互。分布式数据库通常是基于一个数据集合,这些数据分布在由计算机网络连接起来的若干节点上,每个节点可以管理本地的数据应用,也可以参与全局数据应用,同时这些数据在逻辑上形成一

29、个整体,由统一的数据库管理系统进行管理。从架构上看,分布式数据库提供了灵活的数据服务支持,实际上是一种“云原生”的架构体现。 图表图表16: 全球数据库市场规模(分类别)全球数据库市场规模(分类别) 资料来源:IDC、华泰研究 大数据向分布式数据库倾斜,或形成新增量。大数据向分布式数据库倾斜,或形成新增量。以 Hadoop 为代表的第一代大数据系统框架对大数据技术的落地起了重要的作用。Hadoop 起源于 2004 年,并于 2006 年成为一套独立完整的软件。Hadoop 主要包括文件系统 HDFS 及计算系统 MapReduce,采用计算存储一体化的方式,将巨大的数据集分派到由普通计算机组

30、成的集群中的多个节点进行存储, 并能对数据进行索引和跟踪。但随着数据量和分析需求的复杂性的进一步增加,Hadoop 中“Map+Reduce 模型不适合描述复杂的数据处理过程” 、 “查询效率较低” 、 “时刻在线处理导致使用成本高”等问题逐步显现,分布式数据库或成为大数据领域的新选择。 00500600700800数据库云数据库操作型云操作型数据仓库云数据仓库亿美元20192024E 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 10 计算机计算机 图表图表17: Hadoop 生态模型生态模型 资料来源:Hadoop 官网、华泰研究 Snowflake

31、、Databricks 引领引领数据湖兴起数据湖兴起 数据仓库性能较强,数据湖更具灵活性。数据仓库性能较强,数据湖更具灵活性。数据仓库与数据湖侧重点有所区别,数据仓库关注的是数据使用效率和数据管理, 为企业各级别、 业务线的决策制定提供统一的数据支持,其数据主要来源于业务系统,存储格式以结构化为主,并且历经加工清洗,数据形态显得更加范式化、模型化,因此数据的灵活度较低。相比之下,数据湖则是以原生格式(或者经过粗加工后)进行积累和沉淀,格式丰富多样,有结构化、半结构化、非结构化类型,强调数据的原始性、灵活性和可用性。相比数据仓库,数据湖所储存的数据类型更加丰富,同时开放存储让上层引擎灵活度增加,

32、引擎可随意读写数据湖中数据,兼容的宽松性强。但另一方面,数据湖中文件系统直接访问使得很多更高阶的功能很难实现,如细粒度权限管理、读写接口升级等。 图表图表18: 数据湖数据湖 vs 数据仓库数据仓库 数据湖数据湖 数据仓库数据仓库 灵活性灵活性 启动成本低,灵活性强 启动成本高,需专业学习,灵活性较差 数据类型数据类型 数据类型丰富 数据类型单一 计算存储计算存储 计算存储分离提升稳定性 传统架构不分离 引擎引擎 引擎结构丰富 针对少量场景的高度优化引擎 功能成熟度功能成熟度 数据追踪等相关功能成熟度不高 能实现细粒度权限管理、读写接口升级等功能 安全安全 安全组件效果参差不齐 统一身份认证,

33、安全性高 规模规模 单集群的最大规模有限 多集群的最大规模大 资料来源:Databricks 官网、Snowflake 官网、华泰研究 Snowflake:提供数据仓库、数据湖等多种产品:提供数据仓库、数据湖等多种产品 Snowflake 满足并发性、可扩展性、易用性、平台中立性的需求。满足并发性、可扩展性、易用性、平台中立性的需求。公司完全基于公有云,提供包括数据仓库(Data Warehouse) 、数据湖(Data Lake)在内的多种产品,支持非结构化数据、数据可视化和分析。公司意在打造综合性的云数据平台,其数据库可在三大公有云 AWS、Azure 和 Google Cloud Pla

34、tform 上部署,对于企业多云异构的复杂环境有适用性、中立性,同时亦提供数据交换功能,解决了过去用户面临着投入高、灵活度低等问题,可吸引中小型客户。据公司财报,截至 2020 年 7 月,公司有 3117 个企业客户,同比增长超 100%,截至 2021 财年 Q3,公司的数据提供商已经突破 100 家。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 11 计算机计算机 图表图表19: Snowflake 数据湖产品数据湖产品 vs 数据仓库产品数据仓库产品 数据湖数据湖 数据仓库数据仓库 查询查询 即时且几乎无限数量的并发查询; 使用外部表可以直接查询数据湖中的数据; 数据

35、管道支持实时扩展和可扩展的数据转换,并轻松地将数据载回数据湖; 支持 Snowpipe 和 StreamsTasks 自动提取数据并实现连续数据管道的数据变更捕获; ANSI SQL 有效地转换数据; 外部功能和存储过程扩展管道; 使用分区自动刷新功能从数据湖自动注册新文件;将外部表与 Apache Hive Metastore 同步 完全兼容 ANSI SQL,具有对半结构化数据本机支持; 支持 SQL 及 BI 和机器学习工具查询半结构化数据; 支持几乎无限数量的并发用户和查询; 支持通过 Snowflake Data Marketplace 和私人数据交换访问共享的数据并将其提供给客户和

36、合作伙伴; 跨主要公共云的单一体验; 跨云数据复制可实现无缝的全局数据访问 弹性弹性 实时放大或缩小以优化管道性能;使用各种数据类型和不同的接收样式构建弹性的数据管道; 只需几秒钟,即可配置大小从极小到 6XL 的计算集群,以满足需求;选择多集群计算资源以实现高并发; 存储存储 向所有数据用户提供数据的一个副本(一个真实的来源) 单一的,受管理的且可立即查询的数据源;存储多类型数据,包括 JSON 和 XML;具有 2-3 倍压缩的低成本云存储;数据的单个副本可随时随地使用; 分析分析 支持与 Snowsight 数据探索,内置的可视化界面 针对流行的 BI 和 Analytics 工具优化了

37、直接连接器;通过Snowsight 的内置可视化 UI Snowsight 访问图表和 SQL 分析;支持 BI 和分析,专用计算资源;对地理空间数据和分析的本地支持 安全安全 细粒度的访问控制,例如列级屏蔽和行级过滤;实时,安全的数据共享 权限管理;静态和传输中的自动数据加密;动态数据屏蔽和令牌化;利用功能实现 GDPR 和 CCPA 的合规性;SOC2 类型 2,ISO 27001,PCI,HIPAA,FedRAMP 等的认证 资料来源:Snowflake 官网、华泰研究 图表图表20: Hadoop vs snowflake hadoop snowflake 表现表现 可将不同类型数据存

38、储在分布式环境中,使用MapReduce 进行批处理,使用 Apache Spark 进行流处理 虚拟仓库提供了隔离的工作负载和容量, 可根据需求对工作负载进行分离或分类以及查询处理 易用性易用性 存在部署、配置和维护成本;较为复杂,需要精通Linux 零维护数据库,由 Snowflake 团队完全管理 成本成本 开源项目,无需许可费,但部署、配置、维护费用较高 无需部署,需要支付存储空间使用费用、查询数据花费 数据处理数据处理 批量处理在一段时间内收集的大型静态数据集, 但无法用于运行交互式作业或分析 支持批处理和流处理;虚拟仓库支持低延迟查询 容灾容灾 HDFS 分布式结构保障容灾能力 具

39、备容灾能力和内置多数据中心 安全安全 服务级别的授权;支持加密、传统的文件权限、ACL 通过网络动态加密,在磁盘上静态加密,支持基于角色的授权,单点登录的两因素和联合身份验证 弹性弹性 只能增加集群大小,且需要停机,难以弹性伸缩 可在几毫秒内完成扩展或缩小 存储与计算存储与计算 存储计算一体 存储与计算完全分开 资料来源:Snowflake 官网、Hadoop 官网、华泰研究 数据仓库满足多种使用场景需求。数据仓库满足多种使用场景需求。其中弹性数据仓库的系统会随着负载变化自动扩展或收缩,根据需要向主机复制数据,且并不限制处理请求的数量,从而实现数据服务弹性。数据仓库采取 Shared-noth

40、ing 架构,在节点之间不共享任何数据,此外 Snowflake 基于Multi-cluster, shared data 的概念,将存储和计算分离,解决了升级扩容时需要重新分配节点资源等痛点。在数据支持方面,Snowfalke 支持结构化和半结构化数据的组合使用,可以接收 JSON、XML 或 Avro 格式的数据,并且支持嵌套和重复数据类型,从而满足传统数据库、Hadoop 等半结构化使用场景的使用需求。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 12 计算机计算机 图表图表21: Snowflake 数据仓库架构数据仓库架构 资料来源:Snowflake 官网、华泰研

41、究 Snowflake 数据湖产品强调查询性能、数据管道集成可扩展、安全等。数据湖产品强调查询性能、数据管道集成可扩展、安全等。利用内置数据治理和安全性的同时实现快速的数据访问,具备较好的查询性能,并且对数据转换进行了良好的支持,通过云的模式为客户省去运维成本。在查询性能方面,支持即时和几乎无限的可扩展性和并发性;此外,通过集成和可扩展的数据管道,实现简化数据管道开发以优化性能。 依靠管道实时可靠地扩展来处理繁重的数据工作量和可扩展的数据转换; 在安全方面,则提供了安全的数据协作功能。 图表图表22: Snowflake 数据湖数据湖 资料来源:Snowflake 官网、华泰研究 Snowfl

42、ake 服务各行业客户。服务各行业客户。以 hookit 为例,据公司官网,Snowflake 为 hookit 构建具有可扩展性的多集群共享数据架构数据库, 提高了 Hookit 的运营效率。 查询效率提高 30 倍,每天可自动评估社交帖子 5 亿条,数据仓库基础架构成本降低 40%,消除了 88的内部支持请求,提升了客户的运行效率,使客户能够专注于产品创新。 图表图表23: Snowflake 客户客户 资料来源:Snowflake 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 13 计算机计算机 Databricks:Lakehouse 概念,帮助客户构建

43、统一分析平台概念,帮助客户构建统一分析平台 Databricks 推出推出 Lakehouse 概念。概念。 Lakehouse 是由 “Data Lakes” 与 “Data Warehouses”融合而成。普通的数据湖在数据质量、一致性/隔离性、混合处理追加读取等方面不如数据仓库。Lakehouse 兼容了数据仓库和数据湖的优势,在数据湖的低成本存储上实现数据仓库的数据结构和管理功能。Lakehouse 功能包括事务支持、模式执行和治理、BI 支持、存储与计算分离、开放性、支持多种数据类型、各种工作负载、端到端流。 图表图表24: Lakehouse 资料来源:Databricks 官网、

44、华泰研究 为客户提供统一分析平台提升效率:为客户提供统一分析平台提升效率: 构建统一分析平台, 简化跨功能团队的分析工作流程,使用单一平台查询、调试和探索流式处理和批次数据,以及构建和部署 ML 模型。打造交互式工作空间,促进与共享笔记本环境的合作,使数据科学家能够快速实时在模型上进行重复。同时简化管理,使公司无需人工干预即可完全自动化作业调度、监控和集群管理。以RB 为例,Databricks 为 RB 提供了一个统一的数据分析平台,该平台在数据科学和工程领域营造了可扩展的协作环境, 使数据团队能够更快地进行创新, 并为业务提供 ML 驱动的见解。据公司官网,该方案使得公司业务可支持量提高

45、10 倍,数据从 80TB 压缩到 2TB,降低了运营成本,24*7 个任务的数据管道性能提高 2 倍。 图表图表25: Databricks 客户客户 资料来源:Databricks 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 14 计算机计算机 数据库六大评判维度数据库六大评判维度 综合前文数据库行业的发展历程, 我们总结了数据库的几个评判维度, 主要包括品牌基因、商业模式、内核基础、技术架构、商业落地、人才体系。 品牌基因:品牌定位和创始团队背景品牌基因:品牌定位和创始团队背景 关注品牌基因。关注品牌基因。包含品牌的背景,商用首发时间,资金背景,创始团队

46、背景、厂商主营业务等。品牌基因反映出数据库的品牌特性,商用首发时间较早的数据库厂商往往在传统数据库领域具有较为深厚的积累,近年来新诞生的势力包括独立创新品牌和大厂的数据库产品。从创始团队背景看,则反映出数据库产品的技术背景,当前国产数据库创始团队多来自国内顶尖院校、海外数据库厂商或国内互联网大企业内部培育。此外,由于大数据时代数据库的作用日益重要,在传统的数据库厂商之外,金融服务厂商、ICT 等主营业务非数据库的厂商也推出了自己的数据库产品。主营业务非数据库的厂商基于特定场景延伸出的数据库产品针对特定的行业可能存在一定的竞争优势。但与此同时,相比独立数据库厂商,此类厂商的发展路径及方向可能会受

47、到母公司策略方向的制约。 图表图表26: 数据库品牌基因对比数据库品牌基因对比 Kingbase 达梦数据库达梦数据库 GBase 巨杉数据库巨杉数据库 TiDB Oceanbase GaussDB(openGauss) 商用首发 1999 2000 2006 2013 2015 2017 2019 品牌类型 传统品牌 传统品牌 传统品牌 独立创新品牌 独立创新品牌 大厂子产品 大厂子产品 创始团队 背靠 CETC 中国电子科技集团 创始团队来自人大信息学院 中国电子信息产业集团(CEC)旗下基础软件企业 创始人曾美国信息行业工作十年 归国创业 创始团队来自原 DB2北美实验室及华为存储团队

48、创业团队,创始人曾任豌豆荚,京东资深系统架构师 互联网企业内部孵化,双 11 等 华为内部 资金背景 国资 国资 民营 创业 创业 母公司子产品 母公司子产品 厂商 人大金仓 武汉达梦 南大通用 巨杉数据库 PingCAP 蚂蚁金服 华为 主营业务 数据库 数据库 数据库 数据库 数据库 金融服务 ICT 资料来源:人大金仓官网、达梦数据库官网、南大通用官网、巨杉数据库官网、TiDB 官网、Oceanbase 官网、华为官网、华泰研究 商业模式:基础软件需要企业级服务,开源具有两面性商业模式:基础软件需要企业级服务,开源具有两面性 数据库是基础软件,稳定性较为重要。数据库是基础软件,稳定性较为

49、重要。基础软件指操作系统、数据库、中间件等服务于软件开发者的,最底层的软件。此类软件直接调度 CPU、内存、磁盘、网络等硬件设备,因此稳定性较为重要。数据库在 IT 架构中扮演着承上启下的角色,向下对接操作系统,需要直接调度各类硬件,分布式数据库还需要协调多台服务器形成整体的可管理集群,深度参与跨节点事务控制及网络优化以获得最佳性能;向上则需要支撑大量不同形态的上层应用。与应用软件相比,数据库作为基础软件更加注重稳定性。 图表图表27: 数据库在数据库在 IT 架构中的位置架构中的位置 资料来源:华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 15 计算机计算机 开源具

50、备两面性,企业级服务厂商具备稳定性优势。开源具备两面性,企业级服务厂商具备稳定性优势。开源将二次修改使用源代码的权利公开,有助于快速的积累用户,当客户将包含开源产品的内容通过闭源方式销售时则需要支付费用,厂商实现用户资源变现。但相比企业级服务,开源往往通过技术社区的方式维系,缺乏法律合约关系,开发者响应速度难以保障,并且在社区参与者过多的情况下维护难度也有所提升。相比之下,企业级服务具有稳定性的优势。因此对于数据库等重视稳定性的基础软件,企业级服务产品具备一定的优势。 图表图表28: 基础软件基础软件 VS 应用软件应用软件 基础软件基础软件 应用软件应用软件 代表代表 数据库、操作系统、中间

51、件 办公软件、ERP 等 服务对象服务对象 开发者 使用者 关注点关注点 协调调度各类硬件,支撑上层应用 业务流程与真实事件及使用需求的关系 需求需求 稳定性,服务能力 开发能力,快速迭代适应发展 迭代方式迭代方式 需要进行严格的稳定性、性能、功能测试;通过多个版本稳步推进 快速迭代,甚至通过 AB 测试发布探索需求 资料来源:华泰研究 图表图表29: 各开源产品各开源产品协议调整协议调整情况情况 时间时间 事件事件 2018 年 10 月 MongoDB 调整开源协议,明确要求托管 MongoDB 实例的云计算公司要么获取商业许可证要么向社区开源其服务代码 2018 年 11 月 Neo4j

52、 3.5 版本开始,企业版将仅在商业许可下提供,不再开源 2018 年 9 月 Redis 调整开源协议,限制了 Redis 涵盖软件的销售 2020 年 12 月 CentOS 宣告未来将不再作为红帽 RHEL 下游的 rebuild 分支,调整为作为 RHEL 的上游开发分支 2021 年 1 月 Elasticsearch 将其软件堆栈的核心由 Apache 2 改为一种限制性更强的许可协议 ( SSPL 与 Elastic License) 资料来源:MongoDB 官网、Neo4j 官网、Redis 官网、CentOS 官网、华泰研究 开源或闭源模式均需导向企业级服务。开源或闭源模式

53、均需导向企业级服务。开源具有两面性,通过将二次修改使用源代码的权利公开,打造开发者生态,有助于快速的积累用户。但开源和闭源并非不会改变,同一家数据库厂商可能在不同的阶段选择开源或闭源,此外,在同一时期,也可能同时发布开源、闭源的不同版本产品。如 Oceanbase、GaussDB 均经历过开源与闭源的切换。但一般来说开源版本往往较低,企业级服务需要最新,最稳定的性能,因此闭源模式的产品较为适合。 内核基础:原厂自研能力关键,掌控核心代码或成重要竞争力内核基础:原厂自研能力关键,掌控核心代码或成重要竞争力 企业级原厂服务有助于从源头解决问题。企业级原厂服务有助于从源头解决问题。企业级服务包括企业

54、级原厂服务及第三方支持服务。企业级原厂服务指掌握每一行核心代码,可以从源头解决软件核心问题的厂商,企业通过购买其产品及服务,可以获得系统故障过后第一手的服务承诺。而第三方支持服务,如同数据库行业中各类运维服务商,在成熟的市场体系下可以协助客户以更低的成本获取常规服务支持,但由于第三方支持服务商往往不具备产品的核心研发能力,因此往往作为服务辅助。 图表图表30: 企业级原厂服务企业级原厂服务 VS 第三方支持服务第三方支持服务 资料来源:华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 16 计算机计算机 企业级原厂服务掌握迭代控制权,有助于持续发展。企业级原厂服务掌握迭代

55、控制权,有助于持续发展。开源社区及第三方厂商虽然拥有更改源代码的能力,但其更改存在不被主流社区接纳,最终与主社区脱节的风险,因此稳定性上存在一定隐患。相比之下,企业级原厂服务掌握迭代控制权,有助于持续发展。在分布式数据库的厂商选择上同样如此,具有全面掌握所有核心代码主导权的厂商所提供的企业级原厂服务能形成更加有力的技术支持。国内商业闭源的分布式数据库厂商大多为主研发,具备企业级服务基因。 图表图表31: 企业级原厂服务企业级原厂服务 VS 开源数据库开源数据库 资料来源:华泰研究 关注是否为完全自研可控。关注是否为完全自研可控。数据库内核是否自研关系到数据库厂商是否完全能掌握迭代控制权,目前国

56、产数据库多采取具备自主知识产权的自研内核。选取具备自研内核的数据库产品有助于提升产品升级迭代的稳定性和可控性,对于重视稳定性的基础软件领域,自研可控是重要的考虑因素。 图表图表32: 数据库内核自研情况数据库内核自研情况 数据库数据库 内核内核 Kingbase 自研 达梦数据库 自研 GBase 自研+Informix 商用代码 巨杉数据库 自研 TiDB 自研+RocksDB Oceanbase 自研 GaussDB(openGauss) 自研+PostgreSQL 开源 资料来源:人大金仓官网、达梦数据库官网、巨杉数据库官网、TiDB 官网、Oceanbase 官网、GaussDB 官网

57、、华泰研究 技术架构:不同数据库适用于不同场景技术架构:不同数据库适用于不同场景 关系型数据库关系型数据库 vs 非关系型数据库。非关系型数据库。根据数据存储结构区分,可以分为关系型数据库、非关系型数据库,其中非关系型数据库根据存储方式又可以分为键值数据库、列数据库、文档数据库、图数据库等。非关系型数据库在读写性能、扩展性上具有一定的优势,因此较适应大数据、高并发等场景,而关系型数据库具备强一致性,遵循 ACID 原则,因此在事务支持中具备优势。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 17 计算机计算机 图表图表33: 关系型数据库关系型数据库 vs 非关系型数据库非关

58、系型数据库 关系型数据库关系型数据库 非关系型数据库非关系型数据库 代表代表 Oracle 、Mysql,SqlServer、Aurora、DB2 MongoDB、Redis、Memcache 存储方式存储方式 表格,便于查询 数据集,包括键值对、图结构或者文档等 存储结构存储结构 结构化方法,可靠性高,但修改困难 动态结构 存储规范存储规范 按照最小关系表的形式进行存储,避免重复,但管理较为复杂 平面数据集,利于读写 扩展方式扩展方式 纵向扩展(提升计算机性能) 分布式,横向拓展(添加更多服务器) 查询方式查询方式 结构化查询语言 SQL 非结构化查询语言 UnQL 事务性事务性 ACID

59、原则(原子性、一致性、隔离性、持久性) BASE(基本可用、软状态、最终一致性) 读写性能读写性能 性能较低,需要解析 适用于大数据场景 资料来源:华泰研究 图表图表34: 非关系型数据库分类非关系型数据库分类 非关系型数据库类别非关系型数据库类别 代表代表 优点优点 缺点缺点 键值数据库键值数据库 Redis、DynamoDB 、Memcached 能够进行数据的快速查询 需要存储数据之间的关系 列数据库列数据库 Hbase 、Cassandra 快速查询,扩展性强 数据库的功能有局限性 文档数据库文档数据库 MongoDB、AWS DocumentDB、CouchDB 对数据结构要求不特别

60、的严格 查询性差,缺少一种统一查询语言 图形数据库图形数据库 Neo4J 、InfoGrid、Neptune 方便的利用图结构相关算法进行计算 必须进行整个图的计算,对数据模型有一定要求 时间序列数据库时间序列数据库 Timestream、Prometheus、Influxdb、opentsdb 持续高并发写入 分析功能较弱 资料来源:华泰研究 集中式数据库集中式数据库 vs 分布式数据库。分布式数据库。 根据系统架构分, 可以分为集中式数据库、 分布式数据库。分布式数据库在可扩展性、高并发支持方面具有优势,集中式数据库在事务性支持上遵循ACID 原则,在事务支持上具备优势。从优劣势看,分布式

61、数据库的优劣势与非关系型数据库类似,而近年来,分布式数据库不断发展,在提供高弹性、支持高并发的同时,与关系型数据库强事务性支持的特性进一步结合。 图表图表35: 集中式数据库集中式数据库 vs 分布式数据库分布式数据库 集中式数据库集中式数据库 分布式数据库分布式数据库 可扩展性可扩展性 有限,支持纵向扩展 支持横向扩展 并发访问量并发访问量 性能、数据量提升方式只针对单机,导致其成本高且瓶颈明显 存储集群,支持更高并发访问 自治性自治性 集中式控制 局部 DBMS 自治性 兼容性兼容性 无法进行非结构化大数据处理,硬件兼容能力较差 可支持非结构化大数据处理 坚固性坚固性 较低 个别节点发生故

62、障仍可降低级别使用 成本成本 需要高配置硬件,成本较高 成本相对较低 事务性事务性 遵循 ACID 遵循 CAP、BASE;少数产品提供 ACID 能力 资料来源:华泰研究 磁盘数据库磁盘数据库 vs 内存数据库。内存数据库。根据存储设备分,可以分为磁盘数据库、内存数据库。内存数据库指将数据放在内存中直接操作的数据库,具备读写速度快的优势。相比之下,磁盘数据库在容量大小、数据安全性能方面具有一定的优势。从内存数据库及磁盘数据库的特点看,内存数据库适用于对读写要求较高,快速开发的场景。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 18 计算机计算机 图表图表36: 内存数据库内

63、存数据库 vs 磁盘数据库磁盘数据库 内存数据库内存数据库 磁盘数据库磁盘数据库 处理速度处理速度 内存读写较快,处理速度较快 受系统调用等影响,数据量大时容易出问题 容量大小容量大小 受物理内存限制 较大 数据存储数据存储 不需要连续存放 连续存放 缓冲管理缓冲管理 不需要 需要 索引结构索引结构 哈希、AVI 树、T 树、B 树 B 树、B+树、哈希 并发控制并发控制 大粒度锁 细粒度锁加锁、解锁、死锁检测 查询优化查询优化 基于处理器代价及 Cache 代价 基于 I/O 代价 安全性安全性 内存本身有掉电丢失的缺陷,需要采取保护机制 较好 资料来源:华泰研究 数据库技术架构评判要点与计

64、算场景、数据类型相关。数据库技术架构评判要点与计算场景、数据类型相关。计算场景的变化、数据结构的丰富等,催生出不同的数据库需求。纵观数据库的发展历程,我们总结出了以下几个评判数据库技术架构的要点,不同的场景对每个维度的侧重有所不同。 查询:查询:随着数据类型的丰富,传统的关系型数据库难以满足需求,新兴的非关系型数据库增加了针对多种非结构化数据类型的查询方法,数据库查询方式决定了其适用的数据类型。在数据类型日益丰富的今天,查询方法是评判数据库的重要维度。 容量大小容量大小&弹性:弹性:随着数据量的不断提升,容量大小和弹性的重要性逐步上升。 (1)容量大小:)容量大小:内存数据库受限于物理内存大小

65、,相较于磁盘数据库容量上存在劣势,因此使用场景也相应受到限制; (2)弹性:)弹性:分布式数据库支持通过添加服务器的横向扩展方式,使数据库获得了更高的性能,而传统的集中式关系型数据库支持提升处理器性能的方式纵向扩展,相比之下弹性较弱。面对高并发的分析型、大数据类任务,分布式数据库就体现出一定的优势。 事务支持:事务支持:事务支持要求具备一致性原则,传统的关系型数据库在事务支持方面遵循了ACID 原则,包括原子性、一致性、隔离性、持久性,从而实现较好的事务支持。非关系型数据库在事务支持方面仅能遵循大部分 BASE 原则,即基本可用、软状态、最终一致性,在事务支持上相对较弱。 安全性:安全性:数据

66、安全性是评判数据库的重要维度之一,随着云计算、大数据等新技术在数据库领域逐步应用,安全性的概念也不断延伸,不仅包括容灾能力,还包括数据安全、数据协同的权限管控等方面。 成本:成本:成本包括硬件成本、软件成本、运维成本等,云数据库通过云模式降低了运维成本及硬件采购成本。此外,随着分析场景的丰富,在评判数据库成本时应该采取动态的视角,考虑包括弹性扩容成本、后续运维成本在内的各项成本。 落地情况:中标客户行业落地情况:中标客户行业&应用场景应用场景 关注数据库的落地情况。关注数据库的落地情况。不同行业对数据库的需求有所区别,处理事务的复杂性、对安全稳定的要求、付费意愿均会产生不同。一般来说,金融、电

67、信类场景由于处理量大,宕机代价较高,因此对于安全、稳定性有较强的诉求,能够首先在金融、电信类场景落地通常意味着在性能、安全等方面达到了较高的标准;因此金融、电信等领域落地情况可以大致作为数据库安全、稳定性的筛选维度之一;此外金融、电信、互联网类场景往往具备高并发特征,需要不断扩展,并且往往能够积累下大量数据,为分析打下了良好的基础,适合分布式数据库,因此分布式数据库的选择可以重点关注以上行业的案例。在此之外,能够积极向其他场景延伸则体现出数据库产品的延伸性,有助于不断打开新的市场空间。从国内分布式数据库当前的落地情况看,金融、党政、电信也是目前主要的落地场景,除此之外,互联网、电力能源、教育也

68、是重要的落地场景。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 19 计算机计算机 图表图表37: 代表客户及覆盖行业代表客户及覆盖行业 金融金融 党政党政 电信电信 其他其他 kingbase 光大银行 北京市政务云 中国电信山东分公司 电力、国防、能源等 达梦 建设银行等 国家工商总局等 中国联通 国土、住建、铁路、航空、教育、电力等 Gbase 中国银行等 广东省税务局 中国移动 能源、气象局等 巨杉 民生银行等 广州市人民政府 中国移动 电力能源、互联网等 TiDB 浙商银行等 吉林祥云 中移物联网 泛互联网 oceanbase 中国人保等 - 浙江移动 - open

69、gauss 工商银行等 陕西财政厅 浙江移动 互联网、汽车等 注:本表所示客户均为来自表中提及的各个数据库官网的公开案例 资料来源:各公司官网、华泰研究 公开的人才体系:自营公开的人才体系:自营培训培训认证认证体系体系、企业技术级社区、企业技术级社区 公开人才体系体现生态建设成效。公开人才体系体现生态建设成效。公开的人才体系包含自营社区、培训认证等部分。数据库厂商推出培训认证,系统的培养厂商数据库人才,在提升数据库人才水平的同时培养了使用者的使用习惯,有助于生态的建设。另一方面,通过自营社区论坛,能够提供开发者交流的空间,有助于使用者拓展技术前沿视野,在提升使用者水平的同时,促进技术生态发展,

70、一定程度上社区论坛的活跃度能够反映数据库的生态建设成效。 图表图表38: 国产数据库厂商公开人才体系国产数据库厂商公开人才体系 自营社区自营社区 情况情况 培训认证培训认证 情况情况 kingbase 金仓社区 贴子数 4000+ 金仓学院 包括三类培训, 2020 年培训 3200+, KCA学习人数 5 万+ 达梦达梦 达梦服务社区 BBS 注册人数3 万,帖子4000+ 达梦大学 包含四个等级,认证学员数千人 Gbase Gbase 社区 帖子数量 2 万+ Gbase 学院 包含三个等级, 巨杉巨杉 企业级社区 注册5 万人 巨杉大学 认证工程师1 万人,注册学员2 万人 TiDB T

71、iDB 社区 6000+主题 基于开源社区/Pingcap university GitHub Star:27K/两个级别认证 Oceanbase Oceanbase 社区 100+博客 oceanbase 学院 已推出两级认证,截至 2020 年 12 月其中 OBCA 已认证 5000+人 opengauss - - 基于开源社区 GitHub Star:208 注:数据截至 2021 年 3 月 资料来源:人大金仓官网、达梦官网、GBase 官网、巨杉数据库官网、TiDB 官网、Oceanbase 官网、华为官网、华泰研究 图表图表39: 商用首发及行业重要协议发布时间对比商用首发及行业

72、重要协议发布时间对比 资料来源:人大金仓官网、达梦官网、GBase 官网、巨杉数据库官网、TiDB 官网、Oceanbase 官网、华为官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 20 计算机计算机 图表图表40: 数据库比较维度数据库比较维度 数据库产品数据库产品 Kingbase 达梦数据库达梦数据库 GBase 巨杉数据库巨杉数据库 TiDB Oceanbase OpenGauss 商用首发商用首发 1999 2000 2006 2013 2015 2017 2019 品牌类别品牌类别 传统品牌 传统品牌 传统品牌 独立创新品牌 独立创新品牌 大厂子产品

73、 大厂子产品 创始团队创始团队 背靠 CETC 中国电子科技集团 创始团队来自人大数据库研究专家 中国电子信息产业集团(CEC)旗下基础软件企业 创始人曾美国信息行业工作十年 归国创业 创始团队来自原DB2 北美实验室及华为存储团队 创业团队,创始人曾任豌豆荚,京东资深系统架构师 互联网企业内部孵化,双 11 等 华为内部 厂商厂商 人大金仓 武汉达梦 南大通用 巨杉数据库 PingCAP 蚂蚁金服 华为 主业务主业务 数据库 数据库 数据库 数据库 数据库 金融服务 ICT 商业模式商业模式 商业闭源 商业闭源 商业闭源 商业闭源 开源+商业服务 开源+商业服务 开源+商业服务 资金背景资金

74、背景 国资 国资 民营 创业 创业 母公司子产品 母公司子产品 融资融资 - - - D 轮 D 轮 - - 内核基础内核基础 自研 自研 自研+Informax 商用代码 自研 自研 自研 自研+PostgreSQL开源 技术架构技术架构 集中式 集中式 集中式 原生分布式 原生分布式 原生分布式 原生分布式 技术特色技术特色 支撑 6 级灾难恢复能力等级要求 支持双机热备 用户并发数达到“万”级 KES V8 兼容多种类型数据 与异构数据库兼容 完整的 SQL 特性支持 多副本数据异地容灾 存储分离的系统架构 节点数支持 64 个 支持 PB 级数据高效管理 金融电信级高可用能力 STP

75、序列时钟协议专利 金融级四层容灾熔断 引擎级多模 跨引擎事务一致性 100%兼容 MySQL HTAP-S 混合负责 跨多云部署 多副本存储 Raft 多数派选举算法 100%一致性 高度兼容 MySQL 故障自动恢复 多副本架构 单集群多租户设计 公有云、私有云、混合云等多种部署形式 支持 Oracle、MySQL 行列混存+向量化执行 数据节点 HA +Handoff 技术 可扩展至 2048 节点 基于通用X86/Kunpeng 架构 客户客户 上海政府、 国家石油天然气管网公司等 国家市场监督管理总局等 中国人民银行、中国移动等 广发银行、民生银行、南方电网等 万达网络科技集团、微众银

76、行等 浙江移动等 工商银行、陕西财政厅等 公开的人才公开的人才体系体系 金仓学院 金仓数据库工程师认证 金仓社区 达梦大学 自营达梦认证 GBase 认证 GBase 8a 中文社区 自营企业级技术社区 社区注册5 万人 自营培训巨杉大学认证 认证工程师1 万人 注册学员2 万人 基于开源社区 GitHub Star:27K 基于开源社区 GitHub Star:124 基于开源社区 GitHub Star:208 资料来源:人大金仓官网、达梦数据库官网、GBase 官网、巨杉数据库官网、TiDB 官网、Oceanbase 官网、OpenGauss 官网、华泰研究 免责声明和披露以及分析师声明

77、是报告的一部分,请务必一起阅读。 21 计算机计算机 国内数据库国内数据库市场:新兴与传统厂商并存市场:新兴与传统厂商并存 人大金仓:背靠人大金仓:背靠 CETC 中国电子科技集团,老牌数据库中国电子科技集团,老牌数据库 背靠背靠 CETC 中国电子科技集团,拥有三类核心产品。中国电子科技集团,拥有三类核心产品。人大金仓背靠 CETC 中国电子科技集团,由中国人民大学最早一批从事数据库研究的专家于 1999 年发起创立,先后承担了国家“863” 、 “核高基”等重大专项。人大金仓拥有三类核心产品,分别为数据存储计算、数据采集交换以及数据应用分析。其中金仓交易型数据库 KingbaseES,是入

78、选国家自主创新产品目录的数据库产品,也是国家级、省部级实际项目中应用较为广泛的国产数据库产品。 图表图表41: 人大金仓发展人大金仓发展史史 资料来源:人大金仓官网、华泰研究 分布式数据库产品分布式数据库产品 KSOne 具备应用透明,支持水平扩展等特点。具备应用透明,支持水平扩展等特点。人大金仓旗下的 KSOne是一款面向交易型业务场景、 实时分析场景、 时间序列等场景的 HTAP 分布式数据库产品,具有可横向弹性伸缩、高可用、可跨域分布部署、应用透明度高等特点。该产品采用分布式集群架构,支持水平数据分片等智能分片算法。此外,支持并行加载与并行计算,数据导入速度达到 50GB/分钟,有助于进

79、行实时分析。 图表图表42: 人大金仓数据库产品人大金仓数据库产品 资料来源:人大金仓官网、华泰研究 人大金仓主要致力于为政务、能源、国防、金融、公安、电信等国家企事业单位提供解决人大金仓主要致力于为政务、能源、国防、金融、公安、电信等国家企事业单位提供解决方案。方案。据公司官网,人大金仓为北京市资源中心构建大数据平台,面向大数据中心用户以及委办局用户提供数据管理和服务,用户可利用北京市大数据管理平台的能力和服务,开展数据的管理、处理、分析与可视化等工作,支撑各类业务应用。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 22 计算机计算机 图表图表43: 人大金仓北京市资源中心

80、大数据平台示意图人大金仓北京市资源中心大数据平台示意图 资料来源:人大金仓官网,华泰研究 武汉达梦:背靠中国电子,主攻混合型数据库武汉达梦:背靠中国电子,主攻混合型数据库 HTAP 背靠背靠 CEC 中国电子,主攻混合型数据库中国电子,主攻混合型数据库 HTAP。武汉达梦成立于 2000 年,为中国电子信息产业集团(CEC)旗下基础软件企业。应用于金融、电力、航空、通信、电子政务等 30 多个行业领域。 武汉达梦主攻混合型数据库 HTAP, 旨在用一种数据库模式处理客户所有数据库需求,适合业务广、数据量大的综合型客户使用。武汉达梦目前已掌握数据管理与数据分析领域的核心前沿技术,拥有全部源代码,

81、具有完全自主知识产权。其主要产品有:达梦 HTAP 数据库管理系统 DM8、达梦大数据集群软件 DMMPP 等产品。 图表图表44: 达梦数据库产品达梦数据库产品 资料来源:达梦数据库官网、华泰研究 达梦主推透明分布式数据库 (达梦主推透明分布式数据库 (DMTDD) 技术。) 技术。 达梦提出的 DMTDD 技术包括灵活横向扩展、完整的 SQL 特性支持、多副本数据异地容灾的特点。结合了分布式数据库高可扩展、高可用、高并发处理能力,并支持传统数据库开发接口和业务开发框架的技术架构。 (1)灵活横向扩展:DM8 TDD 采用计算存储分离的系统架构,实现计算、日志、存储三层分离,可实现各层独立扩

82、展、按需配置设备的特点。 (2)完整的 SQL 特性支持:支持多表连接查询、子查询、视图嵌套查询、递归表达式查询等高级查询语法。提供存储过程、触发器、Package、序列等高级功能特性。 (3)多副本数据异地容灾:支持异地部署,通过将数据副本存储在不同的容灾域,实现数据的异地容灾。日志服务本身具备副本与容灾能力,可在每个数据中心分别部署日志服务节点。数据库服务在主机房按需部署,在本地和异地备用机房日常无需部署,只需在检测到灾害时,即时启动。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 23 计算机计算机 图表图表45: 达梦透明分布式数据库(达梦透明分布式数据库(DMTDD)

83、 资料来源:达梦数据库官网、华泰研究 为解决能源行业神华集团加强集中管控能力、解决信息孤岛问题、提升跨区交互能力、进行复杂统计、提高应用型容灾的需求,武汉达梦使用 DM7 数据库管理系统以及相关数据集群、DMETL 组件、DMHS 同步套件等产品、DMHS 数据同步工具,从而保证业务系统的连续性和跨站点的高可用性。 此外, 据公司官网, 神华集团数据库工程使用普通 PC SERVER的达梦数据库服务器成功替换 Oracle 一体机,降低用户成本。同时,达梦采用现有设备创建同城容灾系统,保障系统稳定运行。 图表图表46: 达梦能源行业解决方案示意图达梦能源行业解决方案示意图 资料来源:达梦数据库

84、官网,华泰研究 巨杉数据库:自研金融级分布式数据库独立厂商巨杉数据库:自研金融级分布式数据库独立厂商 巨杉数据库成立于 2011 年,是一家专注分布式数据库技术研发的自研数据库独立厂商。针对市场对业务中台、微服务架构、非结构数据管理、敏捷开发的不同需求,SequoiaDB 巨杉数据库已推出:DP(湖仓一体数据平台) 、TP(事务型数据库) 、CM(内容管理数据库)和 DOC(文档型数据库)四大产品线。 企业基因:从商用首发时间看,巨杉数据库是国内最早进行商业化布局的分布式数据库。企业基因:从商用首发时间看,巨杉数据库是国内最早进行商业化布局的分布式数据库。2011 年, SequoiaDB 巨

85、杉数据库作为独立数据库公司开始研发, 进行原生分布式架构布局。2013 年 SequoiaDB v1.0 产品化正式商用并进军企业级领域,开始为客户提供产品及技术服务支持。 商业模式: 打造企业级产品标杆。商业模式: 打造企业级产品标杆。银行业是体现数据库产品能力的标杆行业, 据赛迪顾问,2019 年中国金融 IT 市场规模中,银行 IT 占据了 50%以上的市场份额。一家银行历经了几十年的法律和业务规则的演进,通常拥有超过上百种的业务系统。因此业界公认,在选择技术产品的过程中,银行对于数据稳定性、安全性和数据处理性能等企业级功能,要求是最为严苛的。银行作为企业级产品应用的标杆行业,能被其采用

86、的产品均达到了金融级产品的最高标准,自然更能够满足其他行业的要求。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 24 计算机计算机 巨杉采用企业级服务的商业化策略,对于重视稳定性的基础软件数据库而言,相较于开源模式在版本迭代的稳定性上具有更符合企业运行标准的竞争优势。借此,巨杉数据库不断向金融等关键行业拓展。自 2014 年首次进入金融行业以来,已经在国内金融行业进行了大规模的实践与使用,应用场景也覆盖了联机交易、数据中台、内容管理以及实时数据服务等多类业务。 图表图表47: 巨杉数据库发展历程巨杉数据库发展历程 资料来源:巨杉数据库官网、华泰研究 自研内核:自研内核具有领先

87、性。自研内核:自研内核具有领先性。巨杉数据库坚持从零开始打造原生分布式数据库引擎,专注数据库技术研发,聚焦金融赛道,致力于以金融行业为核心,打造安全可靠、高性能,适合全行业通用的分布式数据库产品。基于分布式技术架构,研发出引擎级多模及 STP 逻辑时钟协议分布式数据库技术, 能够实现分布式交易与 ACID 与传统技术完全兼容, 架构及功能特性与传统数据库完全兼容,提供跨引擎事务支持和一致性保障。基于多副本隔离机制, 其 HTAP 混合负载能力能够实现计算、 I/O资源互不干扰的 OLTP/OLAP 混合负载管理,充分释放资源,进一步提升系统稳定性。巨杉数据库支持多种级别的容灾部署形态,如同城双

88、中心、同城三中心、两地三中心甚至三地五中心等,独创四级熔断容灾安全保护机制,充分保证数据安全,满足核心交易业务的严苛要求。 图表图表48: 巨杉数据库架构巨杉数据库架构 资料来源:巨杉数据库官网、华泰研究 客户:客户:巨杉主要为金融业提供数据库产品。巨杉主要为金融业提供数据库产品。巨杉数据库具备丰富的服务大型企业的解决方案和经验,据公司官网,巨杉数据库已在超过 100 家大型银行及金融机构的生产业务规模上线应用。其中民生银行的生产环境集群包含超过 160 台物理服务器,三副本数据量达 2460TB,基于巨杉数据库实现的非结构化数据管理平台已接入的各类系统达到 100 套。 免责声明和披露以及分

89、析师声明是报告的一部分,请务必一起阅读。 25 计算机计算机 图表图表49: 巨杉数据库巨杉数据库在民生银行的应用架构在民生银行的应用架构 资料来源:巨杉数据库官网、华泰研究 同时,巨杉数据库的应用范围已扩展至证券、保险、电信、政府、能源、互联网、交通等多个行业。据公司官网,目前,巨杉数据库的企业用户总数超过 1000 家。目前,巨杉数据库支持超过 4096 节点,超 10PB 级别存储容量,已成功协助客户在高达 1.2 万亿数据量生产环境下,提供安全稳定、可灵活扩展、高性能、高并发的数据底座。 图表图表50: 巨杉数据库巨杉数据库主要客户主要客户 资料来源:巨杉数据库官网、华泰研究 生态:助

90、力技术生态体系建设。生态:助力技术生态体系建设。巨杉数据库积极参与信创生态建设,据 2021 年信创产业技术与应用大会,截至 2021 年 3 月,巨杉已经与鲲鹏、飞腾、统信、银河麒麟等产品完成兼容认证,合作伙伴总数超 50 家,为企业客户打开丰富的上下游产品生态。 2019 年,巨杉数据库搭建巨杉大学认证与学习体系,讲师团队由巨杉数据库官方的数据库架构师、资深分布式技术专家以及开源社区技术大咖共同组成。目前,已有超 180 家金融机构,30 余家知名技术服务开发商参加巨杉大学计划。截至 2020 年底,经过短短 1年的发展,巨杉大学已认证工程师超过 1 万人,网站用户注册数量超过 5 万人,

91、为分布式技术业界发展提供坚实的人才积淀。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 26 计算机计算机 PingCAP TiDB:开源分布式关系型数据库:开源分布式关系型数据库 建立以分布式数据库为统一中心的架构。建立以分布式数据库为统一中心的架构。TiDB 是 PingCAP 公司自主设计、研发的开源分布式关系型数据库,是一款同时支持在线事务处理与在线分析处理的融合型分布式数据库产品。2015 年 9 月,借鉴 Google Spanner 及 F1 论文的实现,TiDB 在 Github 上开源,从仅有 SQL 层及 KV 层的 beta 版本到现在已经衍生出庞大家族的

92、 4.0 版本, 始终围绕着解决分库分表问题,为用户提供一站式 OLTP、OLAP、HTAP 解决方案的目标演进。在内核设计上,TiDB 分布式数据库将整体架构拆分成了多个模块,各模块之间互相通信,组成完整的 TiDB 系统。与传统的单机数据库相比,TiDB 的纯分布式架构拥有良好的扩展性且具有丰富的工具链生态,覆盖数据迁移、同步、备份等多种场景。 图表图表51: TiDB 整体架构图整体架构图 资料来源:TiDB 官网、华泰研究 多应用场景多应用场景,适合不同业务需求。,适合不同业务需求。依托纯分布式架构,及开源社区,TiDB 持续扩展出丰富的应用场景。一是对数据一致性及高可靠、系统高可用、

93、可扩展性、容灾要求较高的金融行业属性的场景, TiDB采用多副本+Multi-Raft协议的方式将数据调度到不同的机房、 机架、机器,当部分机器出现故障时系统可自动进行切换;二是对存储容量、可扩展性、并发要求较高的海量数据及高并发的 OLTP 场景,TiDB 采用计算、存储分离的架构,可对计算、存储分别进行扩容和缩容,计算最大支持 512 节点,每个节点最大支持 1000 并发,集群容量最大支持PB级别; 三是Real-time HTAP场景, TiDB在4.0版本中引入列存储引擎TiFlash结合行存储引擎 TiKV 构建真正的 HTAP 数据库,在增加少量存储成本的情况下,可以同一个系统中

94、做联机交易处理、实时数据分析,极大地节省企业的成本;四是数据汇聚、二次加工处理的场景,TiDB 通过 ETL 工具或者 TiDB 的同步工具将数据同步到 TiDB,在 TiDB中直接生成报表,便于将分散在不同系统中的数据汇总,以便决策层了解公司的整体业务状况及时做出决策。 “开源社区” 助力 “开源商业化” 。“开源社区” 助力 “开源商业化” 。 PingCAP 拥有丰富的开源技术社区活动, 依托开源社区,在自身快速发展过程中不断回馈社区,形成开源社区和自身研发的有效协同。通过开源及免费策略,快速扩展开发者及技术粉丝用户群体,以长期积累未来商业变现的机会。据GitHub, 截至2021年3月

95、, TiDB 项目在 GitHub 上已总计获得超过 27000 颗星, 超 4200 位开源代码贡献者,参与企业包括美团、知乎、小米、微众银行等众多企业,高度活跃的开源社区为 TiDB 产品发展带来了正向反馈闭环。在此基础上,TiDB 已被广泛应用于互联网、游戏、金融、大型企业、政府等多领域的领先企业的实际生产环境中,当中还包括多个国外不同地区的用户。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 27 计算机计算机 图表图表52: TiDB 国内国内主要主要用户用户 资料来源:TiDB 官网、华泰研究 阿里阿里 Oceanbase:金融级分布式关系数据库:金融级分布式关系数

96、据库 发端于阿里内部,逐步商业化。发端于阿里内部,逐步商业化。OceanBase 是由蚂蚁金服、阿里巴巴完全自主研发的分布式关系型数据库,始创于 2010 年。应用于支付宝全部核心业务以及阿里巴巴淘宝业务。从2017年开始, 开始服务外部客户。 2020年6月8日, 蚂蚁集团将自研数据库产品OceanBase独立进行公司化运作,同年 9 月,中国工商银行开始采用蚂蚁自研数据库 OceanBase,其对公(法人)理财系统已完成从大型主机到 OceanBase 分布式架构的改造。Oceanbase商业化逐步推进。 图表图表53: Oceanbase 发展历程发展历程 资料来源:OceanBase

97、官网、华泰研究 OceanBase 是一个金融级分布式关系数据库。是一个金融级分布式关系数据库。具备在线水平扩展能力;GeaBase 是一款针对特殊巨型复杂网络、超大实时更新数据场景的分布式实时图数据库产品,拥有简单易用、性能高的特点。该产品定位是一款分布式关系数据库,适合于金融、证券等涉及交易、支付和账务等对高可用、强一致要求较高,同时对性能、成本和扩展性有需求的金融属性场景,以及各种关系型结构化存储的 OLTP 应用。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 28 计算机计算机 图表图表54: Oceanbase 架构架构 资料来源:OceanBase 官网、华泰研究

98、 Oceanbase 主要客户包括网商银行、支付宝、淘宝网、阿里妈妈。主要客户包括网商银行、支付宝、淘宝网、阿里妈妈。其中,为了解决支付宝一致性、扩展性、可用性、成本性能方面的业务挑战,OceanBase 在架构层面引入 Paxos 协议,多重数据校验机制,完善支付宝业务模型,多重机制保障金融级别的一致性。此外,支付宝的订单型业务采用了同城三中心的部署方式,具备单机和单 IDC 故障的容灾,通过 RFO 的方式提供异地容灾能力,在性能和可用性方面做到了极致的权衡。账务型业务采用三地五中心部署方式,除了具备单机,单 IDC 的容灾能力,还具备城市级故障自动容灾能力。 据公司官网, OceanBa

99、se 在同城容灾和异地容灾场景下, RPO=0, RTO30 秒。 图表图表55: Oceanbase 主要客户主要客户 资料来源:OceanBase 官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 29 计算机计算机 华为华为 GaussDB:AI 原生,支持异构计算原生,支持异构计算 AI 原生原生&支持异构计算。支持异构计算。华为 GaussDB 是一个企业级 AI-Native 分布式数据库。为超大规模数据管理提供高性价比的通用计算平台,也用于支撑各类数据仓库系统、BI(Business Intelligence)系统和决策支持系统,为上层应用的决策分析提

100、供服务。华为的数据库产品系列命名为:GaussDB,高斯数据库。华为 GaussDB 是一个企业级 AI-Native 分布式数据库。 GaussDB 采用 MPP(Massive Parallel Processing)架构,支持行存储与列存储,提供 PB(Petabyte, 2 的 50 次方字节)级别数据量的处理能力。华为 Gauss 数据库是全球首款 AI-Native 数据库,能够同时支持 X86、ARM、GPU、 NPU 等异构计算。 图表图表56: GaussDB 产品产品 资料来源:华为官网、华泰研究 GaussDB:三大产品线系列。:三大产品线系列。据华为官网,目前华为已经开

101、发有三个产品系列:GaussDB100、 GaussDB 200、 GaussDB 300。 1) GaussDB 100:主要以 OLTP 为主。 目前该产品已经应用在招商银行。 2) GaussDB 200: 以 OLAP 为主, 兼顾 OATP。该产品目前已经在工商银行得到上线应用。 3) GaussDB300:HTAP,是企业级分布式 HTAP 数据库(Hybrid Transaction andAnalytical Process,混合事务和分析处理) 。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 30 计算机计算机 图表图表57: Gauss 数据库产品线数据库

102、产品线 资料来源:公司官网、华泰研究 华为华为 GaussDB 产品主要用于互联网、物联网、电商、金融、游戏。产品主要用于互联网、物联网、电商、金融、游戏。在电商应用中,数据库可支持热销商品展示、 秒杀推荐等数据面临高并发压力的场景。 此外, 云数据库兼容 Redis生态,高并发分布式缓存服务 Redis 提供超过 10 万的高 QPS,轻松应对高并发访问,业务爆发时可以通过一键扩容,满足秒杀场景下的访问量增长产生的计算需求。 图表图表58: Gauss 电商类应用架构示意图电商类应用架构示意图 资料来源:华为官网、华泰研究 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 31

103、计算机计算机 总结:分布式数据库或诞生新龙头,关注六大评判维度总结:分布式数据库或诞生新龙头,关注六大评判维度 1、数据量增大、类型丰富、计算场景扩展,分布式数据库或成为新的增量、数据量增大、类型丰富、计算场景扩展,分布式数据库或成为新的增量 数据库行业发展与计算载体变革紧密相关,而随着计算载体的变革,在新市场内往往会诞数据库行业发展与计算载体变革紧密相关,而随着计算载体的变革,在新市场内往往会诞生新的数据库龙头。生新的数据库龙头。从发展变革看,大型机向小型机的变革,数据库在事务处理中的应用逐步增加,催生了 Oracle 为代表的关系型数据库厂商;随着云计算的兴起,以 AWS 为代表的新兴数据

104、库厂商逐步兴起。 分布式数据库或成为新的增量。分布式数据库或成为新的增量。随着数据的累积,分析型任务的重要性逐步提升,擅长于事务支持、结构化数据查询的传统关系型数据库市场增长逐渐放缓,据 T4.ai 预测,全球关系型数据库市场规模 2018-2022E CAGR 为 6%,较 2012-2017 的 11%或将有所下降。另一方面,数据类型持续丰富,从结构化数据向非结构化数据延伸,支持非结构化数据的查询方法变得日益重要。 而分布式数据库、 数据仓库在大数据分析中展现出了较好的支持性,综上,我们认为分布式数据库或成为数据库领域新增量。 2、商业模式:企业级服务、商业模式:企业级服务&开源社区,核心

105、在于解决客户的问题开源社区,核心在于解决客户的问题 数据库作为基础软件, 在 IT 架构中扮演承上启下的重要作用, 因此相比于功能的快速更新,数据库的安全与稳定性更为重要。开源社区有助于快速积累用户,但企业级产品通过更加紧密的组织方式,保障了开发者的响应速度,在提供企业级服务方面具有优势。 3、内核基础:自主研发能力重要性上升、内核基础:自主研发能力重要性上升 原厂自研在稳定性上具备优势。原厂自研的数据库厂商能够提供企业级原厂服务,相比于提供第三方服务的厂商,更有助于从源头解决问题,在安全性和稳定性上具备优势;在功能的迭代上,掌握源代码的自研厂商能够主导功能的迭代,相较于开源社区,在稳定性上更

106、有优势,与企业级客户的需求更为契合。 我们总结了评判数据库的六个维度,除了上文提到的商业架构、内核基础外,还包括品牌我们总结了评判数据库的六个维度,除了上文提到的商业架构、内核基础外,还包括品牌基因、技术架构、商业落地、人才体系基因、技术架构、商业落地、人才体系 (1)品牌基因: 影响技术路线、侧重领域、应用场景等。)品牌基因: 影响技术路线、侧重领域、应用场景等。包含品牌的背景,商用首发时间,资金背景,创始团队背景、厂商主营业务等。品牌基因反映出数据库的品牌特性,品牌基因对数据库的技术路线、侧重领域、应用场景均会产生一定的影响,在选择数据库厂商时,品牌基因是重要的考量因素。我们认为,国产数据

107、库厂商大致可以分为传统数据库、创新品牌、大厂子产品三类,不同类厂商的优势领域有所区别。 (2)技术架构:分析型、大数据场景适合分布式数据库。)技术架构:分析型、大数据场景适合分布式数据库。集中式数据库在事务性支持上遵循 ACID 原则,在事务支持上具备优势。分布式数据库在高并发支持、扩展性上具备优势。而近年来,分布式数据库不断发展,在提供高弹性、支持高并发的同时,与关系型数据库强事务性支持的特性进一步结合。 (3)商业落地:金融、电信场景体现稳定性。)商业落地:金融、电信场景体现稳定性。一般来说,金融、电信类场景对于安全、稳定性有较强的诉求,能够首先在金融、电信类场景落地通常意味着在性能、安全

108、等方面达到了较高的标准;因此金融、电信领域落地情况可以大致作为数据库安全、稳定性的筛选维度之一;此外能够积极向其他场景延伸则体现出数据库产品的延伸性,有助于不断打开新的市场空间。 (4) 人才体系: 体现生态建设成效。) 人才体系: 体现生态建设成效。 公开的人才体系包含自营社区、 培训认证体系等部分。我们认为,数据库厂商通过推出针对自由数据库产品的培训认证,在提升数据库人才水平的同时培养了使用者的使用习惯,有助于生态的建设。另一方面,社区论坛作为技术爱好者的交流空间,从侧面体现出数据库产品的活跃度,是生态建设成效的体现。 免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。 32 计算机计算机 风险风险提示提示 市场竞争加剧风险。分布式数据库快速发展,但参与者众多,存在竞争加剧的风险。 芯片及 AI 行业发展导致 IT 投资倾斜风险。随着芯片及 AI 行业迅速发展,存在 IT 投资向芯片、AI 领域倾斜,对数据库领域投资产生影响的风险。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【研报】计算机行业: 分布式数据库或成为新增量-210402(35页).pdf)为本站 (木子璨璨) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部