上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

阿里云:云时代的数据库技术趋势(2022)(136页).pdf

编号:110144  PDF  DOCX 136页 49.18MB 下载积分:VIP专享
下载报告请您先登录!

阿里云:云时代的数据库技术趋势(2022)(136页).pdf

1、封面页(此页面将由下图全覆盖,此为编辑稿中的示意,将在终稿 PDF 版中做更新)扫码关注阿里云数据库视频号 扫码关注阿里云数据库公众号 阿里云开发者“藏经阁”海量电子手册免费下载 卷首语 阿里云数据库率先提出云原生数据库 2.0概念,通过打造云原生一站式的数据管理与服务,旨在为用户提供:更快、更稳、更安全、更好用的数据库产品。本峰会将邀请数据库学术界领军人物为您介绍云时代的数据库发展趋势;行业权威人士就相关数据库行业标准进行深入解读;技术大咖带来 Serverless、云原生HTAP 等前沿技术介绍;标杆客户与您分享云原生数据库的最佳实践;开源社区及高校学术负责人与您共论数据库的开源生态建设与

2、人才培养。目录 一、开场致辞.6 二、云时代的数据库技术趋势.7 三、数据库行业的 Serverless 标准发布与解读.15 四、生而不凡:PolarDB 将云原生进行到底.22 4.1 生而不凡:PolarDB 将云原生进行到底.22 4.2 PolarDB 在典型行业的最佳实践.31 五、云原生的一体化透明分布式数据库.34 5.1 云原生一体化透明分布式数据库.34 5.2 良品铺子核心系统云原生实践.42 六、云原生数据仓库:加速业务数据化,数据价值化.47 6.1 云原生数据仓库:加速业务数据化,数据价值化.47 6.2 云原生数据仓库 AnalyticDB 重磅发布.51 6.3

3、 AnalyticDB MySQL 湖仓版在 B 站的最佳实践.56 七、多模融合:让海量数据存得起、看得见.60 7.1 Lindrom 多模融合:让海量数据存得起,看得见.60 7.2 小米大数据运维管理体系的建设与实践.67 八、简单易用的一站式数据管理与服务.76 8.1 简单易用一站式数据管理与服务.76 8.2 DMS 一站式能力.80 九、云数据库 RDS 的最新功能与最佳实践.86 9.1 云数据库 RDS 重磅功能发布与最佳实践.86 9.2 欢聚集团 RDS 实践.96 十、云原生智能化 DBaaS.101 十一、达摩院加持下的数据库前沿技术.108 十二、云原生数据库的场

4、景化解决方案.117 12.1 云时代数据库应用最佳实践.117 12.2 多来点云原生数据库多活实践.122 十三、打造世界级云原生数据库开源社区.128 一、开场致辞 6 一、开场致辞 致辞嘉宾:李飞飞,阿里巴巴集团副总裁、阿里云数据库产品事业部负责人、ACM 和 IEEE 会士(FELLOW)感谢大家在这个特殊时期,能够排除困难来到现场,参加 2022 云栖大会云原生数据库峰会。阿里云数据库团队也为本次峰会做了非常充分的准备,不同于往届论坛形式,为方便大家更集中的观看、学习和分享,本次峰会把分享内容集中放在一个论坛内,不再设置其他分论坛。昨天我也在一个会上分享了关于阿里云数据库领域产品的

5、发展趋势,这就是“四化”,即云原生化、平台化、一体化和智能化。云原生化:即 Serverless,计算和存储分离。平台化:是基于云平台构建数据库系统和核心能力;以及数据库产品提供标准的 API,在未来的很多场景中,用户是基于 API 构建更加丰富的数据库使用场景。一体化:是指将多业务场景引擎进行数据无缝共享。智能化:结合 AI 技术,让数据更加智能,便于使用。如果将以上“四化”结合起来,可以看到一个明显的趋势:数据的平台化。通过数据的平台化,提供一站式数据管理服务。这是我们对行业的一个思考。接下来我们会有丰富的内容呈现,希望大家多多点评,并提出宝贵的意见。愿我们一起将数据库技术和产品做得更好。

6、谢谢大家!二、云时代的数据库技术趋势 7 二、云时代的数据库技术趋势 作者:杜小勇,中国人民大学明理书院院长、中国计算机学会理事、数据库专委会资深委员 数据库的发展主要受三种因素驱动。其一,数据模型的发展会带来数据或管理系统的变化,此外底层体系架构的变化和应用需求的驱动也会带来数据库系统的巨大变革。东数西算工程,指通过构建数据中心、云计算、大数据一体化的新型算力网络体系,将东部算力需求有序引导到西部,利用西部较好的自然条件构建数据中心,建构全国性的算力网络。我们有理由相信,东数西算会改变中国的算力格局。东数西算里“数”主要为解决当前普遍存在的数据孤岛问题。二、云时代的数据库技术趋势 8 数字经

7、济是当下的核心话题,其主要目的在于释放数据价值。网络界的著名定律梅特卡夫定律告诉我们,节点越多,连接越多,则价值也会越大。数字经济背景下,参与共享和协同的数据越多,数据价值也可以得到更大的增长。因此,数字经济的核心任务即在于打破数据孤岛。由于大家“不会、不愿、不想”,使得数据之间的共享和协同异常困难。因此,跨域、高效、安全的数据共享与协同是未来的刚需,这也催生了跨域数据管理。我们希望算力网络上的数据库之间能够实现有效、安全的数据共享。二、云时代的数据库技术趋势 9 跨域可以从三个方面进行解读。第一,跨空间域。两个数据集在物理空间上是远距离的,通过算力网络进行连接,主要问题在于网络的不确定性。第

8、二,跨管辖域。每个数据库都有自己的数据模型,不同数据模型之间如何进行数据交换和共享是一大挑战。第三,跨信任域。每个数据库系统之间并不是完全相互信任,如何保障数据安全是主要问题。二、云时代的数据库技术趋势 10 当前,很多大厂采用了三地五中心的分布式架构来支持跨空间域的需求。这其中存在资源浪费,也存在安全性问题。需要解决的问题在于如何在广域网的基础上实现跨域的有效数据管理,会面临网络的不稳定和数据传输延时等挑战。通常专用网络的时延为 10 微秒,数据中心内网络时延大概为百微秒级别,而跨空间域网络的时延大约需要 10 毫秒甚至更高。在较高时延下,如何实现传统的分布式数据管理是一大挑战。其次,相比于

9、专用网络和局域网,跨域网络抖动会更严重,网络传输的时延也会发生数量级的变化。二、云时代的数据库技术趋势 11 跨空间域数据管理的挑战覆盖了数据库管理的方方面面,比如存储管理、查询处理、事务管理等。而目前,跨空间域的数据管理技术已经取得了一定的进展。比如通过避免跨域数据访问来解决存储管理的问题;通过减少数据传输量解决查询处理的问题;事务处理方面包括减少传输次数、减少数据传输量以及降低服务执行的不确定概率等。未来,随着不确定性网络向确定性网络转变,相关研究也一定会取得更大进展。二、云时代的数据库技术趋势 12 跨管辖域数据管理方面,主要需解决不同数据模型之间的数据统计管理和交互。上世纪 80 年代

10、,数据库领域提出了联邦数据库的概念,为了解决公司在并购过程中出现的问题,也提出了相关的概念,这些概念在今天也有不同的呈现,比如企业数据中台等场景也有类似的要求。当前,跨管辖域数据管理面临的挑战主要为面向异构数据的统一高效查询以及多源异构数据的即席语义融合。目前的语义融合多为根据特定任务,offline 构建,可能要花费数月才能完成。我们期待有一种新的技术来支撑 ad-hoc 语义融合。当前,跨管辖域的数据管理技术也已取得一定进展,比如统一查询、质量提升以及高时效。二、云时代的数据库技术趋势 13 企业、机构为了数据保护形成相对独立的域称为信任域,信任域之间的数据共享存在障碍。在此背景下,如何实

11、现可信的共享、安全的计算以及隐私的保护是重中之重。解决方案主要分为事前、事中、事后。事前包括跨域用户的访问,事中主要包括基于区块链的合约执行以及面向隐私保护的计算技术,事后主要为审计技术等。二、云时代的数据库技术趋势 14 相关方面的研究也已取得一定的进展,比如基于密码学、新硬件以及统计学的解决方案。跨域数据管理背景下,如何将技术统一应用起来,仍然存在诸多挑战。数据要素跨域、高效、安全共享协同催生了跨域数据管理,也为数据管理带来了全新挑战。三、数据库行业的 Serverless 标准发布与解读 15 三、数据库行业的 Serverless 标准发布与解读 作者:姜春宇,中国信通院云计算与大数据

12、研究所主任 Serverless 是指构建和运行应用程序无需管理服务器的概念,描述了一种更细粒度的部署和模型,将应用程序打包成多个功能,上传至平台并执行,以响应确切的要求。Serverless 很重要的一点在于无需要关心应用运行的资源,而 Serverful 需要考虑资源的分配和底层资源的实现;计费方式上,Serverless 按照使用情况计费,可以实现毫秒级计费,且快速伸缩无感知。而 Serverful 为小时级计费,以及弹性伸缩需要较长时间。Serverless 能够带来最极致的弹性,其演进经历了四个阶段:第一阶段:在自己的机房构建数据库。第二阶段:PaaS 平台的服务,可以购买服务,这也

13、是基本的云端数据库的特征。第三阶段:云原生数据库,资源的池化能力和弹性能力大幅提升。第四阶段:无服务数据库,拥有极致的弹性、极致的性价比和极致的无感知。三、数据库行业的 Serverless 标准发布与解读 16 2020 年,全球 Serverless 服务市场营收 400+亿,其中中国 Serverless 服务市场营收 60+亿,占全球市场的 14%,而国内的数据库市场份额占全球 5%,说明我国Serverless 的市场能力较为优异。传统数据库的容器架构与 Serverless 架构结合,使云原生数据在弹性、自动化方面具有极大的创新价值,Serverless 提供了极强的弹性伸缩能力。

14、Serverless 技术中,资源的池化和弹性的扩展紧密相关,首先要实现资源的池化,才能实现极致的弹性。而资源池化最核心的点在于存储资源的池化,存储计算分离以后,在存储层面为上层输出的计算提供了弹性。数据计算池无需做任何牵引,用户的业务数据不受影响。此前,存储计算互相耦合的时候,存储和计算无法分别扩展,因为数据库是一种特殊的形态,存储层需要规划。因此如果不解耦,则无法分别扩展。实现池化后,需要对运行的应用和负载进行多维度的监控,包括 CPU、内存、连接数等,达至阈值以后自动伸缩,进行资源调度。因此未来 Serverless 很大的竞争空间在于谁能够提供更高效的资源调度,比如秒级。为了更多地降低

15、用户成本,提升云上资源的利用率,云原生数据库需要将内存与计算节点进行深度解耦,实现 CPU+内存+持久化存储的三层解耦模型。三、数据库行业的 Serverless 标准发布与解读 17 Serverless 的另一关键技术为高可用。在扩展过程中,单台机器经常出现扩展的瓶颈,需要进行跨服务器、跨硬件扩缩容。而此过程中,业务需要正常运行,因此,高可用至关重要,它包含四个特性:第一,自动切换能力。当前业界主要有两种解决方案,一是集群各个节点通过一致性协议的去中心化解决方案;二是利用云原生数据库中心化共享存储的分布式锁解决方案。第二,热备节点。热备节点是一个资源弱化版的 RO 节点,同时也是一个更接近

16、主节点、随时准备接班的灾备节点。相比普通的只读节点,它保留有限的读服务,预留更多的 CPU 和内存资源去优化切换速度。第三,链接保持。对于迁移时的空闲链接,可以引入中间件 Proxy,利用 Proxy的链接技术保证用户链接不中断。第四,无损事务续传。对于切换瞬间正在执行的事务,一方面 Proxy 无法从数据库内核中找回原有事务的上下文,另一方面新主会将未提交的悬挂事务回滚,释放这些事务持有的锁。在该种场景下,链接保持会失效。数据库内核还需提供无损事务续传的能力以解决这一缺陷。三、数据库行业的 Serverless 标准发布与解读 18 云原生数据库必须提供全局强一致的事务读写能力,才能使事务一

17、致性的 RO 节点替 RW 节点透明地分担用户负载。那么,高性能的能力如何体现?需要将计算层面的算子进行分离,将读写分离,将写操作做成单独的服务,承接大吞吐量的写操作。另外,引入新的硬件解决性能瓶颈。单一的 CPU 或者某一种计算芯片擅长处理的任务不一样,因此我们需要新的硬件类型比如 GPU、FPGA 等来进行优化,使性能进一步提高。三、数据库行业的 Serverless 标准发布与解读 19 Serverless 的低成本体现在除了计算和存储以外的资源,元数据、接入层、负载均衡、优化器等一系列服务也进行池化,使得部署、切换、弹性的过程非常高效快速,降低使用的门槛和成本。Serverless

18、数据库的应用场景非常丰富。比如税务系统每年固定时间段的报税会使得应用特别繁忙,而其余时间多为闲置状态,此类可变多负载场景可以通过 Serverless 技术实现资源的弹性。双十一期间流量难以预估,此类不可预测的工作负载也特别适合 Serverless 无感的极致弹性。大型企业可能有上千个数据库实例,同时感知这些数据库实例资源的使用情况难度极大,因此,可以使用 Serverless 弹性无感的自动化能力,通过监控实现自动伸缩。再比如大型软件可能有成千上万的客户在使用,每一个客户都是一个租户,底下又挂了数据库实例,同时管理成千上万个数据库实例是个巨大的挑战,此时也特别适合使用 Serverless

19、。三、数据库行业的 Serverless 标准发布与解读 20 Serverless 数据库的发展趋势大多与资源的池化、资源的标准化等相关。比如屏蔽底层的数据库操作,提升易用性,业务人员无需考虑数据库如何部署、如何启动。比如计算资源标准化,统一底层资源。原先自建的机房和服务器会面临很多不一样的问题,而使用了 Serverless 云原生数据库以后,即可实现标准化,统一使用,统一调度。计费方式也更加精确,按需计费,解耦以后计算资源的颗粒度非常小,计算时长从原先的小时或天变为秒级。扩缩容无感,实现更快的业务反应,以及更快的资源调度,实现极致的资源利用率也是未来的发展方向。三、数据库行业的 Serv

20、erless 标准发布与解读 21 数据库引入 Serverless 技术后,具备智能弹性扩缩容能力,能够随着用户业务的请求数的增加和减少,自动“膨胀”和“缩小”,实现资源的智能“吞吐”。另外,随着资源池化能力的进一步释放,在同一数据中心内,计算、内存和存储资源的三层解耦逐渐从理论走向实际,成为云原生数据库资源管理的新趋势。我们相信,Serverless 白皮书的发布是 Serverless 技术前进的起点。也相信阿里这样的企业会沿着这条路径不断前进,不断提供更极致的弹性、极致的性价比和极致的性能。四、生而不凡:PolarDB 将云原生进行到底 22 四、生而不凡:PolarDB 将云原生进行

21、到底 作者:杨辛军,阿里巴巴集团研究员、PolarDB for MySQL 产品部负责人 贾新华,阿里云数据库事业部资深产品专家 4.1 生而不凡:PolarDB 将云原生进行到底 PolarDB 诞生 5 周年,已经成为较为成功的商业数据库,线上运行核数突破 500000核,拥有全球 80+可用区。PolarDB 是基于 MySQL 与 PG 的升级版数据库,因此对 MySQL 与 PG 实现了完全兼容。另外,PolarDB 注重于云原生数据库的发展,因此在云原生方面做了很多研究,我们每年都会在顶会发表论文,将研究成果与大家共同分享。四、生而不凡:PolarDB 将云原生进行到底 23 上图

22、为 PolarDB 的最新架构图,依然坚持了模块化建设的路径。PolarDB 在存算分离以及物理复制方面已经非常成熟,因此逐渐开始往另一层次发展,今年我们发布了很多新的节点,包括 HTAP 节点、X-engine 节点、多写节点、AI 节点等。很多节点可以进行自由搭配和转换,以适配客户需要的应用场景。也实现了 Scale Out 与 Scale Up 两个方向的弹性伸缩。PolarDB 是共享资源的数据库,对资源硬件非常关注。我们充分利用新硬件实现软硬一体化,将硬件的红利分享给用户。四、生而不凡:PolarDB 将云原生进行到底 24 今年,PolarDB 实现了两个硬件的升级。其一为 Sma

23、rt-SSD,它是基于 FPGA 的 SSD存储。通过 Smart-SSD 进行数据的压缩后可实现 2.0-3.0 的压缩比。左下角的性能图显示,使用 Smart-SSD 后,相比于线上的云盘保持着非常大的优势。同时,因为我们可以做数据压缩,使用户成本降低 60%。所以我们有机会将存储售价降低 50%,让利给用户。另一个硬件升级是将 RDMA 网络升级到 100G,通过 RDMA 实现了 PolarDB 的高性能全局强一致性,能够使各类节点更稳固,能够搭建更大的架构供更丰富的场景使用。也保证了不管在哪个节点或节点之间存在多少 latency,都可以成功地读到写入。通过 RDMA 的升级,性能提

24、高了近 63 倍。四、生而不凡:PolarDB 将云原生进行到底 25 PolarDB HTAP 新推出了 In-Memory Column Index 功能。物理复制将数据从一个节点复制到另外一个节点时,实现了行列转换,将行存的数据转换为列存。通过执行算子与执行器对列存性能进行了分析,如右图所示,效果显著。行存方面,PolarDB 发布了 ePQ 并行查询新特性。其中 e 代表弹性,ePQ 可以实现节点之间的并行查询。左图为 4 个 32 节点的并行查询,结果显示整体执行时间较 MySQL 提升 60 多倍,单条执行时间最大提升 150 倍。右侧为对 60 亿+大表的分组聚集,执行时间小于6

25、0s,而实现并行查询之前,耗时约 8h。四、生而不凡:PolarDB 将云原生进行到底 26 PolarDB 正式商业化发布“库表级多写”。在分库分表的场景下,可以对一个节点、多个表进行 scaling。每个表有一个主节点,一个节点管理多个库、表,库表级多写的优势在于可以共享 shared-everything 架构,每个节点都可以看见所有数据,因此,增加节点或减少节点时无需对数据进行迁移,拥有极佳的弹性能力,可轻松对节点做增减,无需进行数据的重复迁移。另外,它实现了多主互备,每个节点都是另外节点的备节点,备节点也可以成为主节点,提高了备节点的利用率。四、生而不凡:PolarDB 将云原生进行

26、到底 27 另外,我们实现了行级多写的灰度发布。利用 Polar Fusion 实现了事务、锁、缓存信息的全局协调。上图为阿里云 PolarDB 与友商的对比,PolarDB 多写在冲突写和无冲突写场景下均具有非常大的优势。PolarDB 即将支持全球就近写,可以在全球范围内,通过并行的物理复制技术,实现两秒以内的延迟。能够支持表级别的就近写,数据会进行双向同步,保证数据的全局一致性。四、生而不凡:PolarDB 将云原生进行到底 28 X-Engine 基于 LSM 架构,能够保证非常高的压缩率。可以将 X-Engine 与 InnoDB并行插入,数据可以在两个引擎之间自动流动。因此,用户可

27、以针对数据的冷热自行分配数据在何处。使用 X-Engine 进行压缩后,淘宝图片库实现了近 6 倍的压缩,淘宝交易订单压缩近 3 倍,性能方面相较于标准集群版略有不足但是相近。四、生而不凡:PolarDB 将云原生进行到底 29 PolarDB 的 Serverless 不仅支持纵向、单节点地弹,也支持横向、跨节点地弹,实现了极致弹性,包括热备节点、断点续传、连接保持等。上图可以看出,PolarDB Serverless 能够根据压力自动增加 PCU 数量,从而自动提升 QPS。压力停止后,PCU 逐渐降低。单节点规格达到上限后,可通过自动增加只读接节点来应对突发压力,提升性能。四、生而不凡:

28、PolarDB 将云原生进行到底 30 PolarDB 一直在性能方面进行持续优化。通过云原生架构全路径的深度优化、高性能存储的引擎优化以及高性能索引 PolarIndex 大幅提高了性能。DDL 方面我们也在持续改进。并行 DDL 使得建索引的速度提升 15-20 倍。同时,我们正在实现 Multiversion Dictionary,可实现 Instant DDL,无需实现全表的重建,通过 Dictionary 的改变即可生效。四、生而不凡:PolarDB 将云原生进行到底 31 4.2 PolarDB 在典型行业的最佳实践 游戏行业痛点与 PolarDB 的实践:版更期间备份时间大于 1

29、 小时,以及玩家经常丢失装备,需要快速找回。而PolarDB 支持秒级备份以及库表级、行级的闪回,可以大幅缩短版更时间,从小时级降低至分钟级。游戏设备越来越充足,装备信息越来越多,导致大部分字段长度可能超过 1 M,非常影响更新性能。通过 PolarDB 对 BLOG 字段实现专项优化,装备更新性能提升 5 倍。游戏活动较为频繁,而活动会导致负载快速变化。PolarDB 支持多主架构,能够大幅缩短缩短滚服合服时间,实现分钟级快速的响应。游戏往往全球发行,导致部分玩家登录速度过慢。而 PolarDB 的 GDN 能够实现业务就近访问,使效率提升 40%以上。四、生而不凡:PolarDB 将云原生

30、进行到底 32 零售行业往往有供应链、销售以及运营分析,系统均独立构建且系统之间的构建较复杂。可以通过 PolarDB 的 IMCI 特性,免去复杂架构,实现实时分析,无 ETL、更稳定。SaaS 行业租户多且租户量会快速变化,PolarDB 提供的 Serverless 能力可以根据实际使用来分配资源,使成本降低约 60%。另外,SaaS 场景下多租户之间会共用资源,导致互相影响,PolarDB 提供了多主架构,实现了租户资源的严格隔离。另外,零售行业会存在百万级的 DDL,而 PolarDB 提供了高性能的 DDL,包括秒级DDL、并行 DDL 等,可在海量表的情况下实现 DDL 时性能无

31、抖动、业务无堵塞。四、生而不凡:PolarDB 将云原生进行到底 33 泛政府行业也存在几个关键痛点:首先,需要自研数据库,而 PolarDB 数据库代码自研率超 80%,可满足各种合规方面的要求,使供应链更安全;同时,升级传统商业数据库较为复杂,风险不可控,而 PolarDB 提供了高度兼容 Oracle 的能力,能够使成本显著降下,此外,PolarDB提供了一系列工具链与方法论,使升级过程可控、可管理。其次,泛政府行业合规要求同城、异地容灾,而 PolarDB 提供了两地三中心容灾,既可以实现同城的高可用,也可以实现异地的高可用;另外,泛政府行业正在做数据大集中,要求高扩展,而 Polar

32、DB 单机可扩展 100T 共享存储以及 32 计算节点,可以免去分库分表,实现业务无侵入。五、云原生的一体化透明分布式数据库 34 五、云原生的一体化透明分布式数据库 作者:黄贵,阿里云数据库事业部资深技术专家、PolarDB-X 产品部负责人 罗轶群,良品铺子 CIO 5.1 云原生一体化透明分布式数据库 分布式数据库概念已经诞生几十年,早期更多只是作为研究对象,直到 2000 年左右才真正走向应用,主要用于各大企业尤其是互联网企业解决扩展性、高并发、高吞吐等访问问题。直到近几年,分布式数据库才真正在商业化应用中投入使用。如今分布式数据库有效解决了很多问题,比如在新零售、电商、在线教育等场

33、景下,解决了在线交易系统高并发读写问题;在传统行业制造业、政企、交通、能源等场景下,解决了海量数据大集中问题;在对于容灾有着非常高要求的金融领域场景下,解决了跨地域高可用问题。商业化应用过程中,分布式数据库仍然面临着很多问题,主要包括以下几个方面:第一,兼容性。能否与传统数据保持兼容。第二,使用门槛。是否必须要有足够大体量才用使用?能否像使用单机数据库一样简单方便?第三,扩展能力。数据扩展以后,面临跨数据分片,分布式事务是能否保持高性能?五、云原生的一体化透明分布式数据库 35 第四,运维复杂度。分布式数据结构较复杂,涉及到集群化部署以及多个节点之间交互,如何控制运维复杂度?PolarDB-X

34、 是非常典型存储计算分离分布式架构。GMS 是元数据管理中心。CN 是状态计算节点,负责解析与执行。DN 用于存放数据节点。CDC 是全局一致 Binlog 组件负责输出,与 MySQL 兼容、全局一致的日志内容。整个 PolarDB-X 架构在云平台上,因此称为云原生分布式数据库。五、云原生的一体化透明分布式数据库 36 PolarDB-X 具有三个显著特点:兼容原生 MySQL 生态。一体化透明分布式,可以像使用单机数据库一样使用,无需了解过多分布式概念。具有非常强大企业级能力。比如高可用能力,RPO=0 情况下也可实现跨地域高可用;比如 HTAP 能力,可同时支持两种负载;另外,针对企业

35、对于数据安全要求也做了大量工作。实际上要做到一个产品 100%兼容另外一个产品难度极大,因为原有产品会不断地发展迭代。因此我们做兼容性的原则主要针对企业级用户需求和侧重点对大部分能力和语法实现了兼容。另外还实现了生态上的兼容,以保证原有使用 MySQL 数据库的用户能够非常方便地、透明地迁移到分布式数据库上,无需修改应用,也无需修改数据结构,可以完整无缝对接到原有生态上。五、云原生的一体化透明分布式数据库 37 为了实现生态兼容,我们开发了 CDC 全局一致 Binlog 组件,能够提供完全兼容单机 MySQL 的 Binlog,无缝接入现有生态工具同步到下游生态。同时,PolarDB-X 也

36、可以作为 MySQL 的备节点,利用 MySQL Replication 组成高可用架构。一体化的重要方向是集中分布式一体化。分布式数据库在商业应用过程中,并不是所有用户都在一开始就具有大体量、高并发的需求,大多是随着业务发展逐渐出现大体量的需求。因此,PolarDB-X 提供了两种不同形。一种为标准版,集中式形态,100%兼容单机 MySQL,具有更低的使用成本,另一种为企业版,用户可以从标准版平滑升级到分布式企业版形态。五、云原生的一体化透明分布式数据库 38 为了在分布式层面提供更好的单机体验,我们提出了透明式的概念,其中的重要能力为 AUTO 模式,可以在创建数据库时指定数据库为自动模

37、式,数据库会根据容量大小做自动分区,无需主动干预。但同时也保留了手工分区的能力,更好地契合业务。另外,PolarDB-X 提供了在线与历史归档数据一体化,可以通过事先设置数据过期规则,自动将历史数据归档存储到 OSS。在线数据与历史数据可以通过统一的 SQL语法、统一的接入点进行访问。目前历史归档数据相对在线数据存储成本最多下降了有 20 倍。这个功能目前已经在公有云版本上线。五、云原生的一体化透明分布式数据库 39 分布式架构并不是银弹,无法解决所有问题,也存在设计上的相应代价。从架构上来看,即便是在单机系统上,即便只有 2 个 NUMA 节点,跨 NUMA Node的访问也会使性能下降至少

38、 1 倍。而到了分布式系统上,总线变为网络,一旦涉及到远程访问,性能更是会出现急剧下降,比如单个全局二级索引,写入性能下降 30%。这个是分布式系统带来的非常显著的代价。想要透明式的体验必然会导致性能不达预期,要想保持性能需要精心设计数据分布规则,小心地限制使用特性。为此,PolarDB 推出了表组的概念。根据业务特点,自动将有相近统一的分区键组合到同一个表组中。具有相同业务属性的表往往具有事务关联性,原本需要做分布 五、云原生的一体化透明分布式数据库 40 式跨数据分片的事务处理变为可以在单机上进行,有效消除了分布式事务带来的开销。且我们实现了自动化表组聚合,无需过多的人工干预。当然也支持人

39、工指定规则,更好地利用特性,更好地优化。数据分区以后带来的显著问题在于数据分布不均,包括数据量不均衡以及访问不均衡导致出现局部数据热点。识别到热点以后,PolarDB-X 可以通过一些操作在不影响业务运行的情况下打散热点,让系统变得更平缓,从而实现分布式系统处理高并发的请求。五、云原生的一体化透明分布式数据库 41 要做好分布式系统的运维,对运维人员以及数据架构均有极高的要求,必须了解服务系统的概念,而且分布式系统本身的系统复杂性较高,分析异常时面临的链路较长。PolarDB-X 构建了可实时观测的运维平台,能够对异常数据进行非常密集的监控,通过分析实时洞察 SQL 执行过程中的耗时、线程瓶颈

40、,并显示热力图,运维人员可以直观地查看每个分区上的访问热度如何。还可进行诊断分析,包括规划分析、空间分析以及死锁分析。还会做系统关联,分析全链路每个阶段的耗时、性能指标以及系统整体运行情况,最后根据系统运行情况做实时优化,比如对性能有瓶颈的问题自动推荐索引。通过以上手段,能够更有效地定位问题,更有效地分析数据,从而得到更平滑的体验。对于分布式系统,在运维过程中的一个非常典型的问题是能否做实时的数据字典定义。对于数据量非常庞大的数据表而言,对表结构做定义往往会牵涉到大规模的数据迁移工作,会对系统造成极大冲击。因此,我们设计了 Online DDL,所有 DDL 均在线,不影响业务运行。同时尽可能

41、做并发的数据结构修改、数据搬迁以及复制,有效降低对系统的冲击,提升整个数据搬迁的过程。五、云原生的一体化透明分布式数据库 42 5.2 良品铺子核心系统云原生实践 从 2006 年的第一家门店,到 2016 年首次在纽约时代广场亮相,再到 2020 年 A 股高调上市,良品铺子已经成为终端零售行业的龙头企业,业务覆盖 19 个省份、100多个城市,拥有线下门店 3000+,每年营业额破百亿。在不同时间、不同地段、不同门店,良品铺子的促销活动都可能会不一样。我们是典型的以客户为中心的智能门店,通过对采购信息的实时抓取以及对采购流程的灵活调度,来得出每一家门店在什么时间点、什么的样客户需要什么样的

42、产品,背后的 POS 业务系统支撑了该套逻辑。五、云原生的一体化透明分布式数据库 43 POS 系统本质上是一个集会员、交易、商品库存于一体的中台业务模型,通过统一的接口服务以及统一的数据传输服务,实现门店之间的数据共享以及门店与中心的数据流转。新零售重新定义了人物入场关系,一切以人为中心,而这一点恰好是良品铺子最核心的上海品茶。引入全新的技术也好,投入业务改造也好,我们的最终目的是希望全面提升人的体验。所谓内外兼修,内外是指店内与店外或线上与线下,我们希望通过数字化的形式打通线上与线下,为用户提供更便捷的购买体验,比如线上购买,线下提货。我们希望实现渠道协作。门店在新零售架构下起着非常重要的

43、纽带作用,不仅仅关联了用户与商品,也关联了门店与中心。因此,提供一个一体化完整的解决方案对于多渠道协作至关重要。最后,我们希望精准营销,建立智慧门店。智慧门店恰恰也是良品铺子最重要的战略目标与发展趋势。它为我们带来的不仅仅是营收增长,更多的是帮助我们更精确地了解客户,为客户提供更有价值的商品。五、云原生的一体化透明分布式数据库 44 为了满足业务诉求,我们对数据库的选型提出了几点要求:第一,简单易用。只有简单易用,才能真正意义上满足业务高速迭代的诉求,才是业务创新的基础。作为用户,我们并不希望引入全新的技术是以付出特别高的学习成本为代价。第二,海量与灵活。要做统一管理,做多渠道协调。面对企业的

44、全量数据,如何保证存得下、算得动以及保证数据安全性?因此对数据库的弹性能力及高可用能力都提出了更高的要求。第三,稳定。POS 系统是直接面对客户的 2C 业务,它的崩溃会对企业造成直接的损失与不可估量的社会负面效应,因此,稳定是选型中的最大考量。基于以上考虑,最终我们选择了 PolarDB-X。它孵化于阿里巴巴集团内部,在零售行业摸爬滚打多年,有着非常丰富的行业经验与解决方案,成熟稳定。五、云原生的一体化透明分布式数据库 45 POS 的核心业务系统通过微服务的方式打造成多个业务域,每个业务域都运行在相应的 PolarDB-X 集群。通过 PolarDB-X 提供全局的 BinLog 能力,可

45、以将数据实时一致地同步到下游分布式数据库,完成更复杂的报表操作或数仓操作。大促到来时,依托于 PolarDB-X 的云原生弹性很好地支撑业洪峰的到来。该套架构已在良品铺子稳定运行多年,经历了多次大促考验,日均交易量突破 100万,数据库响应时间始终保持在 3 毫秒以内。PolarDB-X 今年发布了很多有意义的功能,比如数据自定义存储、数据冷热分层等,帮助我们更有效地利用存储资源,更好地节约存储成本。五、云原生的一体化透明分布式数据库 46 PolarDB-X 不仅提供了 MySQL 协议的兼容,也提供了 Binlog 周边生态的兼容,为用户屏蔽了分布式技术所带来的技术门槛,真正实现了像使用单

46、机数据库一样简单地使用分布式数据库。在我们引入 PolarDB-X 后,支撑了峰值单日调用 9000 万次,接口性能提升 20%。我们业务 7*24 小时在线,从未发生过因数据故障而引发损失。另外,PolarDB-X 提供的云原生能力和分层能力,也帮助我们大幅降低了成本。最后,良品铺子希望与阿里云数据库继续合作,为新零售信息化建设继续添砖加瓦。六、云原生数据仓库:加速业务数据化,数据价值化 47 六、云原生数据仓库:加速业务数据化,数据价值化 作者:林亮,阿里巴巴集团研究员/OLAP 产品部负责人 薛菲,阿里云数据库事业部高级产品专家 陈浩,哔哩哔哩 Bilibili 资深数据开发专家 6.1

47、 云原生数据仓库:加速业务数据化,数据价值化 数据仓库旨在帮助企业实现业务数据化与数据价值化。数据在经济生活各个领域中持续发挥着重要作用。海量数据被创造出来,数据规模化、多样化、实时化、智能化的趋势日渐明。截至 2020 年,全球数据规模已达到 79ZB,且根据 IDC 预测,截至 2025 年,数据将增长 230%。数据格式愈发多样化,有结构化数据、半结构化数据与非结构化数据,数据可能来自数据库,也可能来自日志或者其他存储,而这些来自不同源、不同类型的数据不断增加了企业数据分析的成本。另一方面,数据的实时化趋势日趋明显。到 2025 年,将有 30%的数据是实时数据,69%的企业将实时与敏捷

48、作为未来企业数字化升级中面临的 top 5 的挑战与诉求。六、云原生数据仓库:加速业务数据化,数据价值化 48 一系列数据变化也带来了整体智能化分析趋势的增长。预期在 2023 年,将有 33%企业采用智能分析,预计截至 2025 年,将有 60%基于传统数据构建的模型将会被替代。伴随着以上趋势,数据处理架构也会变得更加复杂。传统数据架构存在复杂的搭建与运维问题,数据被存储在多种不同的系统中,很难很好地解决企业在数据分析过程中面临的高可用、高可靠和容灾等问题。企业希望能够有一套开箱即用的数据解决方案,不用陷入高昂的数据成本与复杂的内容中。另一方面,更多数据开始在平台上汇总,企业希望能够利用该优

49、势,满足自身不断增长的数据规模与处理能力的需求。六、云原生数据仓库:加速业务数据化,数据价值化 49 阿里云的云原生数据仓库 AnalyticDB 数仓版正是基于以上需求应运而生,它既能够支持实时分析,也能够支持海量数据处理,能够帮助企业快速构建起云原生数仓并且一体化支持存储与分析。通过数据库与大数据技术一体化,实现了高吞吐的实时增删改、高性能的分析,同时支持复杂 ETL,与上下游生态高度兼容,方便企业构建数仓。得益于云的特性,AnalyticDB 天然具有弹性,能够为客户提供最高性价比的方案。AnalyticDB 具有六大核心竞争力,同时具备数据库的易用性与大数据规模,能够帮助客户最高节省

50、90%的数据搭建成本。核心竞争力一:存储计算分离,计算支持分时弹性,能够很好地适应波峰波谷的业务场景。波峰到来时,资源可以自动弹出,很好地满足业务需求,同时也降低了使用成本。核心竞争力二:存储冷热分层,支持智能自适应分层。热数据被存储在高性能的介质中,提升了查询性能;冷数据被存储在低廉的介质上,降低了存储成本。核心竞争力三:计算资源组隔离,保障重要、稳定的计算任务。计算资源可以被弹性分配到资源组织中,也可以根据自己的需要实现物理资源上的隔离,重要业务不会被临时或异常任务影响。不同的任务可以路由到不同的资源组织中,使得一套系统可以支撑不同业务类型的处理需求。六、云原生数据仓库:加速业务数据化,数

51、据价值化 50 核心竞争力四:计算混合负载调度,支持离在线一体。降低了计算资源成本,同时降低了开发复杂度。核心竞争力五:计算按需启停,降低整体闲置资源的浪费。核心竞争力六:生态高度兼容,全流程传统数仓升级方案,方便用户构建对跨库与跨工具的组合方案。今年,AnalyticDB 在云原生与企业级特性上进一步提升,PostgreSQL 版本实现了重大升级,在性能、弹性、企业级能力与安全性上都得到了大幅提升。六、云原生数据仓库:加速业务数据化,数据价值化 51 弹性上,支持按需启停、按使用付费以及秒级计费。企业级分析能力上,支持了存储过程,也支持了更多场景化分析能力。安全性上,支持了行级安全策略以及更

52、多加密算法,希望能够满足企业日益增长的安全性方面的需求。然而,该方案依然存在加工与分析链路上的割裂,导致时效性的降低。9 月麻省理工科技报告提到,大多数企业已经在考虑统一数据分析架构,并认为这对企业的数据策略至关重要。智能分析的挑战始于数据架构,企业希望有一套完整、统一的平台能够支撑灵活与高性能的分析场景。因此,我们希望能够统一数据分析处理的流程,从抽取、加工、存储、分析的全链路让数据处理流程更简单、易用、实时、敏捷与高性价比,为此今年底我们将发布一款新的产品形态。6.2 云原生数据仓库 AnalyticDB 重磅发布 六、云原生数据仓库:加速业务数据化,数据价值化 52 传统企业在实现数据链

53、路时需要四个步骤,分别为抽取、加工、存储与分析,抽取、加工一般在数据库完成,存储、分析一般在数据仓库完成,中间存在巨大的鸿沟。新一代的 AnalyticDB 湖仓版正式公测发布,它能够实现全链路、端到端的数据处理与数据分析一体化,为用户提供数据湖的规模以及数据库的体验,其特性可以用1024 来总结。“1”指一份数据,离线数据和在线分析数据一体化,无需烦恼一致性和时效性。“0”指 0 度灵活弹性,弹得好,弹得起,弹得快,资源成本降低 30%以上。“2”指 2 种模型,离线处理和在线分析一个引擎两种模型,可以一站式完成计算,自动智能切换。“4”指 4 个统一。包括统一计费单位、统一数据管道、统一数

54、据管理与统一数据访问,使得整体开发体验更顺滑,预期提高开发效率 30%以上。六、云原生数据仓库:加速业务数据化,数据价值化 53 一份全量数据存储在对象存储上。对象存储的特点是低成本与高吞吐的读取,且一份全量数据可避免数据冗余,无需存储两份,节省存储成本,也能满足一致性与时效性的要求。内部存储可以直接使用 BSP 引擎进行追加写与粗糙读的交互,较好地满足离线处理的要求,实现低成本的目标。存储交互与数仓 BSP 的交互完全隔离,因此较好地实现了数据处理与数据分析的一致性。在线分析在一份存储的基础上,增加了 IO 加速节点 EIU,数据存储在 EIU 中可以实现高并发、高性能的实时增删改操作。在计

55、算节点有自动的全数据多级倒排索引,可以通过智能缓存的方式下推,使得在实时数据存储上得到更好的性能。灵活弹性可以总结为弹得好、弹得起、弹得快。AnalyticDB 提供了两种弹性策略,分别是分时弹性以及按需弹性以满足不同负载。分时策略适合在线分析业务,客户可以设定波峰、波谷的时间,提前部署资源。按需策略适合数据处理、离线处理、机器学习等,可以更好地贴合业务负载,实现更极致的弹性。弹得起指需要资源时,云厂商能够提供足够的资源。我们通过神龙+ECS+ECI 布置了三层资源网络,可实现客户 99%以上的弹性资源交付率。另外处理能力秒级扩展,基于资源池化后通过缓存加速等技术实现。六、云原生数据仓库:加速

56、业务数据化,数据价值化 54 AnalyticDB 的融合引擎可以支持两种模式,分别是 MPP 与 BSP,其中 MPP 能够实现及时分析,latency 较快;而 DSP 更适合 long running、对容错具有一定要求的数据处理。另外两种模式可进行自动切换,比如以 MPP 模式运行时,系统会自动检测该任务是否更适合 DSP,如果是,则自动切换为 DSP。未来,我们计划对一个任务中的不同算子智能地进行 MPP 与 BSP 分布,以实现资源巩固,帮助客户提升资源利用率。AnalyticDB 实现了一份数据,无论数据是存储在湖内租户还是仓内租户,对客户而言都是同一张表,因此我们实现了统一管理

57、与统一的权限访问。另外,也会开放存 六、云原生数据仓库:加速业务数据化,数据价值化 55 储的 Storage API,可以对存储实现统一访问,外部开放的数据引擎比如 Spark、Presto 也可以通过 Storage API 直接访问数据仓库里的数据,而无需腾挪数据。AnalyticDB 的使用场景覆盖了新零售、游戏、金融以及汽车制造业,主要应用于 CDP用户数据平台、用户行为分析以及营销全流程平台。我们已经与很多客户建立了深入合作。六、云原生数据仓库:加速业务数据化,数据价值化 56 金融领域的深万宏源证券,使用了 ADB 替换了传统数仓,实现了整体数据平台的升级,成本下降 50%,整体

58、性能提升 100%,平稳迁移 25000+任务和百 TB 级数据。波克城市通过 ADB 实现了秒级分析万亿级游戏行为的日志数据。6.3 AnalyticDB MySQL 湖仓版在 B 站的最佳实践 1.公司及业务介绍 猫耳 FM 是哔哩哔哩旗下专注于二次元 ACG 音频赛道的一款 APP 应用,对标喜马拉雅、网易云音乐、荔枝 FM。平台内容包括中日广播剧、有声漫画、有声小说、电台、声优直播、配音活动等二次元及泛二次元音频内容。其主要业务是与相关作品版权方合作,将国内市场火热的 IP 制作成广播剧、火山漫画等音频形式,最后由用户在平台上进行付费收听,完成商业闭环。六、云原生数据仓库:加速业务数据

59、化,数据价值化 57 目前,该平台每月数据增长量将近 8TB。平台通过数据为产品及运营决策提供支持。例如,运营部门需要客户活跃、留存率、APP 停留时长、付费转化率等指标指导日常运营决策;财务部门需要月度、年度的周期性支出及营收情况,用于对账、审计;产品部门则需要数据进行 A/B 测试,评估不同产品方案效果。其次,搭建推荐系统需要基于用户的搜索、点击、收听、付费等行为构建用户画像,并向用户推荐广播剧、主播等。最后,在业务运行过程中还会经常会遇到一些用户恶意行为,需要进行风控拦截,比如 IOS 用户充值退款问题,账号出租共享行为以及活动期间的刷榜行为等。直接在业务路上进行分析会导致业务库 CPU

60、 飙升,影响业务,造成请求响应超时,页面加载不出来等问题。随着数据量的增长、报表需求的增多,直接在业务路上进行聚合分析的方式已经行不通,需要搭建专门的 OA 系统作为技术支撑。2.历史架构及挑战 2018 年,该平台搭建了离线数仓,并使用该数仓进行实时在线分析。但由于是首次构建,技术能力有限,该数仓处于摸索阶段,暂时解决了短期爆款输出的问题。该历史架构存在的问题比较明显,一是分析时效性差,部分离线 ETL 任务无法在 T+1内运行完成,依赖这些任务的下游节点报表产出也发生滞后。另外一些日志数据导入到离线数仓的过程中,数据的拷贝超过 24 小时。六、云原生数据仓库:加速业务数据化,数据价值化 5

61、8 另外,资源无弹性。凌晨时段是任务运行高峰期,但由于机器人数量固定,大量任务推进等待程序调动,CPU 处于满负荷运行状态,任务无法及时运行完成。统计用户年度收听报告期间,统计用户最长收音时段数据的任务运行超过 24 小时,产品验收测试进度滞后。最后,运维成本高。服务故障时,需要进行数据排查报重并进行修复。其维护过程中数据开发及 BI 系统中断需要一个小时以上,遇到比较异常的主线问题时,系统不可用往往会持续一天以上的时间。3.湖仓版架构及优势 将离线数仓迁移到 ADB 湖仓版主要基于以下几个优势。首先,ADB 湖仓版可以根据任务繁忙程度对资源进行弹性伸缩。离线 ETL 任务主要发生在 0 点到

62、 5 点,这段时间资源需求高,资源弹性可以使资源更充足,避免任务因为等待资源而大量堆积。另外进行临时的修复数据时,可根据资源需求进行弹性伸缩,及时释放资源,降低使用成本。另外,测试分析、收益统计,需要实时反映最新的收益情况。但由于合作方的分成模式比较复杂,会有按固定比例分成、按订单量梯度分成、按时间梯度分成等。使用离线数仓处理达不到实时要求,在线分析性能存在统计的瓶颈。六、云原生数据仓库:加速业务数据化,数据价值化 59 ADB 通过 DTS 数据传输服务,数据入仓后可以实现一份数据同时在线分析和离线处理的需求,订单数据可以实现毫秒级增删改,面对查询时能在数秒内完成响应,极大提高时效性。最后,

63、ADB 可根据数据扫描量自动优化执行模式,智能选择执行模式,加速任务的运行。ADB 时效性高,可用于在线特性。猫耳 FM 业务中,除收益统计后台需要实时分析反映最新的交易情况,在广播剧的打赏主板中也用到了这一特性。在广播剧打赏主板,基于 ADB 应对复杂查询的特性,榜单的更新周期从小时级别提高到秒级,提高客户参与积极性,提升用户的停留时长及付费转化率。另外,在直播业务中,平台可以对中奖概率进行实时监控。如果中奖的概率超出预设值,运营可以及时收到报警的通知,进行调整或下架,控制成本收益。这一特性也用于监测活动期间的刷榜行为,直播间管理人员可以及时予以处置,避免榜单排名的异常变动。七、多模融合:让

64、海量数据存得起、看得见 60 七、多模融合:让海量数据存得起、看得见 作者:张为,阿里巴巴集团研究员/NoSQL 产品部负责人 刘志杰,小米大数据运维负责人 7.1 Lindrom 多模融合:让海量数据存得起,看得见 过去 20 多年,互联网电商业务数据经历了快速增长,从传统处理结构化数据的 OLTP数据库时代过渡到处理海量半结构化、非结构化数据的互联网业务平台新时代。新时代对大容量、高性能、低成本的海量数据处理平台的需求急速增长。针对阿里巴巴电商业务,尤其是双十一数据海量增长和快速处理分析的需求,阿里巴巴开始自研数据库技术。2009 年,Tair1.0 内存数据库上线,支撑了电商交易的核心企

65、业场景,在数十亿的 QPS 峰值下时延保持亚毫秒级别;2011 年,Lindorm1.0数据库平台上线,支撑了阿里巴巴全系列业务在线大数据场景,在百 PB 存储下保持毫秒访问和极致低成本。今天,随着网络技术进步以及对传感器技术的深入使用,各行各业数字化推进使得海量大数据的生产呈现出与以往更不一样的特征,同时对于高性能、低成本、大容量 NoSQL 数据库系统需求增加。七、多模融合:让海量数据存得起、看得见 61 因此,阿里巴巴将诞生于电商互联网平台的大数据技术,以 Lindorm、Tair 为代表,结合阿里云上计算环境,推出一系列云上 NoSQL 数据库产品。2019 年,阿里云与MongoDB

66、 强强联手,推出云上文档数据库;2020 年,自研海量多模数据库 Lindorm在阿里云正式上线;2022 年,自研内存数据库 Tair 在阿里云正式上线。Lindorm 的诞生记录了数据库针对时代场景的挑战和变迁。从 70 年代开始,数据库的技术发展经历了三个阶段,第一个阶段以关系型数据库为代表,主要支撑企业和政府的关键业务数据。以处理结构化数据为主,处理的级别在 GB 级别,Oracle、DB2、MySQL 等都是常见的关系数据库产品。2000 年开始,随着互联网技术的发展,更多的业务对数据的管理和分析提出不一样的挑战。日志和文档等不同类型数据的产生,使得存储和处理半结构化数据、非结构化数

67、据的非关系型数据库蓬勃发展,Bigtable、MongoDB、Redis、ElasticSearch等都是非关系型数据库的典型代表,数据生产达到 TB 级别。当下,随着万物数字化和各类传感器飞速发展,IDC 预测到 2025 年全世界 90%的数据将是以传感器生产的 IoT 数据为主。该数据的类型丰富多样,包括各式各样的传感器数据,例如图片、声音、GPS 等,数据量可达到 EB 级别。因此,需要能够融合处理海量异构数据,并且提供极致低成本的原生多模数据库,这就是 Lindorm 诞生的原因。七、多模融合:让海量数据存得起、看得见 62 Lindorm 具备三个特性:第一:Lindorm 是一种

68、多模超融合的数据库,云原生地支持各种异构数据类型,包括半结构化和非结构化数据,如宽表、时序、时空等。Lindorm 存储多种异构数据的同时,还能实现数据的在线分析和在线检索,向用户提供统一 SQL 接口。第二:性能和成本的极致平衡。Lindorm 是云原生的数据模型,它是典型的存储计算分离架构,可以让存储和计算事件实现独立弹性伸缩。Lindorm 可无缝集成多种不同类型的存储,如对象存储、云盘存储、本地物理盘存储,还能综合管理不同类型存储服务的 IO、性能及成本。针对海量数据在 Lindorm 的存储,Lindorm 通过对数据冷热进行识别和分离,将不同级别的数据自适应到不同类型的存储上。以上

69、特性让 Lindorm 实现高性能的同时降低了成本。第三:Lindorm 具备开源生态兼容的特性,可全面兼容各种开源体系,用户可零成本适配,支持 HBase、Cassandra、OpenTSDB、S3、HDFS、Kafka 等多种接口,使云下的大数据负载低成本、无缝地迁移至云上的多模数据库生态。七、多模融合:让海量数据存得起、看得见 63 Lindorm 多模融合架构分为三层。第一层为存储融合。主要解决海量数据在云原生大数据环境下的存储效率问题,能够将云上存储能力无缝融合,降低用户对海量数据的管理和存储成本。针对新时代产生的海量数据,Lindorm 作为云原生多模数据库,能够无缝地帮助用户管理

70、多种不同层级的存储介质,包括本地盘、云盘、云上对象存储等,用户可以将多种存储介质无缝呈现在一个存储池里,可根据特性自动将多种异构数据分配到不同的存储介质上。同时,Lindorm 由完全云原生的分布式文件系统作为底座,能够独立弹性扩缩存储容量。我们将不同存储介质的能力与 Lindorm 数据的负载做了自动适配,能够在不同级别上支持高效的压缩与编码。比如,可以通过纠删码 EC 算法,将副本冗余系数降低至 1.25,可以根据自适应压缩算法,最小化数据的存储。七、多模融合:让海量数据存得起、看得见 64 第二层为结构融合。用户在管理多组异构 IoT 或者万物互联网数据时,能够无缝地将多种异构数据通过一

71、个平台系统进行管理,从而解决运维效率复杂度的问题。比如针对时序、时空数据,用户往往需要采用不同的大数据系统针对每种负载独立构建数据服务,在应用层将多种数据服务的交互进行统一管理。而且 Lindorm 提供了灵活的表格模型,比如 Lindorm 宽表既能支持传统关系型数据库的 Schema 结构化数据,也可以通过增加动态链,向文档灵活增加 Schema 结构数据。宽表类型模型之外,Lindorm 还支持多种其他异构数据存储引擎,比如支持 JSON 的实时读取与处理,支持时序数据的融合分析,以及支持非结构化数据 Blob 类型的存储和调用等。通过将多种异构数据在一个数据库系统进行综合管理,用户将无

72、需分别构建多种数据库系统,大幅降低了用户对于海量异构数据的运维管理成本,简化了用户系统架构。第三层为多种负载计算融合。解决用户在处理分析多种异构数据时需要综合运用到多种计算能力以及开发复杂系统的应用问题。通过 Lindorm 底下内置的多种数据分析引擎,比如传统 Lindorm 宽表引擎、数据搜索引擎、时空分析引擎、批量离线计算引擎等,分别处理不同类型的异构数据,同时无缝拉齐各种数据链路,使得异构数据可以流转,被引擎拉起的多种异构数据可进行融合分析。七、多模融合:让海量数据存得起、看得见 65 传统的开发模式需要构建多个数据服务,需要与多个数据服务器进行复杂交互,而通过 Lindorm SQL

73、 引擎,用户只需与 Lindorm 一个系统打交道,极大简化了开发数据应用的成本,大幅提高开发效率。Lindorm 能够融合多种特性的云上存储介质,能够智能识别用户在不同的负载里对冷热数据的访问模式。Lindorm 能够智能识别用户对于冷热数据的需求,将不同的冷热数据分散到不同的存储介质上。可以用快速压缩算法将热数据存储到高性能存储介质上,经过智能识别以后可以实现冷热数据的转换,将冷数据进行深度压缩,最大化降低用户的存储成本,同时最大化用户的性能。以上一切工作均在存储引擎内部完成,用户无需再手动分别处理冷数据与热数据。七、多模融合:让海量数据存得起、看得见 66 Lindorm 实现了 Sea

74、rchIndex 加速检索分析。数据写入以后进入宽表引擎,用户只需经过简单配置,即可启动 Lindorm 的搜索引擎,为用户写入的数据创建全量与增量索引,用户无需再额外构建一套搜索服务,也无需将数据流转,可以在内部完成全局内容检索,大幅简化了用户应用的开发流程。物联网时代最典型的应用是车联网数据,无数汽车无时无刻不在向车联网数据中心上传车机数据,包括车辆运行状态、时空位置、车辆摄头以及雷达等数据,数据量极大并且具有明显的异构特征。而我们可以通过 Lindorm 提供的不同引擎,在同一个系统中处理与分析不同类型的车联网数据,大幅简化了车联网应用的开发流程,开发、运维的效率均有大幅提升。七、多模融

75、合:让海量数据存得起、看得见 67 可观测场景下的数据包括 tracing、logging 和 metrics 等几种不同类型,传统方式下,我们需要使用不同的数据处理系统针对几种不同类型的数据进行处理,比如tarcing 需要使用宽表数据库,logging 使用搜索引擎,metrics 使用时序数据库。而有了 Lindorm 后,通过一个系统即可对三种数据统一进行融合管理与处理,并且无需区分三种系统,无需使用三种不同的接口与语言交互,只需统一使用 SQL 即可一站式完成监测场景的应用开发。Lindorm 提供了 HBase 的平滑迁移方案。通过高速数据通道 LTS,能够将客户已经建立的 HBa

76、se 集群双向同步与迁移至云上 Lindorm 数据库。并且 Lindorm 支持使用 HBase 的客户端或 Lindorm 客户端无缝访问迁移到 Lindorm 上的数据,且存储成本降低 50%,性能吞吐提高 300%。7.2 小米大数据运维管理体系的建设与实践 1.大数据运维数字化转型 七、多模融合:让海量数据存得起、看得见 68 小米业务架构主要分为三层。第一层,IaaS 层。包含 IDC、公有云、网络等。第二层,PaaS 层。大数据作为 PaaS 层核心,向下对接基础资源,向上承接业务需求,帮助业务沉淀数据资产、提升数据效率。第三层,SaaS 层。包含手机、IOT、汽车等数百个核心业

77、务。小米大数据服务架构立足于 X86 和 ECS 之上,自下而上分为四个层级。数据采集层:主要采用自研 Talos 实现。数据存储层:包含各类自研及开源主体,如文件存储的 HDFS、KV 存储的Pegasus 和 Hbase、对象存储 FDS 等等。七、多模融合:让海量数据存得起、看得见 69 数据计算层:使用 YARN 作为统一资源管理服务器,并基于 YARN 提供多种批处理和流处理引擎。此外 OLAP 引擎进一步满足数据检索和机器查询的需求。数据平台层:又称数据工厂,提供一站式的数据开发和数据管理功能。随着小米业务的不断发展,目前小米大数据服务涵盖国内外 20 多家的机房区域,达到了千家集

78、群、数万节点的规模。数据总量接近 EB 存储,每日计算作业约 30 万。小米的运维转型面临了诸多挑战。传统运维管理方式和服务快速发展之间的矛盾日益突增,具体表现在服务的质量、成本、效率各个方面。大数据服务场景多,差异化极大,运维复杂度持续增加。数据孤岛导致数据难以被高效利用,数据分析、决策、执行效率低。运营单核心发展导致标准化流程落地难,局部出现了“多人多面”的现象。七、多模融合:让海量数据存得起、看得见 70 轻舟是小米大数据中长期规划战略的代称,其主线是通过建设全能的基线能力,打造极致的承运能力,以实现全生命周期的管理。轻舟架构包含两层。一是基线能力层,包含数据集市和发布中心两部分。二是垂

79、域能力层,完整覆盖服务生命周期,包括服务的创建、运营和消亡。轻舟一体化数据集市主要用于解决实践中的数据孤岛问题,在数据源和数据使用方之间搭建数据集市。在数据集市上制定了数据管理规范,并对数据进行分层次处理,通过一条调度同时实现数据的存储和使用。该方案具有以下两个优点:统一数据运维体系。解决数据孤岛问题的同时,降低了数据使用门槛。目前,该数据方案应用于所有的大数据运维服务中。数据场景闭环。历史数据方案以人为中心,最新的数据方案则是以数据场景为中心,降低了计算复杂度。七、多模融合:让海量数据存得起、看得见 71 轻舟发布中心通过调度编排加低代码的模式,实现了工作流的灵活定义。依托于模板实现 SOP

80、 固化和沉淀,完成去人工化。如图所示,该方案针对各种执行底层以及自定义脚本进行统一池化管理,在各个面板上定义了多种区域,如循环区、单次执行区等等。目前该方案已经推广到所有的大数据服务中,发布效率提升 30%以上。轻舟运营中心结合数据和 AutoOps 理念,重点解决了管理过程中经验化程度高的问题。目前已经覆盖了 95%上的大数据服务,大幅降低管理成本。该方案在一定程度上实现了对数据的进一步分析及全场景的容量检测。除此之外,该方案还配有巡检、配置等多个模块。七、多模融合:让海量数据存得起、看得见 72 2.大数据技术架构实践 小米核心数据链路以Talos为核心。原始数据通过Hive或其他形式统一

81、进入到Talos中,后端转储模块实时处理 Talos 中的数据,并将数据接入到其他数据集中,以供进一步分析和使用。目前,该数据方案已经广泛推广,小米业务中超过 50%的数据都是通过该方案进行处理。小米最新的数仓架构是由 Iceberg、Spark、Flink 构成的一套离线实时数仓。原始数据通过核心链路到达离线湖仓中,并在湖中不同数仓层级之间完成 Flink 或 Spark建设。七、多模融合:让海量数据存得起、看得见 73 同时,小米 OLAP 引擎提供直接查询核心数据功能。目前,该数仓方案能够达到分钟级延迟。相比 Kappa 和 Lamdba,架构复杂度明显下降,数据存储能力提升明显。HDF

82、S 实践中一般使用机械盘、固态盘等存储方式进行数据耦合和数据区分。小米为了压缩数据成本,提升数据性价比,使用 HDFS Tering 网络数据分类架构来实现冷热数据分层。如图,后台 Mover 程序读取冷数据,存储在阿里云 OSS 上,同时更新 Mover 云数据。目前,该方案已经完整用于线上,冷数据量超过 200P,冷数据成本降低 80%。七、多模融合:让海量数据存得起、看得见 74 为支撑小米 IOT 战略,满足业务海量数据检索的需求,小米研发了 SDS。然而,该方案存在以下三个方面的问题。随着小米业务不断发展,数据规模持续扩张,内部架构问题逐渐暴露。数据链路较长,排查问题困难,开发维护成

83、本高。SDS 支持物联网持续数据的场景能力较差,开发功能不完善。Lindorm 兼容开源系统协议,满足架构需求。同时,Lindorm 过程存储以及 SLA 协议可以彻底解决系统内历史回流问题。Lindorm 在小米内部测试结果出色,符合业务需求。七、多模融合:让海量数据存得起、看得见 75 完成选型和测试后,以低成本实现 SDS 到 Lindorm 的转换需要以下三个步骤。第一步,打通 IDC 数据链路,完成 SDS 和 Lindorm 的双向流通。第二步,保持 SDS 和 Lindorm 数据同步更新,提供了 SDS 定制 Proxy 以最小化运营成本。第三步,将流量和 SDS 切换到 Li

84、ndorm 上。目前,整套方案在持续的运营当中。小米团队在过去参与了许多大数据事件,如云原生存储建设、跨机房改造等。八、简单易用的一站式数据管理与服务 76 八、简单易用的一站式数据管理与服务 作者:付大超,阿里云数据库事业部资深技术专家、DMS 和 DTS 产品部负责人 胡航丽,阿里云数据库事业部高级产品专家 8.1 简单易用一站式数据管理与服务 市场报告显示,2025 年将有 75%数据库迁移到云上,将有 30%数据是实时数据,到 2024 年末数据保护法将会保护到 75%人口。整体趋势可以总结为上云、实时以及安全。我们认为,库仓一体是未来趋势。因为核心数据从数据库产生,而实现库仓一体化可

85、以降低用户使用成本。八、简单易用的一站式数据管理与服务 77 用户开发数据应用时,需要与数据库之间进行交互,比如建表和组件、进行数据库变更操作等。最后通过程序将数据写入到生产库,比如数据库、存储系统。基于生产库数据会进行集成与预加工,比如进行同步,迁移、进行 ETL,然后数据会流向AP 系统,在 AP 系统进行分析之后,数据又向下游流动,通过数据服务最终提供给数据应用。这个过程中会产生一系列语言数据和操作行为,操作行为最终会沉淀为数据资产。上述流程中会存在几个痛点:第一,规范无法落地。将规范真正有效地落地到可度量的产品功能上与书面规范存在非常大差距,并且落地后稳定性问题突出。第二,集成加工复杂

86、。数据库产品非常多,数据要在数据库产品之间或存储之间进行流动,需要一系列技术的支撑。无论是批量集成还是实时集成,数据流动本身就是很大的问题。并且同时会引起更多的使用成本、运维成本以及诊断成本。第三,多个工具使用切换。库表设计、传输、加工、分析等,它们的购买成本、使用成本、运维成本本身就是对客户的巨大考验。第四,数据治理困难。数据安全保护法难以真正落地,安全合规问题突出。八、简单易用的一站式数据管理与服务 78 基于以上痛点,阿里云推出了一站式数据管理与服务 DMS。针对规范无法落地的问题,我们抽象了数据库 DevOps。通过研发系统、访问控制等一系列技术来解决问题,比如研发人员无需获取到数据库

87、的用户名和密码,也可进行数据库表的设计、开发、变更等一系列流程。针对集成加工复杂问题,我们推出了数据传输与加工,通过集成数据传输、迁移、同步、订阅等能力,实现了异构数据库端到端的实时数据传输,并且过程中进行 ETL,解决了数据自由流动问题。针对多个工具切换的问题,我们抽象出了数据服务应用功能,提供了一键宽表、一键报表、一键 API 等服务,解决了数据使用的复杂问题。另外,推出了逻辑数仓功能,同时结合 ADB 引擎,使功能更强大、更易用。针对数据治理困难,我们与达摩院合作实现了数据知识库构建、隐私脱敏、可信计算、全加密数据库等一整套流程,建立了事前、事中、事后的方法论,并且将能力沉淀到数据库安全

88、中心,希望能为用户解决安全问题。八、简单易用的一站式数据管理与服务 79 接入层,无论是 SQL 还是 API 都可以被集成,调用层支持弹性,核心模块层支持Scale Up 和 Scale Out。比如做数据集成时往往速度较慢,单进程无法满足性能要求时,可以为其申请规格。底层的引擎层集成了数据库所有核心产品的能力。DMS 满分通过了信通院认证,底层 DTS 引擎从 2011 年开始服务于异地多活架构。我们拥有 50+自研技术,并且拥有 17 项专利沉淀。通过不断从客户问题中抽象出场景,最后变为产品能力。八、简单易用的一站式数据管理与服务 80 为了避免数据库的数据泄露风险,我们实现了访问控制技

89、术,同时通过授权管理实现了库、表、链甚至行级别的审批和授权。无论是人员入职、离职或转岗,都不会发生数据泄露。数据安全包括敏感数据识别、分类、脱敏等。我们通过数据库安全技术,能够做到真正的分类分级。我们将数据法案内置于该能力中,用户可以直接选择并使用。我们也实现了 DTS 实时数据解析加工,提供了实时日志解析和迁移的能力。并通过Schema MCC 专利技术,保证用户 DDL 时链路不会出现问题。通过大量应用的积累,我们沉淀了一系列基于数据的智能技术。比如通过 Schema Matching 技术判断两个列之间是否有关系。对敏感列进行加工生成新列之后,新列的对应状态会基于血缘进行传播,解决了一系

90、列衍生问题。通过数据和机器学习解决数据和报表之间的匹配问题,能够自动推荐应该选择什么样的报表,并一键生成报表。8.2 DMS 一站式能力 在数据库开发过程中,绝大多数公司都会遇到或正在遇到以下问题。比如数据库研发规范只落在纸面,并未实际执行,导致数据库故障一直发生;比如很多数据库上线过程中的 SQL 优化、Review 都需要依赖 DBA 集中执行,导致研发效率非常低下;比如企业中很多人员拥有数据库账号和密码,导致数据库泄露。同样的问题在十几年以前已经困扰着阿里巴巴。八、简单易用的一站式数据管理与服务 81 因此,2010 年我们自研了 DMS,发布了第一大模块 DevOps 能力,通过 40

91、0+研发规范、全流程变更管控等一系列能力有效降低了 90%以上的数据库管理成本,并且能够最大限度地保证研发的高效率。DevOps 于 2013 年在公有云上发布,企业可以基于 DMS 灵活的自定义流程和自定义权限能力构建自己专属的 DevOps 解决方案,提升企业的研发效率、稳定性和安全等。让数据流动是避免数据孤岛的有效手段。而数据流动一直以来都是一个难题,存在异构、时延、一致性等问题。阿里云的 DTS 数据传输服务为数据的流动提供了支持。DTS 是全球首款公有云上发布的数据传输服务。它融合了阿里集团内部的高性能环境、高稳定性的数据传输要求以及阿里云上十几万客户多元多端的数据流动能力,能够解决

92、数据异构传输、远距离传输、弱网络传输以及数据一致等问题。八、简单易用的一站式数据管理与服务 82 从数据中挖掘价值是每个企业在新时代下面临的机遇,也是巨大挑战。DMS 通过逻辑数仓的能力降低了数据服务与应用的门槛。传统方式下,如果要查看某一类商品在某个城市卖出的单数,需要将需求提交提给BI 工程师,最快速度下也需要一到两周时间才能将报表产出。但是在 DMS 下,只需要通过两条 SQL 即可分钟级地产生报表。八、简单易用的一站式数据管理与服务 83 如果没有数据安全,则所有其它能力都没有意义。DMS 提供了全链路的数据安全能力。比如事前会提供自动数据分类分级、细粒度到行列级别的权限管理能力;事中

93、会提供实时动态脱敏、隐私计算等能力;事后会提供审计、数字水印溯源等能力。以上所有能力不仅服务于阿云数据库,同样服务于自建数据库,也可以服务于他云的数据库。另外,我们针对企业的高频场景提供了一站式产品化解决方案。八、简单易用的一站式数据管理与服务 84 我们提供了 GAD 全球多活数据库,为容灾国标五级、低延时的全球就近访问等场景提供了开箱即用的能力;提供了一站式企业级备份平台 DBS,能够满足企业多源多端统一备份、基础数据备份、日志备份、异地备份、归档等需求,甚至可以提供备份数据的查询。通过数据归档结合逻辑数仓,使得对归档数据与在线未归档数据能像在一张物理表上一样去使用,解决了归档场景下数据查

94、询难的问题。针对商业数据库迁移的需求,我们提供了一站式解决方案,从评估、改造、迁移到最终的割接,开箱即用。八、简单易用的一站式数据管理与服务 85 DMS 已经为 100 万+用户提供了服务,包括开发、测试、运营等。我们持续关注体验和交互的简单易用,因此我们在过去一年中优化了 128 项体验,同时不断上线极简模式,不断探索基于机器学习的智能推荐能力。未来,我们也将在简单易用上不断前进,持续为用户提供一站式的数据库管理服务。九、云数据库 RDS 的最新功能与最佳实践 86 九、云数据库 RDS 的最新功能与最佳实践 作者:彭祥,阿里云数据库事业部资深技术专家、RDS 产品部负责人 许鸿斌,阿里云

95、数据库事业部高级产品专家 孔祥发,欢聚集团聚时译高级研发经理 9.1 云数据库 RDS 重磅功能发布与最佳实践 1.整体介绍 阿里云 RDS 伴随着阿里云的成长而成长,经历了不同的发展阶段,从最初的脚本化运营方式发展到平台化、商业化。在产品能力上逐步支持了 OpenAPI、PostgreSQL、SQLServer 等多种引擎。阿里云 RDS 在过去几年中经历了智能化演进,比如通过 DAS 的机器学习能力支撑智能决策,通过性能参数调优、MySQL 治理等来提升引擎产品的能力。2021 年,阿里云 RDS 进行了架构升级,全向云原生演进,充分将阿里云底层的 IaaS 资源服务能力通过 PaaS 服

96、务的进行透传。并在此基础上进行了创新,包括 Serverless、ECS 等。九、云数据库 RDS 的最新功能与最佳实践 87 阿里云 RDS 从过去基于物理机隔离的架构逐步朝着 All On Ecs 的方向演进,将 PaaS的产品能力构建在 IaaS 资源服务能力上,再基于 ECS 以及 ESSD 实现存算分离架构进行资源解耦,为产品能力带来了极大的提升,比如可基于快照秒级恢复以及计算和存储独立扩容和缩容的能力。在计算存储分离架构的基础之上,构建了基于 K8s 的集群调度系统,将引擎产品容器化部署到 ECS 服务器上。在分层管控架构之上,我们构建了自己的 Serverless 产品能力。使用

97、统一的管控架构支撑了四款不同产品,包括 MySQL、PostgreSQL、MariaDB 以及 SQL Server。除了硬核技术以外,我们也通过多种产品能力帮助开发人员提高开发效率。2.产品趋势及技术解读 九、云数据库 RDS 的最新功能与最佳实践 88 数据库在传统的 RDS 阶段,计算节点和存储容量都需要预设,比如通过运维人员根据业务需求进行手动配置,计算规格有限,严重限制了业务开发人员的开发效率以及 DBA 的运维效率。云原生 RDS 能够利用 DAS 产品进行智能化调度,智能化预测产品或用户业务需要多少资源量,可以自动进行伸缩。而 RDS Serverless1.0 和 2.0 阶段

98、希望客户无需关心资源,计算规格和存储容量都能够随着业务量的发展进行扩缩容。传统 RDS 架构下,运维人员需要根据业务的波峰波谷进行手动扩缩容,难以精准预计,极易出现资源浪费或资源储备不够的情况。同时,传统 RDS 架构下,资源伸缩的范围有限,无法完全满足业务需求。而在 Serverless 架构下,计算规格和存储容量能够随着业务波峰和波谷进行弹升弹降,极大提升了运维人员的工作效率。同时,可以对资源进行更精细化、更准确的配置,节约了大量成本。九、云数据库 RDS 的最新功能与最佳实践 89 RDS Servereless 产品为业务带来了以下核心竞争优势:资源配置可随着业务负载实现秒级弹性伸缩。

99、按需使用,按量计费。构建在内核功能的创新之上,实现了内核 BP Online Resize 优化,弹得更稳。支持 RESTful API 访问机制。只需一个 endpoint 即可通过 RestAPI、HTTP 协议进行访问和操作,配置数据库资源。我们实现了 RDS On 倚天 ECS,包括底层 CPU 架构、ECS 机器,到上层数据库的全栈资源,并实现了软硬协同优化,使得 RDS On 倚天 ECS 的性能、稳定性等各个方技术指标看齐并超越最新一代的 X86 机型。平均性能提升 10%,性价比提升 25%,并实现了 0 成本的应用适配。九、云数据库 RDS 的最新功能与最佳实践 90 从过去

100、的 RDS 迁移到 ECS 架构后,存在大量稳定性问题,需要持续不断地创新、深度优化才能使新架构的产品竞争力看齐过去物理机形态的能力。我们对 Binlog 体系进行了改造,实现了 Binlog In Redo 模式,将原先事务提交commit 的两次 IO 操作降为一次,大幅提升写操作的吞吐。同时,对 Binlog 的写模式也进行了深入调整。RTO 是众多数据库使用者最关心的核心指标。RDS 产品过去在 RTO 上做了大量优化。比如大事务 Recovery 优化,从过去的需要小时级降至秒级;同时,对 Buffer Pool 进行了并行初始化优化,提升了 RTO 指标,对 Reo 的核心组件进行

101、了深度优化,提升了产品能力。3.产品功能发布 我们一直在思考,能否有这样一种产品形态,既能够兼顾实例的整体可用性,同时又能够最大范围实现降本增效。因此,阿里云推出了 RDS MySQL 的新形态RDS MySQL 集群版。集群版相比于之前的高可能架构存在两点颇为明显的变化。九、云数据库 RDS 的最新功能与最佳实践 91 集群版支持同时挂载多个从节点,这意味着会有多个备库,同时所有备库将开放给业务访问,以实现资源的最大化利用,降低成本。集群版不仅提供了最高 4 个 9 的全球最高等级 SLA 服务保障,同时还通过内置的 MySQL 主复制技术结合内置的 Paxos 分布式协议算法,确保数据多点

102、性,确保数据永不丢失。以最小成本实现数据库服务的可用性以及数据可靠性最高级别的保障,是 RDS MySQL 集群版的最大竞争力。RDS 通过一系列产品功能的矩阵,实现了整体业务的降本增效。九、云数据库 RDS 的最新功能与最佳实践 92 在计算节点上,支持了基础版的只读实例,针对有明显使用时间的业务,在业务停用之后可以同步暂停 RDS 实例,实例暂停期间不收取任何计算节点费用,需要时又可以快速将它拉起用于生产业务。存储节点部分也进行了核心优化。依赖云盘能力,支持了从 PL0 到 PL3 全等级的云盘矩阵,同时可以根据线上业务的吞吐需求,在 PL0 到 PL3 之间随时进行无损的在线变化。存储流

103、量层,通过数据库内部的核心技术实现了云盘缩容能力,可以根据业务数据量的变化实现云盘存储空间分配以及降本。不论是计算节点实例暂停还是存储节点的可升可降,我们始终希望业务的不同阶段都可以在 RDS 上获得最优的资源成本与解决方案。RDS 与数据库备份产品 DBS 深度集成之后推出了新特性:急速备份及恢复能力。数据库物理的备份中,往往会涉及到跨存储介质的数据传输以及恢复,耗时耗力。而通过 RDS 极速备份及恢复能力,可以实现对全量及增量的物理备份和文件实时自动合成快照备份。进行数据恢复时,可以通过快照秒级挂载实现数据的快速恢复,大幅度缩短数据恢复时长。此前恢复 1T 数据大约需要 4 小时,而现在仅

104、需 30 分钟,数据效率恢复提升达 88%。九、云数据库 RDS 的最新功能与最佳实践 93 同时,也支持了针对单库单表级别的恢复能力,该能力可大范围应用在诸如游戏等多租户,需要单库单表回档的场景,让线上业务以最快速度回档到正确状态。RDS 的可观测性体验也得到了增强。首先提升了更多资源监控指标,客户可以针对RDS 实例进行更全面的掌控。其次支持了全局视角的自定义监控大盘,可以根据多实例、多时间点、多监控进行数据的聚集、展示以及对比分析。针对最为常用的指标比如资源、空间、链接、慢 SQL 等,支持定期的常态化自动巡检,会定期给出报告,发布告警,用户可对全局运行状态实现全面掌控。九、云数据库 R

105、DS 的最新功能与最佳实践 94 PostgreSQL 被誉为全球最先进的开源数据库,而 RDS PostgreSQL 通过插件的能力扩展了其使用场景。我们发布了 Ganos 时空引擎插件,可应用在高新地图、路径规划等场景;发布了全加密数据库插件,可以实现从内存到磁盘全链路最高等级的加密;发布了 PASE 高维项目插件,可应用于图像识别、AI 机器人等场景;发布了Babelfish 插件,可以实现对 SQL Server 数据库的兼容以及对商业数据库的替换。以上插件能力的加持使得 RDS 在 AI、时空、加密等场景上具备了更好地为业务提供服务的基础能力。4.最佳实践 从线上真实数据可以看到,S

106、erverless 已经广泛应用于资源波动、具备不确定性负载的场景中,比如运维及开发环境、IDC 到云上容灾环境、音视频不定时转码、多人在线协同办公系统等。以上场景均具备一个共同特征:业务间断不连续,但在业务高峰期对数据库性能有着极高要求。RDS Serverless 通过秒极弹升、按需付费的能力,可以很好地满足此类场景的需求。在业务低峰期,可以保持在较低水位线运行,而在业务高峰到来时,又可以快速弹升以应对业务流量。大幅降低了资源成本,最高降本 70%,真正实现了增效并且降本。九、云数据库 RDS 的最新功能与最佳实践 95 Babelfish 具备了 SQL Server 商业引擎语法的兼容

107、能力。在 RDS 上启用 Babelfish插件之后,即可通过 SQL Server 语法以及 PG 语法同时对数据库进行访问,以开源数据库引擎的能力以及成本实现商户数据库引擎的能力,进而将商业数据 SQL Server 替换,使得数据库采购成本下降 60%-70%。RDS 砥砺前行,经历了十年发展之后,无论是从最底层的软硬协同一体化,还是数据库最核心的内核优化,亦或是最上层集群 MySQL 形态的推出,始终致力于让每一个客户获得更快、更稳、更安全、更好用的数据库使用体验。九、云数据库 RDS 的最新功能与最佳实践 96 9.2 欢聚集团 RDS 实践 欢聚集团成立于 2005 年,并于 20

108、12 年在纳斯达克上市。集团从泛娱乐直播切入,孵化出电子竞技游戏直播,并深度布局电商、金融、教育等行业,是一家综合创新的全球化科技互联网公司。集团深入本地化耕耘产品内容和社交生态,持续为用户构建基于兴趣的社交互动全球化社区,实现全球业务的健康可持续增长,为用户创造更大价值。在该业务背景下,降本提效成为重要的技术考核标准。1.现状和挑战 九、云数据库 RDS 的最新功能与最佳实践 97 公司现状和挑战主要有以下三个方面。IDC 自建。由于业务隔离,平台共享资源能力弱,资源利用率低。另外,计算和存储绑定导致项目风险高。多年积累导致生态落后,迭代成本高。开源版本,固定规格。相比商业版本或定制化版本,

109、存在性能损失。另外,版本升级风险高,固定规格使得规模预判强依赖于业务,成本陡增。专业 DBA 运维。人力成本高,工作量难以均衡。业务满意度低,人员流动性高。运维过程中,人重度参与,响应周期长,人力成本高。2.选型和演进 选型过程中,我们主要考虑了 IDC 自建和 RDS 两种方案。IDC 自建:可定制性高,稳定性好,权限丰富。RDS:性价比高,生态完善,能够提供完善的运维治理。域名监控完备,经受过各个行业考验。在数据合规性方面,能够提供完善的安全审计方案。九、云数据库 RDS 的最新功能与最佳实践 98 选型之后,演进过程经历了以下三个阶段。阶段一:ECS 自建阶段。基于 ECS 搭建开发者集

110、群,完成基于后台的承载。优点在于资源弹性增强,资源共享性提高。存储与计算分开,适用于测试环境和业务验证。缺点在于其运维、生态需要自建,只适用于初期阶段。阶段二:RDS 基础/高可用版阶段。能够满足业务的高并发和高可用,提供完善的监控和数据治理方案,实现资源基本弹性。阶段三:Serverless MySQL 阶段。通过设置 CPU 区间,实现资源弹性极致,应对波峰波谷明显的场景。3.实践落地 九、云数据库 RDS 的最新功能与最佳实践 99 确定选型之后,需要将数据从自建 IDC 迁移到 RDS,并且实现业务平滑迁移。首先,连接自建网络与云上网络,使用 DTS 产品完成数据双向同步。同步完成后,

111、在两者间增加 Lvs proxy。接着,在应用层面通过 Lvs proxy 连接数据。应用数据连接完成后,进行切换,完成后下线自建 IDC。集成 DAS 能够对 RDS 的健康维度进行监控,并且补充界面展示。九、云数据库 RDS 的最新功能与最佳实践 100 Serverful 中 DB 暴露在所有应用下,VM 与 DB 通过连接池保持连接。Serverless 下 FAAS 访问 DB 需要通过 RESTAPI,鉴权通过 RAM/AK/SK。RDS 实践达到增效降本的目的,运维人效提升 70%至 80%,投入成本减少 40%至50%。十、云原生智能化 DBaaS 101 十、云原生智能化 D

112、BaaS 作者:周方圆,阿里云数据库事业部资深技术专家、DBaaS 产品部负责人 1.阿里云数据库 DBaaS 简介 云数据库诞生之前,用户往往需要自建数据库或由供应商负责搭建数据库,但用户需要对数据管理与数据库管理进行全权兜底,这对于用户来说是不小的挑战。云原生数据库诞生之后,用户可以将专业的事情交给更专业的云数据库来实现,比如可以通过 DMS 进行一站式数据管理,通过 Open API 用户控制台购买云数据库实例。而 DBaaS 相当于云数据库的操作系统,可以通过 DBaaS 加数据库内核快速实现商业化和服务化。DBaaS 已经通过信通院数据库管理平台满分认证,也能够帮助基于 DBaaS

113、的产品快速通过认证。十、云原生智能化 DBaaS 102 提效是当前大多数企业的关键词。对于企业而言,降本增效诉求强烈;对于开发人员而言,平台多、种类多,需要对开发效率进行提效;另外伴随着规模越来越大,运维成本也越来越高,运维也急需提效。2.云原生 DBaaS 全面升级 Serverless 化是大势所趋。DBaaS 提供了弹性设备的基础设施,为产品快速实现Serverless 化提供平台支撑。十、云原生智能化 DBaaS 103 DBaaS 本身已经掌握了所有数据供决策中心使用,将策略下发,节点根据用户负载的预测进行调整即可。但我们无法 100%准确地进行预测,当有突发情况发生时,节点也需要

114、有秒级弹升能力,实现治标且治本的效果。如果有端侧的实际操作与中心策略不吻合,则会将此类情况上传到决策中心,中心根据反馈进行学习与调整。为了实现秒级弹性,我们将调度系统与资源池进行联动,得益于阿里云资源池的优势,能够快速从资源池获得大量资源,并且在不需要资源时可快速释放。可以在保障 SLA 的前提下,能够实现最快速度、最小成本的弹性。DBaaS 通过其弹得快、弹得细、弹得稳以及弹得广的特性,帮助用户解决了资源的效率问题。十、云原生智能化 DBaaS 104 另外,伴随着开发架构的复杂化,开发效率问题也日益凸显。而提升效率最简单的解法即解耦。我们将 DBaaS 的组件进行了非常详细的梳理,抽取出核

115、心部分组成非常轻量的架构,以保证核心功能可快速运行起来,在本地实现分钟级拉起。需要开发核心功能时,可以直接在本地进行快速调试。另外,各种组件可按个人需求插件化接入,实现快速开发。十、云原生智能化 DBaaS 105 基于 DBaaS 构建数据库服务时,如果只需要开发数据库内容,则无需加入其它组件,可以快速迭代、快速更新。如果需要与备份服务联调,则通过配置的方式加入相应模块即可。另外,DBaaS提供了从开发到自动化测试到部署的全平台、端到端到CI/CD流水线,使得应用能够快速实现开发、测试、部署、上线。我们也构建了非常强的可观测能力。比如可以根据提供的数据,快速搭建 Top 结构的展示。优秀的可

116、观测能力在一定程度上解决了从开发、部署到运维过程中的问题。十、云原生智能化 DBaaS 106 3.AI 助力数据库智能化管理 而随着运维规模愈发庞大,单纯的 Dashboard 和告警也不再能够满足业务需求。因此我们需要通过 AI 助力数据库的智能化。我们将可观测系统与调度、运维等系统打通,实现闭环,实现了端到端的、可观测的运维体系。十、云原生智能化 DBaaS 107 过去几年,我们在线上积累了大量操作经验,问题规模越来越大时,操作规则也越来越多,每天产生了近千亿次异常检测。而海量数据正是机器学习的基础,因此,我们与达摩院强强联合,推出了数据库智能管理的能力,且该能力与国内相比存在两年多的

117、技术代差。同时,我们将技术经验整合成大量论文,发表在顶会期刊,分享给业界。据统计,70%的数据库性能问题由 SQL 导致,70%受访 DBA 认为 SQL 优化是最耗时的工作。因此,我们将内部能力产品化后推出了数据库自治服务 DAS。比如数据库在第一分钟时出现慢 SQL 导致服务下线,则 DAS 可自动在 1 分钟内对数据库进行限流,限流之后用户服务即可恢复,从感知到修复仅需不到 2 分钟。同时,DAS 还可对慢 SQL 原因进行分析,比如发现原因为索引建立不合理,则可自动对索引进行优化,然后自动解除限流,一定程度上从原先的治标转变为了治本的效果。另外该种情况下,如果得到用户授权还可自动进行扩

118、容;如果未得到授权则会建议用户进行扩容。我们希望通过云原生、智能化的 DBaaS,让用户的使用更简单,让阿里云数据库更快、更稳、更安全、更好用。十一、达摩院加持下的数据库前沿技术 108 十一、达摩院加持下的数据库前沿技术 作者:汪晟,阿里巴巴集团资深技术专家、达摩院数据库与存储实验室系统与安全方向负责人 达摩院数据库存储实验室自 2018 年成立以来,一直致力于面向云时代构建原生的数据库管理系统,希望通过技术创新为企业客户带来更高质量、更高价值的数据库管理服务,最终让企业客户数据能够无缝、安全、智能、自由流动。目前,达摩院数据库与存储实验室主要聚焦于全域多模、安全可信、智能自治、混合负载几个

119、研究方向。同时,我们也将研究成果真实落地到了阿里云各个数据库产品之中,为企业客户带来全新的体验。1.全域多模 近年来,智能位置技术发展非常迅速,主要运用于自动驾驶、智能物流、增强现实等场景之中。相信未来,这些面向全空间的位置服务将会深入融入到我们工作生活的方方面面。面向全空间场景,需要管理的数据类型越来越多,数据规模也越来越大。因此,如何更好地管理数据、存储数据便成为了的更大挑战。十一、达摩院加持下的数据库前沿技术 109 达摩院打造了孪生全空间数据管理引擎 Ganos,将全空间数据管理能力融入到云原生数据库管理层中,在业界首个提出了融合了空天地、地上下、室内外全模态数据的混合存储、查询与分析

120、计算服务。上图列出了 Ganos 的十大功能引擎。比如处理车辆行驶数据会使用到轨迹引擎,处理建筑模型数据会用到表面网格引擎,不同引擎组合在一起解决了现实生活中非常复杂的模型表达与数据操作问题,也实现了全空间数据在数据库内部的超融合计算。十一、达摩院加持下的数据库前沿技术 110 Ganos 发布了全新 5.0 版本,支持了视算一体化 3D 全空间数据处理,主要包含三个核心能力的突破。基于表面网格、三维实景与体网格构建了 3D 全空间模型,使得城市全域传输的复杂场景得以在 Ganos 中进行表达。在数据库内支持了全空间计算能力,比如拓扑关系计算、交并差集计算,使得全空间的复杂计算相比于传统中间件

121、的方式提升了 50 到 100 倍。支持了全空间扩展存储,可以将部分数据存储于成本更低的 OSS 空间,使得库内数据容量降低 50%。除了功能升级,Ganos 也与阿里云数据可视化平台 DataV 进行了深度融合,相比于传统的数字与孪生系统有了全面升级,包括全空间、可计算、真孪生。真孪生指使用实体模型取代传统的静态切片,使得数据真正能够动起来,能够实时进行计算与分析。2.安全可信 近年来,企业数字化进程不断加快,数据已经成企业的重要资产。同时,数据安全法、个人信息曝光法纷纷出台,国家对数据安全的重视度越来越高。在如此严峻的形势下,企业如何在允许数据在不同系统与组织之间流动使用的同时,还能保障数

122、据资产的安全,成为了现在数据库管理系统面临的巨大挑战。十一、达摩院加持下的数据库前沿技术 111 达摩院打造了下一代数据库安全可信体系,在业界首个提出面向全生命周期数据密态管理理念,通过创新技术更好地保障企业数据资产的机密性、真实性与隐私性。数据库安全可信体系包括以下几项核心能力:第一,全链路敏感数据保护。能够让业务敏感数据比如客户个人信息在进入整个应用链路最初即进行加密,在后续任何子系统中都看不到数据明文,只有授权的角色方能看到动态脱敏后的数据。十一、达摩院加持下的数据库前沿技术 112 第二,全密态数据库。密文数据进入数据库以后无需解密,可直接在密文上进行数据查询、分析与计算,实现企业数据

123、资产的可用不可见。第三,防篡改能力。对真实性要求很高的数据,比如存证数据、合约数据等,可通过防篡改能力验证数据真实性,并且追溯任何对数据的操作和修改历史。第四,隐私计算引擎。企业可以将自己的数据资产与第三方数据资产进行跨组织融合分析,在不泄露任何一方数据隐私的前提下,利用数据进行计算,得到需要的结果。同时也实现了企业资产的共用不共享。全链路敏感数据保护以及全密态数据库的研究成果已经发表在今年的数据库顶会VLDB,防篡改数据能力也是首批通过信通院防篡改测评的产品,隐私计算目前已覆盖所有常用功能。依托于阿里云数据库 DMS 平台,我们将创新安全能力以及数据库经典的安全能力统一管理,为用户提供了覆盖

124、数据全生命周期的安全保护与隐私保护体系。我们的产品通过通过了各项安全资质的认证,同时也在积极与各个权威机构协作,推行各个行业的数据安全标准,密切关注数据与安全行业的发展。十一、达摩院加持下的数据库前沿技术 113 3.智能自治 近年数据库技术与人工智能技术不断碰撞,催生了两种新技术,其一是 AI for DB,用 AI 的能力更好地提升数据库使用体验;其二,DB for AI,通过 DB 能力更好地挖掘数据蕴含的价值。达摩院在 AI for DB 方向打造了国内领先的数据自治技术,也促成了行业标准,是首批通过信通院数据库系统智能化标准的厂商之一。可以利用可观测能力,通过分析自动执行数据库的运维

125、操作,将客户从复杂的运维工作中解放出来,将更多精力聚焦在业务本身。比如,时序分析算法在数据库内提供了时序算子,在相同准确率的情况下,性能优于竞品 1000 倍以上,且使用非常方便。DB for AI 方面,我们在数据内提供原生的 AI 算法,能够将数据与 AI 算法统一进行管理,相比于传统的将数据导出到外部的方式更简单、更高效。基于内置的 AI 算法也提供了比如数据库知识咨询、实体关系识别、ID Mapping、NL2SQL 等各种 AI 解决方案。NL2SQL 技术在耶鲁大学 Spider 测评被评为全球准确度第一,执行速度 10 倍于竞品。我们也在公开数据集上进行了测试,超过 80%的测试

126、任务效果会优于其他方案。十一、达摩院加持下的数据库前沿技术 114 根据预测,2023 年到 2025 年,全球将有 75%的数据库实例运行在云上,大规模的云上实例更加速了数据库自治的需求。我们打造的 AI for DB 能力已经服务于超过70 万数据库实例。DB for AI 方面,达摩院联合 PolarDB,发布了首款 DB 数据库原生的服务 Polar4AI,可以在 PolarDB 内搭建更高要求的 AI 应用,比如可一键搭建数据库知识咨询、风险控制、金融服务、搜索推荐等。同时内置了 MLOps,使用户能够通过声明式 SQL 的方式方便地管理 AI 任务,也可以帮助用户将自然语言的任务需

127、求自动转化为数据库的执行 SQL。十一、达摩院加持下的数据库前沿技术 115 目前,Polar4AI 能力在很多复杂场景之下已经达到商业要求,因此阿里云数据库已经采用了该技术,帮助用户更高效、更快捷地管理数据资产。4.系统内核 分布式一致性协议通常需要通过 Paxos/Raft 协议保证不同节点之间对整个数据库的运行状态达成共识。传统方式下,一般要求数据操作必须严格按照顺序存储。而达摩院创新采取了分布式乱序存储的方式,规避了顺序存储带来的性能瓶颈。相同规格下,吞吐可提升 7 倍。分布式数据要提供原子性,则需要引入分布式事务处理机制。传统的 2PC 机制在高吞吐、高并发、高冲突的情况下,很容易出

128、现性能瓶颈。而达摩院对该场景进行了优化,避免写操作被回退,大幅降低了性能瓶颈出现的概率,吞吐提升 30%到 100%。十一、达摩院加持下的数据库前沿技术 116 近年来,HTAP 数据库的架构演进迅速,经过探索我们发现,基于共享存储与 in-memory 列存的架构方案相比传统方案,在弹性伸缩方面存在明显优势。该方案在内存上采取了行列转存设计,使得 AP 节点构造时的效率大幅提升。数据库算子硬件化方面,通过利用可编程交换机(硬件 SNA),将数据库操作比如一致性协议、缓存、负载均衡等能力下推到网络层,减少 DB 层、OS 层的计算任务,实现了降本增效。实验室在潜心研究的同时,也持续不断地在数据

129、库学术界发声。今年,实验室联合阿里数据库产品团队在数据库三大顶会共发表论文 16 篇。值得一提的是,VLDB 2022 Industrial Track 全球共收录 22 篇,其中阿里云数据库 5 篇,也证明了达摩院的研究实力与学术影响力。未来,达摩院数据库实验室会继续不断探索数据库领域的技术前沿,与阿里云数据产品服务一起相互促进,为企业源源不断地提供技术能力,提升数据价值,为大家带来更好地数据库体验。十二、云原生数据库的场景化解决方案 117 十二、云原生数据库的场景化解决方案 作者:李圣陶,阿里云数据库资深解决方案专家 李岩,多来点高级技术总监 12.1 云时代数据库应用最佳实践 在数据库

130、领域,全面上云已经成为行业共识。阿里的技术体系经历了从 Oracle 到MySQL 到全面云原生化,外部企业的数据库发展历程亦如此。根据 IDC 报告,云数据库市场在未来几年会处于高速增长状态。基于以上数据,我们可以得出结论:全面上云已经成为各行业共识。上云过程中,阿里巴巴云数据库为客户提供技术、方案、服务三位一体的能力。阿里巴巴云数据库是阿里巴巴最佳实践的数据库,是公共云上最大规模实践的数据库,提供了丰富的企业级特性,为企业上云提供全面支持。十二、云原生数据库的场景化解决方案 118 Gartner 与 Forrester 都给予了阿里云数据库很高的评价。2020 年与 2021 年,阿里云

131、数据库进入了 Gartner leader 象限。阿里云数据库在国内第一、亚太第一、全球第四,且市场份额高达 25%。阿里巴巴提供了全面的开源数据库托管服务,包括 RDS,包括 Postgre。在该方向上,我们通过平台化的能力,对内核 bug 修复、功能增强、云原生弹性能力、大规模运维技巧以及稳定性保障均提供了很好的支持。另外,阿里自研产品比如 PolarDB、ADB、Lindorm 等产品,均针对各行各业在数据库场景的特殊需求输出了更高能力,为客户提供能力增强。同时,基于数据库的内核能力,我们通过平台化向上支持了各行各业的解决方案,赋能各行各业。总体 十二、云原生数据库的场景化解决方案 11

132、9 来说,我们通过单品能力以及多品联合的能力打造孵化能力,并持续承接行业热点动态以及高端客户的需求,实现更多产品,为客户提供更好的支持。降本增效一直是各行各业的长期诉求。阿里云提供了 Lindorm,通过深度优化 ZSTD算法,实现了数据压缩比 8-10 倍的降低,为客户在存储方面实现大规模降本。Tair产品利用非一致性内存的架构,将成本将至一半,同时性能损失仅 10%,替代了高价格的内存型产品,提供了高并发 KV 型。通过阿里云的 Serverless,用户不再需要购买规格实例,而是按需取用,按量付费,能够提供秒级弹性伸缩。最后,通过 MyBase 产品将平台超卖以及资源部署规划的能力开放给

133、广大客户,进一步帮助客户节省资源。十二、云原生数据库的场景化解决方案 120 核酸系统具有三个核心诉求:1)能够应对突发的核酸检测要求,提高核酸检测效率。2)对核酸异常人员能够识别其行动轨迹以及密接人员,需要很强的分析能力。3)核酸系统数据能够在全国内流动。以上三个诉求带来了巨大的挑战,包括高并发挑战、实时分析挑战以及数据流动挑战。而我们通过 PolarDB-X、ADB、DTS、DMS、DAS 几款产品,实现了 560 万人次/小时的检测能力以及结果最快一小时内发布。新能源车企有大量数据需要上报到车厂平台或国家监管平台。数据上报能否及时写入,考验着系统的秒级写入能力;大规模数据量能否存得下,也

134、考验着存储成本的优化能力;数据存存储后如何进行分析、如何反向赋能业务,考验着平台对于大规模数据的加工能力。我们采用 Lindorm 和 ADB,完美解决了车联网场景的痛点。十二、云原生数据库的场景化解决方案 121 数据库上云国产化的背后并不是简单的国产化自主管控诉求,而是我们看到了从芯片到操作系统到数据库基础软件断控的风险。因此,很多头部企业、国家重要行业都需要数据库上云国产化的可控的解决方案。阿里云数据库产品体系提供了全面国产化芯片到国产化操作系统到国产化数据库全栈的自主可控能力,通过了国家信通院权威认证。我们通过 PolarDB、ADB、DTS 三套体系为国产化的自动可控提供从端到端的解

135、决方案。十二、云原生数据库的场景化解决方案 122 国家税务系统使用了全栈阿里云税务产品,解决了自然人报税、税务报表产生、查税、分析、离线数据存储以及从国家到地方各级省市的税务流动问题。另外,为了保证税务系统稳定,我们实现了跨城市的异地多活。该系统性解决方案全面展示了我们一站式的数据库解决方案理念,通过一体化、平台化、端到端的数据库产品,为国税系统支撑了 7.8 亿自然人、20PB 数据量以及150+业务种类的实时分析。12.2 多来点云原生数据库多活实践 1.哗啦啦高速发展的业务挑战 哗啦啦公司是国内头部餐饮系统服务商,为商户提供安全可信、一体化、全链路餐饮 SaaS 服务。2021 年,该

136、平台交易总额超 7000 亿人民币,行业大盘中占比 15%。服务餐饮商户超 40 万家,日活跃店铺数近 40 万。公司研发人员超 1500 人,技术支持人员超 1000 人。公司当前 IT 现状如下:第一,混合多云多数据中心。公司主要采用阿里云服务,并依托视频互联机房,建立了本地数据中心。第二,核心业务。公司提供超 3600 个服务,月均构建超 9 万 3 千次,月均服务上线超 8 万 1 千次。十二、云原生数据库的场景化解决方案 123 第三,数据库。拥有包含超 1500 台顶配服务器的数据库,范围涵盖 MySQL、Redis、TiDB、MongoDB、ClickHouse、Doris 等。

137、哗啦啦高速发展阶段面对的业务挑战需要多活来解决,主要得益于多活的以下几个优势:能够应对核心业务故障。能够应对整个机房级别故障的需求。能够实现业务单元化。能够实现客户端就近接入。2.云原生与异地多活解决方案 哗啦啦多活架构的设计原则主要遵从以下四个方面。十二、云原生数据库的场景化解决方案 124 业务内聚。尽量使单个下单在一个机房内完成,不要跨机房调度。可用性优先。发生故障切换机房时,优先保证系统可用性。数据保护。在数据可用的情况下,保护数据的完整性。业务感知。需要对代码进行一些改造。建设异地多活存在诸多挑战。流量管理难度高。需要具备多维的分流能力、动态调整能力。数据同步策略复杂。实现远距离数据

138、同步,对同步性能、带宽有很高的要求,同步策略无法深入压测和调研。切换数据质量保障难。数据切换时需要检查所有数据状态,对技术及经验要求较高。多数据中心统一管控难度大。自行开发多数据中心统一管控平台需要对接众多基础设施,大量增加研发成本。而阿里云原生方案具备以下四点优势:云数据库的高可用性。能够实现自动化秒级故障切换,数据库更加敏捷和有弹性,能够实现分钟级扩展,相比自建数据库性能明显提升。同步工具成熟。DTS 在哗啦啦使用深入,且对数据库多活场景充分适配。数据质量保障。阿里云在数据保证方面有许多可靠性验证及深度的系统实验。一体化解决方案。有统一管理和路由规则,实现从多活建站到容灾演练能力全覆盖。十

139、二、云原生数据库的场景化解决方案 125 当前哗啦啦采用 DTS+RDS 为用户提供产品化的全球多活数据库能力,主要优点在于。产品化组件使用大幅降低实施成本及运营成本。提供低延时的全球就近访问能力。提供延时接口支持业务单元切换。对后续架构进一步拓展、统一平台建设提供能力支持。哗啦啦基础云平台的技术组件包括技术点主要有。GZS,多活数据库。主要管理订阅的业务单元、商务 ID、客户 ID 等。API Route。能够针对网关层进行切入,针对业务单元进行迁移。SOA proxy&DAL。控制数据访问逻辑。十二、云原生数据库的场景化解决方案 126 DTS。最底层技术组件,是阿里云提供的数据复制服务。

140、哗啦啦整体云原生技术体系包括:POS、订单、支付、商城、会员、供应链、小程序及其他。业务承载下层为 K8s,其上还有三个主要部分。资源整理平台。包括资产管理、数据库管理、配置管理、中间件管理、审批审计等功能。研发效能平台。面向产研,具有 CICD、服务治理、立体观测、告警服务、流程管理、应用商店等功能。稳定性平台。包括告警、流量管理、流程管理、应用商店、经验平台、IT 平台等。3.哗啦啦后续的技术演进规划 哗啦啦后续技术规划包括以下三个方面。十二、云原生数据库的场景化解决方案 127 IT 基础设施全面云化,全面采用公有云。应用全面云原生化。全面改造成云原生数据库,使得平台可以灵活运用,并易于

141、管理。业务全球多活。从两地三中心到三地五中心,针对海外进行整体的基本建设。十三、打造世界级云原生数据库开源社区 128 十三、打造世界级云原生数据库开源社区 作者:王远,阿里云数据库产品事业部资深技术专家、架构部负责人 1.数据库业界发展趋势:全面拥抱云原生 数据库是非常经典的技术。早在上个世纪 70 年代,其基础理论已经相对成熟,80年代开始了商业化进程。此后每隔十年均有代表性产品出现,但是云计算的出现加速了数据库技术的发展。从能力上来看,数据库从承载在线业务逐步向一站式数据处理平台演进,从结构化数据模型逐步向非结构化、半结构化的全数据模型处理能力演进。云计算也推着数据库架构向着云原生演进,

142、使得数据库系统在面对不同工作负载时能够降低数据移动,提升数据库的处理效率。同时,实现了资源池化与资源解耦,使得每个数据库都能满足高并发、高扩展与高性能方面的需求。十三、打造世界级云原生数据库开源社区 129 数据库系统的分布式架构阶段有两个演进方向。其一,共享存储架构。该架构下,计算节点没有状态,扩展能力极强。同时,使用体验与单体数据库非常接近,对用户非常友好。但问题在于存储与网络存在上限,扩展存在理论瓶颈。其二,分布式架构。每个节点自带计算与分析资源,扩展能力在理论上没有上限。但局限性在于节点增加与删除均会引起数据重分布,扩展效率较低。同时,系统执行效率受限于数据分布规则与业务使用场景之间的

143、适配程度,因此,使用门槛较高。而云原生时代,以上两种架构实现了相互融合。在资源结合的基础上,计算、内存、存储等各种资源扩展都不再是瓶颈。数据库的处理能力也在不断增长,融入了各式各样分布式处理模式,包括 BSP、MPP 等,这也决定了云原生数据库的应用范围会越来越广泛。因此,在开源社区的建设过程中,我们需要坚定地坚持开源技术方向,要始终坚持以云原生为指导。2.阿里云数据库整体开源策略 开源的第一原则为兼容生态。数据库作为基础软件,下连基础设施,上连应用,无法脱离生态而存在。MySQL 和 PostgreSQL 是当前数据库的两大生态,因此,我们的开源 PolarDB 也会坚定地拥抱这两大生态。十

144、三、打造世界级云原生数据库开源社区 130 开源的第二原则为遵循全面的开源模式。数据库作为一个重要软件,其稳定性和可靠性是用户最关心的因素。而我们将云产品直接开源,在于希望为用户提供一款具备企业级特性、成熟稳重的产品。另外我们也希望将阿里多年在数据库上的积累回馈给社区,让越来越多用户与开发者参与到云原生数据库的共建中。十三、打造世界级云原生数据库开源社区 131 3.PolarDB 云原生开源产品系列 PolarDB-X 兼容了 MySQL 生态,PolarDB for PostgreSQL 兼容了 PG 生态。PolarDB-X 由四个部分组成。上面部分是元数据服务,负责元数据维护,提供全局

145、授时服务等。十三、打造世界级云原生数据库开源社区 132 下面部分分别为存储节点集群、计算节点集群以及全局日志节点。计算与存储完全分离,计算集群无状态,同时,计算集群主要承担 SQL 执行、分析事务等工作。存储节点集群的主要特点是通过 Paxos 保证数据的强一致性,特别适用于对数据强一制性、安全性有要求的场景。日志集群最主要的特点在于与 MySQL 的 Binlog 100%兼容,能够方便地接入现有的MySQL 数据链路,平顺地为下游系统提供业务数据。PolarDB for PG 是基于共享存储的架构,采用一写多读的模式。PG 是一款非常优秀的数据库,拥有极强的 SQL 处理能力,因此被很多

146、传统企业所选择。但互联网时代下,传统企业需要进行业务创新,因此也希望 PG 能够拥有应对互联网行业特性的能力,比如有足够的弹性应对洪峰流量。而 PolarDB for PG 很好地满足了该类需求。PolarDB for PG 与 PG 实现了 100%兼容,PG 拥有的插件化能力,PolarDB for PG 一样可以实现。可以通过 PG 插件支持高级能力,比如分布式能力、时序时空能力等。十三、打造世界级云原生数据库开源社区 133 PolarDB-X 与 PolarDB for PG 两款产品均原生接入 K8S 系统,这也意味着只要用户与开发者的基础生产环境里有 K8S 系统,即可很方便地通

147、过 K8S 部署、管理、调度、运维开源 PolarDB。同时,用户也可以基于 K8S 根据自己的需求开发平台。一年来,PolarDB 发布了诸多企业级特性,包括查询的增强、安全加密、归档、容灾、审批等。未来,我们也会持续将云上产品的企业级特性不断增强,同时会坚定地坚持国产化和生态兼容。十三、打造世界级云原生数据库开源社区 134 4.开源数据库社区运营及生态建设 我们希望打造一个技术社区。因此社区的决策机构是技术委员会。在技术委员会的带领下,我们希望通过建立用户组的方式不断扩展 PolarDB 在垂直技术领域的深度应用。目前,社区已经成立了 11 个 SIG,包括自然语言处理、异构硬件适配、查

148、询加速等。我们希望通过 SIG 推动开源 PolarDB 与场景结合更加紧密,让越来越多人能够平顺地使用开源 PolarDB。同时,社区会面向开发者与用户定制深度技术内容,帮助业务与开发者更好地了解 PolarDB。我们会定期邀请 PolarDB 用户,为大家分享使用PolarDB 过程中遇到的问题以及最佳实践。十三、打造世界级云原生数据库开源社区 135 此外,我们希望打造全栈的伙伴体系,与重点行业的客户共同成立云原生数据库适配中心,并基于适配中心打造行业专属的开源数据库。比如,我们与韵达成立了数据中心,已经落地了数据中台的核心业务模块订单打单系统。后续,希望有越来越多的优秀企业与阿里云合作

149、,共同打造行业专属的开源数据库。同时,我们也会通过社区帮助合作伙伴培养所需要的数据库人才。一年以来,我们已经打造了 10+基础课程,学习人次超 150 万。上图展现了我们理想中未来 PolarDB 开源生态的全景,包括东南西北四个方向。其中,南向主要适配芯片、操作系统等;北向会与经典应用集成,对行业运营提供支撑;西向主要与伙伴、用户一起打造完善的人才培养体系;东向会与更多具有 PaaS属性的软件实现适配,比如数据流入流出工具、数据管理工具、数据安全以及各种中间件。十三、打造世界级云原生数据库开源社区 136 PolarDB 用户已经非常多,涉及千行百业,对高性能、高扩展、复杂分析等极限类应用场景提供了非常好的支持。未来,希望有越来越多用户与开发者加入我们,贡献代码,贡献技术力量,一起打造属于中国人的、有世界级影响力的云原生开源数据库社区。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里云:云时代的数据库技术趋势(2022)(136页).pdf)为本站 (颜如玉) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部