1.分布式存储是什么意思
分布式存储指的是通过集群应用、网格技术等功能,来将网络中大量的、不同类型的存储设备通过应用软件系统集合起来协同工作,在网络上建立一个单一的、层次化的文件系统,对外提供数据存储和访问等功能。
2.分布式存储的关键技术
(1)元数据管理
在大数据环境下,元数据的体量也非常大,元数据的存取性能是整个分布式文件系统性能的关键。常见的元数据管理可以分为集中式和分布式元数据管理架构。集中式元数据管理架构采用单一的元数据服务器,实现简单.但是存在单点故障等问题。分布式元数据管理架构则将元数据分散在多个结点上.进而解决了元数据服务器的性能瓶颈等问题.并提高了元数据管理架构的可扩展性,但实现较为复杂,并引入了元数据一致性的问题。另外,还有一种无元数据服务器的分布式架构,通过在线算法组织数据,不需要专用的元数据服务器。但是该架构对数据一致性的保障很困难.实现较为复杂。文件目录遍历操作效率低下,并且缺乏文件系统全局监控管理功能。
(2)系统弹性扩展技术
在大数据环境下,数据规模和复杂度的增加往往非常迅速,对系统的扩展性能要求较高。实现存储系统的高可扩展性首先要解决两个方面的重要问题,包含元数据的分配和数据的透明迁移。元数据的分配主要通过静态子树划分技术实现,后者则侧重数据迁移算法的优化。此外,大数据存储体系规模庞大.结点失效率高,因此还需要完成一定的自适应管理功能。系统必须能够根据数据量和计算的工作量估算所需要的结点个数,并动态地将数据在结点间迁移。以实现负载均衡;同时.结点失效时,数据必须可以通过副本等机制进行恢复,不能对上层应用产生影响。
(3)存储层级内的优化技术
构建存储系统时.需要基于成本和性能来考虑,因此存储系统通常采用多层不同性价比的存储器件组成存储层次结构。大数据的规模大,因此构建高效合理的存储层次结构,可以在保证系统性能的前提下,降低系统能耗和构建成本,利用数据访问局部性原理.可以从两个方面对存储层次结构进行优化。从提高性能的角度,可以通过分析应用特征,识别热点数据并对其进行缓存或预取,通过高效的缓存预取算法和合理的缓存容量配比,以提高访问性能。从降低成本的角度,采用信息生命周期管理方法,将访问频率低的冷数据迁移到低速廉价存储设备上,可以在小幅牺牲系统整体性能的基础上,大幅降低系统的构建成本和能耗。
(4)针对应用和负载的存储优化技术
传统数据存储模型需要支持尽可能多的应用,因此需要具备较好的通用性。大数据具有大规模、高动态及快速处理等特性,通用的数据存储模型通常并不是最能提高应用性能的模型.而大数据存储系统对上层应用性能的关注远远超过对通用性的追求。针对应用和负载来优化存储,就是将数据存储与应用耦合。简化或扩展分布式文件系统的功能,根据特定应用、特定负载、特定的计算模型对文件系统进行定制和深度优化,使应用达到最佳性能。这类优化技术在谷歌、Facebook等互联网公司的内部存储系统上,管理超过千万亿字节级别的大数据,能够达到非常高的性能。
3.分布式存储的类型
(1)分布式块存储:分布式块存储是通过分布式块存储软件将通用存储服务器的本地存储资源 组织起来,构建全分布式存储池,支持大规模横向扩展的存储产品,为上层应
用和客户端提供 SCSI、iSCSI 等标准的访问接口协议,满足云资源池及数据库 等场景的存储需求。
(2)分布式文件存储:分布式文件存储采用分布式文件存储软件,将通用存储服务器的本地存储 资源整合成统一的资源池,对外提供统一命名空间。通过
NFS、CIFS、POSIX 等 标准文件协议接口访问,具备大规模横向扩展能力,为用户提供非结构化数据
共享存储资源,应用于视频、音频、高性能计算、视频监控等多业务场景。
(3)分布式对象存储:分布式对象存储通过分布式对象存储软件,组织通用存储服务器的本地存 储资源,构建分布式存储池,为上层应用提供 S3
等标准访问接口协议。分布式 对象存储具有高速直接访问和数据共享等优势,不但提供了高可靠性、跨平台
性以及安全数据共享的存储体系结构,而且适用于存储海量的、非结构化的、 读多于写的数据。
(4)大数据存储:采用Hadoop HDFS等协议。为Spark, Hive,
Hbase,MapReduce等主要的大数据计算组件提供独立的存储服务。大数据存储与大数据计算组件之前通过标准的HDFS等协议进行数据交互,两者可以独立部署与扩展,一套大数据存储可以同时支撑不同的大数据平台,不同的大数据计算组件。
以上就是有关于分布式存储的定义、关键技术及类型的全部介绍,如果还想了解更多分布式存储的相关内容,敬请关注三个皮匠报告网站。
推荐阅读
什么是虚拟存储器?有哪些特征?
什么是分布式发电?优势有哪些?类型介绍
《分布式存储产业方阵:分布式存储发展白皮书(2022年)(60页).pdf》
《中兴:分布式精准云白皮书(29页).pdf》