随着云计算的快速发展,一种依托云计算而产生的大数据存储技术逐渐受到互联网用户的欢迎。那么,什么是大数据存储技术?包括哪些?与传统存储技术的区别在哪?本文将具体介绍。
![大数据存储 大数据存储](//ziboxinyan.com/FileUpload/ueditor_s/upload/2022-7/26/63794432411448.jpg)
1.大数据存储技术
大数据存储是指把不同来源、不同格式及不同类型的数据在逻辑上或物理上有机的集中,并纳入到数据聚合平台中,方便数据的输入和输出。
大数据存储技术分为文件系统和数据库系统两部分。大数据文件系统解决海量且形态各异的数据存储问题,分布式系统的容错问题及大数据中的冗余问题等。目前典型的大数据文件系统有:分布式文件系统GFS(Google
File System)和Ceph、以流数据访问模式存储超大文件的HDFS(Hadoop Distributed File
Sys-tem)、基于分布式内存的“低延迟”文件系统Tachyou。
2.大数据存储技术分类
(1)基础架构:云存储、分布式文件存储等。
(2)数据收集:在大数据的生命周期中,数据采集处于第一个环节。根据MapReduce产生数据的应用系统分类,大数据的采集主要有4种来源:管理信息系统、Web信息系统、物理信息系统、科学实验系统。
(3)数据处理:对于采集到的不同的数据集,可能存在不同的结构和模式,如文件、XML
树、关系表等,表现为数据的异构性。对多个异构的数据集,需要做进一步集成处理或整合处理,将来自不同数据集的数据收集、整理、清洗、转换后,生成到一个新的数据集,为后续查询和分析处理提供统一的数据视图。
(4)数据存取:大数据的存去采用不同的技术路线,大致可以分为3类。第1类主要面对的是大规模的结构化数据。第2类主要面对的是半结构化和非结构化数据。第3类面对的是结构化和非结构化混合的大数据。
3.大数据存储技术与传统数据存储对比
大数据应用的一个主要特点是实时性或者近实时性。类似的金融类的应用,能为业务员从数量巨大种类繁多的数据里快速挖掘出相关信息,能帮助他们领先于竞争对手做出交易的决定。数据通常以每年增长50%的速度快速激增,尤其是非结构化数据。随着科技的进步,有越来越多的传感器采集数据、移动设备、社交多媒体等等,所以数据只可能继续增长。总而言之,大数据需要非常高性能、高吞吐率、大容量的基础设备。
在数据库系统方面,相对于传统关系型数据库技术,大数据的数据库系统更重视分布式数据存储的一致性问题。根据一致性要求的强弱不同,分布式数据存储策略可分为ACID和BASE两类。ACID是指数据库事务具有的4个特性:原子性(atomicity)、一致性(consistency)、隔离性(isolation)、持久性(durability),对一致性要求比较强。BASE则指:基本可用(basical-ly
available)、柔性事务/软状态(soft-state,允许暂时不同步)和最终一致性(eventual
consistency),对一致性要求较弱。
以上梳理了大数据存储技术的定义、方法及其与传统数据存储技术的区别,希望对你有所帮助,如果你想了解更多相关内容,敬请关注三个皮匠报告的行业知识栏目。
本文由@2200 发布于三个皮匠报告网站,未经授权禁止转载。
推荐阅读:
什么叫云存储?为什么用云存储?优劣势分析
什么是数据存储?如何解决数据存储问题?
PlantData:大规模知识图谱数据存储(109页).pdf