《专场11.1-探究企业级数据存储高可靠与高效的实现方法--数据与存储技术-成思敏.pdf》由会员分享,可在线阅读,更多相关《专场11.1-探究企业级数据存储高可靠与高效的实现方法--数据与存储技术-成思敏.pdf(63页珍藏版)》请在三个皮匠报告上搜索。
1、探究企业级数据存储高可靠与高效的实现方法-数据与存储技术成思敏天翼数字生活科技有限公司现代企业级数据存储综述分布式存储技术数据存储容灾技术数据存储容灾系统的删冗技术数据存储容冗余纠删码技术目录/CONTENTS数据存储超融合解决方案数据存储的未来之路2345167现代企业级数据存储综述分布式存储技术数据存储容灾技术数据存储容灾系统的删冗技术数据存储容冗余纠删码技术目录/CONTENTS数据存储超融合解决方案数据存储的未来之路23451671、现代企业级存储综述-数据存储解析就是根据不同的应用环境通过采取合理、安全、有效的方式将数据保存到某些介质上并能保证有效的访问包含两个方面的含义:它是数据临
2、时或长期驻留的物理媒介;是保证数据完整安全存放的方式或行为。存储就是把这两个方面结合起来,向客户提供一套数据存放解决方案。基本释义 详细释义把钱或物等积存起来。指积存的钱或物等。把信息记录在电子设备(计算机)内,需要时可将资料从中取出。数据存储是一套方法与工具的方案集A(attributable)-可溯源L(legible)-清晰C(contemporaneous)-同步O(original or true copy)-原始或真实复制A(accurate)-准确数据属性数据存储内容数据创建数据冗余数据分配数据维护数据读取数据重构数据服务数据存储数据存储就是围绕数据存、取、算三件事的一系列解决方
3、案集合存储1、现代企业级存储综述-数据关联性与存储智慧系统限于数据,信息,知识的范畴。嵌入人工智能的能力数据库信息库知识库存哪?存储存储软件人脑?类脑?电脑?数学信息科学知识科学人脑?类脑?电脑?抽象价值信息加工分析决策能力以信息为基础指导数据信息知识智慧分析转换分析转换分析转换价值信息沉淀脑无限智慧微型存储一体机共同点:可集成、存储、查询与计算、可以转换并指导CAIERPCAX?数据存储为信息、知识、智慧提供基本获取性能力(科技术语)智慧三要素:感知、传送、处理智慧信息存储是一种仿生跨界的学科1、现代企业级存储综述-对数据的操作数据创建查询增加删除更新创建查询增加删除更新加密解密加压解压加压
4、解压加密解密数据库或系统数据库或系统采集、加工、展示、清理的过程对数据库的增删改查,是数据库常用的术语数据对数据操作具有动态性,属于数据加工的集合体1、现代企业级存储综述-存储技术驱动力资源共享跨越时空交互实时个性化人性化透明平等互联网技术演进信息技术演进数据产生结构化半结构化非结构化企业内第三方采 集数据采集数据接入数据处理数据应用数据处理数据存储数据计算数据赋能2、直接-数据驱动力数据产生特征与需求:量大、快、杂、波动、可视1、本质-技术驱动力数据海量、科学智能、驱动业务微电子技术光电子技术通信技术网络技术感测技术控制技术显示技术数字时代特征:数据转化最大化、数据协同、数据融合、数据可视企
5、业数字化核心:数据智能、智慧洞察、生产力高效存储技术来源于数据处理技术存储技术来源存储技术驱动力存储技术驱动力的本质是技术驱动力1、现代企业级存储综述-市场中的存储创新方向存储芯片59.20%22.20%18.60%2020年Q1-Q3企业级存储市场份额传统存储TESS软件定义存储SDS超融合基础架构HCI高密度硬盘混合硬盘固态硬盘高密度磁带存储冷数据存储分层存储集装箱储存存储系统管理软件虚拟存储数据中心存储配套组件简单存储块存储网络存储档案存储并行文件存储存储网关灾难恢复方案云-存储产品政 策数据数字技术实体经济融合传统产业升级赋能新型生产要素存储技术创新政策层面的支持是市场繁荣的前提软件定
6、义存储海量异构存储智能存储存储安全02000400060002016年2017年2018年2019年2020年中国信息存储市场2016-2020年市场规模(亿元)数据来源:IDC前瞻产业研究院来源:IDC2024年未来年复合增长SDS 12.8%,HCI 13%1、现代企业级存储综述-存储器产业链(2022)存储芯片/元器件/核心软件控制器/芯片HDD/SSD/SAS芯片等核心软件上游2-基础设备1-硬件设备IT设备(服务器/交换机/路由器/光模块/软件等)华为/思科/浪潮信息/联想/戴尔/中兴通信/新华三/星网锐锋/深信服/中标旭创/中科曙光/天玑科技/网宿科技电力设备(UPS/变压器等)施
7、耐德/艾默生/英雄克/科士达/科华恒盛/天能动力软件东软/用友/清华同方/金蝶/中软国际运营商中国电信/中国移动/中国联通1-数据采集互联网/移动互联网阿里巴巴/腾讯/百度/京东/谷歌/META/亚马逊./网易/APPLE/美团/滴滴/今日头条/小米/科大讯飞/星联众/恒生电子物联网/工业物联网Intel/海康威视/海尔/真能世纪/亚马逊/GOOGLE/华为/东方国信4-数据安全Symantec/360/深信服/天融信/卫士通/启明星辰/北信源/fileeye/山石网科/蓝盾股份/绿盟科技/安恒信息/美亚柏科5-数据交换2-数据存储/云平台存储设备硬件三星/western Digital/Sa
8、nDisk/紫光国微/同有科技/人大金仓IDCequinix/世纪互联/数据港/万国数据/光环新网/奥飞数据/紫光股份/东方国信云服务/IaaS阿里云/腾讯云/华为云/AWS/金山云/GOOGLE CLOUD/百度云/七牛云/vmware/3-数据分析与挖掘软件/SaaSMicrosoft/ibm/Oracle/Teradata/Splunk/Transwarp/Olik/用友/广联达/拓尔思/基础工具TalkingData/科大讯飞/思必驰/旷视/百度1-智慧出行高德地图/滴滴/Uber/NIO/TESLA/去哪儿/携程/车和家/千方科技2-智慧家居亚马逊/海尔3-泛娱乐NETFLIX/爱奇
9、艺/艺恩4-新零售亚马逊/直家/盒马/小米5-智慧医疗超级物种/DHC/东华软件/华大基因/卫宁健康/万达信息/国新健康6-金融万达信息/陆金所/蚂蚁金服/同花顺/财付通7-电信东方国信/天源迪科8-工业鼎捷软件/东士科技9-精准营销科欧股份/天龙集团/佳云科技/蓝色光标/上游中游下游数据来源:资产信息网存储整机/解决方案企业级存储:SAN/NAS/协议等消费级存储:移动硬盘/快闪存储器盘系统集成与云存储计算机/存储/网络私有云存储/公有云存储/混合云存储存储器行业产业链图存储器产业链千际投行 WindInformatica/talend/twilio/acjoee/Akamai/ARISTA
10、中游下游1、现代企业级存储综述-数据单位与关联性2025年,50亿人使用计算机上网.编码字节数(英文)字节数(中文)GB231212GBK12GB1803012ISO-8859-111UTF-813UTF-1644UTF-16BE22UTF-16LE22虽然单位够大,但数据量越来越大的情况,也可能科学界会创造新的容量单位,以大单位,小数字来表示数据量网络带宽的计算单位是:bps,比特位每秒,也就是表示一秒钟传输多少位(bit),1Kb=1000bps,1Mb=1000Kb序号存储单位中文简称英文名称英文简称换算(byte=1)十进制换算数据说明1位比特bitb0.1252字节字节byteB13
11、千字节行字节kilobyteKB21010的3次方(kilobyte)4兆字节兆megabyteMB22010的6次方(megabyte)5千兆字节十亿/千兆gigabyteGB23010的9次方(gigabyte)一个手机的存储如512G6太字节万亿terabyteTB24010的12次方(terabyte)一块1T数据的硬盘7拍字节千万亿petabytePB25010的15次方(petabyte)一个云资源池的数据级是PB级8艾字节百亿亿exabyteEB26010的18次方(exabyte)数据中心占全球总数据约20%(其余数据在终端或边缘,大部分在终端)(全球500万个机架)9泽字节十
12、万亿亿zettabyteZB27010的21次方(zettabyte)全球数据量总计44ZB(gartner)10尧字节一亿亿亿yottabyteYB28010的24次方(yottabyte)预计2030年每年增1YB(4万亿台高端手机256G存储能力)11珀字节千亿亿亿brontobyteBB290.12诺字节一百万亿亿亿nonabyteNB210013刀字节十亿亿亿亿doggabyteDB211014馈字节万亿亿亿亿corydonbyteCB212015约字节千万亿亿亿亿xerobyteXB2130特殊领域使用:如天文学,宇宙等衡量,基本上待使用。问 题:真有一天能日常能使用到吗?会有那么
13、一天?大数据范畴公元前202年前龟甲、骨、石、竹、木、帛、绳公元前202-8纸1725年打孔卡&纸1928年磁带1932年磁鼓内存1942年数字计算机1946年静电记忆管(数字存储器)1947年延迟线存储器1947年磁芯存储器1951年磁带(用于计算机存储)1956年磁盘驱动器1962年移动硬盘1965年光盘1966年DRAM1971年软盘1978年RAID1980年闪存1987年数字音频磁带1994年CF存储卡、FC光纤通道1995年闪存驱动器1997年MMC存储卡、固态硬盘1999年SD存储卡2000年U盘2006年云存储2006之后分布式存储、DNA存储、纳米存储、量子存储、全息存储、P
14、CM(变相存储)存储是记录与分享的过程存储的技术是在交流电普及与创新基础上最快发展存储技术发展最快是20世纪存储技术是一种整体技术方案,整个组件的突破存储的发展前期主力是美国(以IBM为代表)现代海量数据也在带动存储的改变,比如下一代存储曾经发明过的技术现代都可以用,现代方案更多,但效能性与经济性是使用何种存储的重要衡量标准1、现代企业级存储综述-存储器历史演进里程碑来源:https:/ 耗耗电能力扩展性文件大小与数量而引起的可支持的容量变化空间效率有效存储/裸容量的比例存储技术:除以上也需要关心存储处理的能力、成本等能力名词类型说明IOPS性能存储产品的资料中看到关于IOPS的参数,指的是每
15、秒种的I/O次数。TPC-C性价比由服务器和客户端构筑的整体系统的性能,TPCC测试系统每分钟处理的任务数,单位为tpm,(transactions per minute)JBOD磁盘磁盘簇,又称SPAN,Span是在逻辑上把几个物理磁盘一个接一个串联到一起,从而提供一个大的逻辑磁盘。存储名词:除以上之外如RAID、磁盘通道、主机通道、磁盘镜像等指标类型描述存储密度每单位物理容量的比特数,道密度,位密度,面密度。存取速度访问数据的延迟与带宽存储周期数据可保存与可读取的最长时间数据成本每次读取时的成本存储技术指标解析类型协议应用块存储sata/scsi/iscsisan,nas,ebs文件存储e
16、xt3/ext3,xfs,ntfspc,serve,nfs对象存储http,rests3,gcs,rcf1、现代企业级存储综述-存储技术指标热数据,5%温数据,15%冷数据,79%临时数据,1%热数据温数据冷数据临时数据0%20%40%60%80%100%企业数据按访问情况比例热数据温数据冷数据临时数据1、现代企业级存储综述-历史数据处理与存储方案内存历史数据库磁盘历史数据库类型一:按热度划分热数据存储传统存储软件定义存储SAN虚拟化存储Server SANNAS超融合架构(HCI)温数据存储冷数据存储临时数据存储传统存储软件定义存储(中低端)(中低端)磁带、光盘传统存储软件定义存储(中低端)
17、(中低端)响应的时间和存储可以达到,但依据其它维度做不同的选择,所以这些界限不是特别明显。测试或开发数据在临时数据的范畴历史数据存放方法数据温度响应时间速度要求越来越快纳秒级响应微秒级响应耗秒级响应秒级响应L0寄存器L1高速缓存(SRAM)L2高速整缓存(SRAM)L3高速整缓存(SRAM)L4主存(DRAM)L5本地二级存储(本地磁盘)L6远程二级存储(分布式文件系统、Web服务器)L0 CPU寄存器保存来自高速缓存存储器的字L1高速缓存保存取自L2高速缓存的高速缓存行L2高速缓存保存取自L3高速缓存的高速缓存行L3高速缓存保存取自主存的高速缓存行L4主存保存取自本地磁盘的磁盘块L5本地磁盘
18、保存取自远程网络服务器上的磁盘文件越小,越少,越快。存储器越贵越大,越多,越慢;存储器越便宜Cache L1速度延迟可达1ns内存 L4 可达60nsSSD外存/辅存 速度可达 25us速度减软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(MemoryStick)、xD卡等Cache L2速度延迟可达3nsCache L2速度延迟可达15nsNVM外存/辅存 速度可达 50ns(PCM/STT-MRAM/3D-Xpoint)非易失性存储器来源:公共网络有一种普识(如左图):存储与CPU发展起来,没有CPU发展得快。存储发展速度很快,读写速度已在向内存靠拢。1、现
19、代企业级存储综述-外存、内存、Cache、CPU、存储的关系介 质1、现代企业级存储综述-常用存储类型比较比较项块存储文件存储对象存储定义光纤联接服务器提供存储服务使用文件系统,有目录树结构将元数据与数据作为一个对象传输单位块文件对象:元数据与数据传输协议FC、iSCSICIFS、NFS基于HTTP/HTTPS的REST、SOAP、API元数据固定属性固定文件属性自定义元数据优势交易数据简单访问、易管理内容仓储、文件分享IO支持随机读/写随机读/写追加写,随机读访问情况iSCSI访问、磁盘挂载NFS、CIFS访问、局域网共享REST访问、公网传输与共享设备cinder、硬盘ftp、NFS服务器
20、swift等键值存储特征分区,格式化大文件高速与共享性对存储的操作磁盘读、写文件级打开、修改、保存、删除对象上传、下载、查询、删除提供接口QEMU Driver,kernel modulePosixRestful API最大并发客户端数数百级数千级数千级扩展性TBPBEB最大吞吐量十几GB/S数百GB/S数百GB/SIOPS百万级十万级千级可靠性9个910个911个9速度百微秒毫秒级数十毫秒单位容量成本高较低低分布性不能异地分布可分布,性能有瓶颈分布,高并发能力文件大小不限制适合大文件不限制文件级权限管理情况不支持支持支持典型技术SANHDFS,GFSSWIFT,,Amazon S3限制1难以
21、跨数据中心扩容元数据与扩展性极限在10亿节点非高频次操作的数据限制2不能共享数据传输速度低不兼容多种模式文件可修改性即时更改即时更改客外对象会被创建场景数据库,ERP数据中心、HPC,企业OA网络媒体、大数据/IoT、备份/归档常用存储类型比较数据存储安全目标机密性可用性可信性一致性完整性传统安全威协:数据存储安全最大的破坏力是数据库的存储,达90%以上数据库最大的破坏力是人为操作占70%以上权限分离、应用与Database权限泳道隔离数据采集与查询泛滥软硬件漏洞新设施应用场景应用技术管理不到位的泛滥使用新型数据安全威协采集存储交互销毁应用数据存储安全问题全周期都存在数据加密权限控制数据备份数
22、据快照数据审计1-系统的外围手段方法事前事中事后数据脱敏数据备份系统2-数据存储外围手段系统数据存储安全核心:数据安全性保护、安全损坏后的快速恢复现有趋势解决性方案是云存储方案1、现代企业级存储综述-数据存储安全性解决方案事前事中事后数据存储安全问题解决外围防火墙系统数据库防火墙系统数据库集群数据库主从复制系统分布式数据库系统分布式文件系统分布式存储系统云存储现代企业级数据存储综述分布式存储技术数据存储容灾技术数据存储容灾系统的删冗技术数据存储容冗余纠删码技术目录/CONTENTS数据存储超融合解决方案数据存储的未来之路234501950196019
23、700201020202030分布式存储论文数据数据来源:论文知识库来自于外文期刊从1960年开始有研究论文发表1994年之前的论文为外国论文2019年论文数达到1000个,从2020年开始下降分布式存储是个整体解决方案实现方案的是组件与集成的问题050002500分布式存储分布式distributed storage systems大数据区块链分布式文件系统存储节点数据块负载均衡海量数据分布式系统分布式计算patent:2*0.05分布式存储主题论文数2、现代企分布式存储技术-分布式存储的理论情况数据来源:论文知识库分布式存储的研究是从外国起步、壮
24、大、应用,后期由国内加入研究并正在研究的课题2、现代企分布式存储技术-分布式存储的结构客户端DATANODE数据节点缓存-磁盘NAMENODE管理节点主流一:有统一元数据管理集群的分布式存储HDFS(基于3.0)复制复制NAMENODE管理节点NAMENODE管理节点ZK集群+HA+RBS高可用联邦机制NAMENODE管理节点(备)NAMENODE管理节点(备)NAMENODE管理节点(备)复制中间件元数据管理集群(默认三副本模式,理解是单向复制)HDFS的特性标签 分布式、高容错(3副本)、数据海量、高可用、高吞吐、中间件机制、块、文件系统、高可扩展HDFS优点自动化高容错,从中间件到数据节
25、点是副本模式适合大数据:数据规模PB级、文件规模:百万;节点规模:万节点级数据一致性硬件选型廉价(成本选型)HDFS缺点数据低延迟有限;全局锁有限;管理节点内存要求高,小文件存储效率低。架构重、运维复杂HDFS适合场景百T级以上业务,高并发(Hadoop)HDFS特性元数据目录树DataNode信息135DATANODE数据节点缓存-磁盘146DATANODE数据节点缓存-磁盘247HDF是最重要的大数据存储技术之一也是现代云计算常用的存储之一。Librados(是rados的直连客户端)访问RADOS的库(Target PGs per OSD)x(OSD#)x(%Data)oolPGCoun
26、t=-(Size)POOL里PG的算法主流二:有统一元数据管理集群的分布式存储CephOSD2OSD1OSD3OSD2OSD1OSD3OSD2OSD1OSD3MON2MONNPG1PG2PGNPlacement GroupsMDSRBD块存储接口RGW/RadosGW/S3SWIFTMDSMDS元数据服务(文件系统必备)对象存储secondarytertiaryprimaryprimaryprimarysecondarytertiarysecondarytertiary(三副本)存储节点(奇数)监控RADOS三个核心组件:MDS,MON,OSD对象接口RADOSCEPHFS文件系统接口Pool
27、 1POOL2POOLNCrush算法HOST/VMClientAPP(restful兼容)(posix兼容)(linux关联驱动)APPMON12、现代企分布式存储-分布式存储的结构(此接口直接连接MDS)(与librados形成网关)Ceph是最热门与流行的分布式存储https:/ API代理服务缓存服务认证服务对象服务控制器帐号环对象环容器环对象文件容器服务帐号服务帐号DB 帐号DB帐号DB容器DB容器DB对象文件对象文件帐号清理服务2、现代企分布式存储技术-分布式存储的结构帐号更新帐号复制帐号审计容器更新容器复制容器审计容器DB对象更新对象复制对象审计Swift存储流程数据,元数据数据
28、目录租户账户2、现代企分布式存储技术-分布式存储的结构云原生分布式存储:Longhorn(分布式块存储)来自longhorm官网Longhorn存储流程功能特性无单点故障GUI 仪表板提升体验使用Longhorn 卷作为kubernetes集中分布式有状态应用程序的持久存储跨多个节点和数据中心复制块存储用以提高可用性将备份数据存储在NFS及AWS S3等外部存储上创建跨区灾难恢复卷,可以快速恢复主K8S定期卷快照并备份到NFS或与S3兼容存储上从备份恢复卷Longhorn在线升级Longhorn 是用于 Kubernetes 的轻量级、可靠且功能强大的云原生分布式块存储系统,Longhorn
29、是 Kubernetes 持久存储的完美解决方案与云原生应用程序一起运行良好的分布式存储系统(无需依赖外部提供商)与 Kubernetes 紧密耦合的存储解决方案高度可用且持久的存储没有专用硬件且不在群集外部的存储系统易于安装和管理的存储系统应用优势Longhorn高可用性耐久性易使用易部署内置灾难恢复安全其它移植性开源与成本低网络数据中心数据容错节能元数据弹性扩展层级优化中心是交换机:服务器只负责处理和存储数据,扩展性好。中心是服务器:无需路由器与交换机。链路冗余高。交换机与服务器混合:网络结构灵活。基于纠删码:数据块分割、容错数据修复、优化网络编码基于复制:数据复制:如何管理更多副本技术;
30、数据组织结构:组织结构P2P、基于元数据硬件节能:计算机部件、数据中心软件节能:节点管理、数据管理(静态放置、动态放置、缓存预取)元数据管理技术、元数据分配技术数据动态迁移与切换技术,负载均衡技术、节点失效转移与恢复技术缓存,磁盘、节点、温热数据的预处理技术分布式存储:一致性解决方案非常重要;是基于网络的分布式,网络抖动的应急与预处理,如最终一致性(常用方法时间戳),强一致性的选择是需要根据业务及成本首先需要考虑的。最终一致,一致性最快多久可以达到一致性效果?机房内边际效用:耗秒级(可以更小)。跨机房:秒级分布式存储要解决的重要问题:存储的副本一致性问题:解决读检测,不一致时触发自动修复报错,
31、修复不了即报错2、现代企分布式存储技术-分布式存储的关键技术与类型分布式存储关键技术分布式存储的副本一致:偏于最终一致性2、现代企分布式存储技术-主流分布式存储平台比较序号产品名称运营团体架构组件分布式架构特点系 统一致性适应场景1GFSgoogleMASTER、CHUNCKSERVER、CLINENTS全局统一命名空间机制(类中间件)文件系统弱一致性(最终一致)大型的、分布式的、对大量数据进行访问的应用2TFS淘宝NameServer,DATA SERVER命名服务协调文件系统强一致 性(W=N,R=1)海量、非结构化的大数据3CephLinux基金会rados、librados、osdc去
32、中心化块存储、文件存储、对象存储强一致性云平台、私有云、容器、公有用整合、海量文件4HDFSHadoopHDFS Client,NameNode,DataNode、Secondary NameNode全局主控节点文件系统弱一致性(最终一致)大数据场景(副本延迟)5SwiftOpenstackProxy Server、Storage Server、Consistency Server去中心化对象存储弱一致性(最终一致)网盘(不支持实时读写编辑、用于上传下载)6GlusterFSZ RESEARCHgluster、glusterd、glusterfs、glusterfsd模块化堆栈式文件系统弱一致
33、性(最终一致)大数据应用和视频存储7LUSTRElustre基金会MGS、Lne、MDS、mdt、mgt、client、oss集群和并行架构文件系统弱一致性(最终一致)超算(不适合小文件)。石油、天然气、制造、富媒体、金融等8MooseFS自由软件Master Server、metalogger Server、Chunk Servers、client分层的目录树结构(类UNIX)文件系统弱一致性(最终一致)大规模高并发数据存储小文件(1M)、大文件.(master server有性能瓶颈)9MinIOMINO基金会MINO NODE去中心化的无共享架构对象存储弱一致性(最终一致性)read-a
34、fter-write云原生应用、物联网、私有云,存储海量的图片,视频,文档10SeaweedFSseaweedNameNode、DataNode元数据、数据节点分离文件系统弱一致性(最终一致)存储海量小文件11LonghornSUSE LINUX数据平面(data plane)、控制平面(control plane)基于微服务的设计块存储系统强一致性企业级云原生容器分布式存储、轻量级、微服务分布式存储系统是基于网络的,多采用弱数据一致性。分布式系统是横向扩展高并发的存储。分布式存储多采用元数据与数据分离结构。分布式存储最终还是在云上,用于云计算,云原生,物联网等应用场景。多采用文件系统,并不是
35、兼容多种存储类型。分布式存储涉及分布式系统及分布式数据库现阶段常用分布式存储分布式存储通用特性比较项华为H3C深信服SmartX分布式存储产品Fusion Storage(块、对象、文件)h3c ONEstor(块、对象、文件)aSAN(文件)ZBS(块)技术来源始于Ceph,后自主研发为主始于Ceph,后自主研发为主始于Glustre FS,后自主研发为主自主研发交付方式软硬件一体化软硬件一体化一体机/软件一体机/软件集群规模3-4096节点4096节点255节点时性能明显下降单个集群规模为255节点分布式存储成熟度高较高较高高兼容虚拟化平台vsphere/hyper-v/kvm/K8S等v
36、sphere/hyper-v/kvm/cas/xen等vsphere/k8s/kvm等vsphere/x8s/kvm等hypervisor产品fusionsphereH3C CASaSVELF技术来源基于KVM基于KVM基于KVM基于KVM数据保护多副本/N+2-N+4纠删码2-6副本/N+1-N+4纠删码CDP技术/多副本/虚拟机备份/应用数据备份/网络行为管理多副本/异地容灾备份/快照/等数据自愈自行并行重构(4T/小时)并行重构(1T30MIN)多节点并发数据恢复服务兼容只兼容华为服务器只兼容华三服务器主流都兼容主流都兼容2、现代企分布式存储技术-国内几个分布式存储比较来源:广发证券发展
37、研究中心国产化的分布式存储越来越多,并且兼容性增强。研究的维度可作为选型与测试的参考。国内主流混合云技术架构对比主流分布式存储技术分布式存储相对其它而言维护与架构比较复杂。云环境下对存储稳定性、性能要求更高。分布式存储补充说明分布式存储技术标准化分布式存储智能化分布式存储列能支持需求分布式存储效能更高分布式存储存储分级更强技术融合性更好接口标准化与智能技术融合业务需求支持更好除大数据外的业务,实时化业务的支持增强(即强一致性增多)降本增效的赋能上更有效数据分级存储的技术增强磁盘阵列技术与分布式技术相结合分布式存储技术趋势1234562、现代企分布式存储技术-分布式存储技术趋势现代企业级数据存储
38、综述分布式存储技术数据存储容灾技术数据存储容灾系统的删冗技术数据存储容冗余纠删码技术目录/CONTENTS数据存储超融合解决方案数据存储的未来之路2345167信息系统风险与威胁无时无刻不在:自然灾害,设备故障、误操作、病毒感染、黑客攻击等。存储容灾目标:为了服务于业务与服务连续性。3、数据存储容灾技术-数据存储容灾系统简介-容灾关联指标关系国际标准ISO 22301:2012业务连续性管理国家标准GB/T30146-2013 公共安全业务连续性管理体系要求国家标准GB/T20988-2007 信息安全技术信息系统灾难恢复规范国际标准SHARE78灾难恢复标准容灾与业务关联性的指标RTO恢复时
39、间目标衡量业务恢复正常所需时间RPO恢复点目标最大数据丢失量(以时间来度量)RRO恢复可靠性目标最大数据恢复/切换成功率NRO网络恢复目标网络切换到备机的服务时间RIO恢复完整性目标最大状态恢复率(百分比)DOO降级服务目标最大降级服务率(百分比)ROI投资回报率投资获得回报价值TCO总成本总体成本020004000600080000RTORCO容灾级别与成本示意图备份中心建立。常规业务灾备中心特别业务灾备中心建立(远程,完备)参考/研究/测试项目冷数据或非生产数据主备主正常性能下降DOO宕机RPO数据恢复系统恢复应用逐步恢复DOO备机支撑正常NROROI/TCORRO架
40、构服务数据库存储数据参考要素1.0RRO越大,值越接近1越好RPO值越小越好,越接近0越好RTOO值越小越好,越接近0越好NRO值越小越好,越接近0越好。RIO越大,值越接近1越好DOO值越小越好,越接近0越好(百分比)业务连续性最常用指标要求TCO越来越大,但其实要求TCO越小越好。ROI回报率,其实要求回报率越大越好。具体方案因场景取舍。服务SLA的重要指标 容灾半径与RTO有关联一致性。系统无绝对的可靠性,不同级别的系统,会明确指标数据,并训练可靠性预防与恢复的方案与技术。一类信息系统:RTO6小时,RPO15分钟二类信息系统:RTO24小时,RPO120分钟三类信息系统:RTO7天银行
41、业信息系统灾难恢复管理规范(2008)3、数据存储容灾技术-数据存储容灾业务连续性数据可靠性数据存储容灾的目标数据存储配套技术普通IDC云计算IDC数据存储环境存储硬件系统磁盘柜磁盘阵列NAS设备存储服务器磁带库存储网络存储卡存储网线存储卡系统存储系统数据管理数据镜像数据复制路径冗余数据快照存储辅助系统双机高可用存储虚拟化数据备份容灾数据归档数据迁移虚拟化存储应用解决方案数据扩容数据集中存储集群高可用双存储数据备份数据容灾存储虚拟化安全数据归档数据迁移数据复制数据存储容灾落地容灾型系统架构不同软硬件配置的集成型应用系统有梯度的数据恢复技术负载均衡冗余应用冗余缓存冗余数据库冗余服务器冗余存储冗余
42、负载均衡冗余应用冗余缓存冗余数据库冗余服务器冗余存储冗余负载均衡冗余应用冗余缓存冗余数据库冗余服务器冗余存储冗余同城主同城备异地备自带冗余的多活架构(级联/直联)主要使用数据库/数据复制技术SLB一套系统架构实时复制的自动应用切换备份软件的数据恢复有距离的硬盘恢复磁带/光盘的恢复部分数据恢复oltp/olap/htapoltp/olap/htap/mpp超融合/廉价主机块存储/分布式存储/文件存储RDBM/NoSQL/NEWSQL裸金属/虚拟机/云上与云下融合环境/不同备份与归档恢复方案一套系统集成应用结构按功能解耦解决系统容灾按应用要紧程度配置恢复方法部分为去中心化架构在有基础工具的基础上:
43、数据存储容灾的实质落地是依靠:系统架构,系统集成与数据恢复技术来完成。3、数据存储容灾技术-主流数据存储容灾系统(2022)消息队列数据缓存中间件数据库数据存储应用负载均衡接入层系统架构与存储有关数据存储容灾系统与技术接入系统应用系统数据系统技术三要素主流策略1:基于复制技术存储应用主机应用主机生产IDC容灾IDC数据存储容灾系统关联性应用复制数据复制全系统复制vmware vcb备份介质备份软件数据存储容灾系统故障监测设备分配路径切换配置修复接入端应用端数据系统 容灾驱动力为CDP(Continuous Data Protection)连续性数据保护灾备(备份/恢复/验证)软件灾备介质异构存
44、储灾备灾备中心/多云灾备中心共享式/集中式灾备平台灾备池/灾备湖灾难恢复即服务(DraaS)存储容灾软件工具容灾类型软件名称技术备注(远程)数据镜像工具IBM PPRC数据同/异步数据存储级镜像IBM XRC数据同/异步EMC SRDF数据同/异步HDS TureCopy数据同/异步CDP工具EMC RepliStor准CDPSNIA标准真CDP必须三符合标准1.可以捕获任意的数据变化;2.至少可以备份到另外一个地方;3.可以恢复到任意时间点。IBM Tivoli CDPAppAssure ReplayEMC RecoverPoint应用复制工具Oracle DataGuard数据同步利用数据
45、库(应用)技术IBM DB2 HADR数据同步DSG(国产)数据同步DBSync(国产)数据同步全系统复制工具(云计算环境)Vmotion封闭/虚拟化虚拟化高可用技术/虚拟机时迁移Xen LIVE Migration基于共享存储Nomad高可用管理集群Vmware VCB/VDR备份/校验Gartner 2019 年灾难恢复即服务魔力象限供应商产品特征ilandSecure Cloud ConsoleSungard ASSungard AS Cloud RecoveryInfrascaleInfrascale Backup&Disaster Recovery(IBDR)IBMIBM DRaaS
46、Intervision与Carbonite、Zerto和VMware合作。Expedient与Zerto、Cohesity和VMware合作TierPoint与VMware、MicrosoftZerto、Nutanix和Dell合作Recovery PointGartner DRaaS MQ的领导者3、数据存储容灾技术-高效容灾备份系统与技术云计算备份即服务流程申请备份鉴权流程备份配置备份任务备份任务调度管理中心恢复配置恢复任务容器资源池对象存储资源池备份配置执行存储资源池备份数据备份数据获取还原配置任务状态、容器资源池恢复容器间的资源池:任务间互相隔离资源控制颗粒度细资源动态调整备份能力可伸
47、缩特性:云计算特性+数据加密+数据解压缩技术容器化技术的能力异构化数据生产系统本地一级备份二级异地备份三级异地归档备份云公司备份简介备份产品服务名备份对象优势场景AWS集中管理和自动执行各种 AWS 服务的备份工作AWS BACKUP所有类型数据利用99.999999999%的数据持久性保护备份。分钟级扩展、高效支出的数据保护、高效数据传输AWS全场景阿里云阿里云统一灾备平台,是一种简单易用、敏捷高效、安全可靠的公共云数据管理服务AWS HBR支持ECS(文件,MySQL,Oracle,SQL Server,SAP HANA),NAS,OSS,Tablestore 等阿里云上数据源备份数据源多
48、、经济(重删、网络流量小)、操作简单、备份容灾归档迁移一体化阿里云多场景IBMIBM CLOUD BACKUP所有类型数据基于WEB的 UI管理、允许裸机复原、细粒度恢复、deltapro去重、智能压缩200多种操作系统与应用,不限数据中心类别Microsoft Azure帮助防御勒索软件的集中式备份服务与解决方案Azure备份备份 Azure 虚拟机、本地服务器、SQL Server 和 Azure 虚拟机上的 SAP HANA、Azure 文件存储和 Azure Database for PostgreSQL。集中管理、保证应用程序一致、多工作负载、本地冗余LRS、异地冗余 GRS、区域冗
49、余ZRS存储备份。华为云为云内的云服务器、云硬盘、文件服务华为云 CBR云服务器备份存储库、云硬盘备份存储库、SFS Turbo备份存储库、混合云备份存储库云服务器整机、磁盘部分数据、文件系统数据保护、云上备份云下业务数据主流云计算公司存储即服务情况全程监控云公司存储即服务特性与云计算服务高效结合,提供全程程序与数据保护,并一致性。集中化服务灵活,并且支持多样性,备份能力与公司支持的服务能力一致性。一体化属于基于备份、恢复、冗余、容灾技术集中一体化技术的集合体与融合体。整体目标类似子系统,实现的计算方式与软件、策略有差异。现代企业级数据存储综述分布式存储技术数据存储容灾技术数据存储容灾系统的删
50、冗技术数据存储容冗余纠删码技术目录/CONTENTS数据存储超融合解决方案数据存储的未来之路23451674、数据存储系统的删冗技术-数据存储的删冗技术现状02040608009952000200520025重复数据删冗技术论文发表情况00500600重复数据删除数据块存储系统磁带库云计算磁盘备份数据中心客户端duplicationuspto云存储系统灾难恢复EMCcloud computing备份系统corporation:2*3de-duplication存储节点基础架构patent applicat与
51、数据删冗关联的技术论文发表类型涵盖情况数据来源:论文知识库数据来源:论文知识库数据删冗技术是持续改进现已成熟的技术类型数据删冗包含首先直接目标是删除冗余数据,但同时需要保护现有生产系统性能与数据完整性数据删冗包含技术,系统、产品及故障解决,包含了环境(如数据中心、云计算)等所有的环境与设施4、数据存储系统的删冗技术-数据存储的删冗技术应用数据删冗原理:只保存唯一一份备份的数据段 数据生命周期数据采集数据传输数据存储数据处理数据交换数据销毁数据删冗技术应用场景 数据存储层备份归档主存数据删冗原理流程数据删冗:数据存储与数据传输数据块/文件计算数据指纹数据指纹数据库指纹匹配性检测查询保存数据块并更
52、新索引冗余数据(删除)结束指纹ABCDECDEAEFB文件1文件2文件3去重后ABCDEF文件1文件2文件3数据存储删冗技术与方法相同数据检测完全文件固定/可变分块滑动块相似数据检测基于shingle基于Bloomfilter源端与目标端源目标在线与事后其它抽样过滤分组索引4、数据存储系统的删冗技术-数据存储的删冗技术应用基于IO优化的删冗技术删冗可靠性技术EMC/avamar会占源资源,影响性能DAM系统会占网络带宽EMC/centramiscrosoft/fariste快速、效率高颗粒粗,应用有限venti,oceanstore,casper快速、多元化对更新敏感快速,开销小对源端透明,不
53、占源端资源减少内存数据无法应用到主存减少内存数据无法使用块存储删冗关键技术缓解IIO操作DDFS系统/bloomfilterD2D/TTTDDebar/改进DDFS副本可靠性R-admad/eccnec/hydrastor/纠删码数据可靠性缺点优点技术应用系统删冗技术主流使用的技术加速数据分块技术加速索引查询技术减缓磁盘I/O技术文件类别指纹计算数值指纹数据库4、数据存储容灾系统的删冗技术-高效删冗的系统设计方法高效删冗系统三标准:删冗率、扩展性、IO吞吐率高性能删冗系统基于:磁盘I/O,可扩展性、容错性、负载均衡示例1:基于云存储的有中心数据删冗余系统文件预处理数据分块指纹计算数据传输计算客
54、户端1元数据管理端过滤模块元数据数据库更新模块存储模块修改模块存储节点1存储模块修改模块存储节点2存储模块修改模块存储节点N存储端文件类别指纹计算文件预处理数据分块指纹计算数据传输计算指纹数据库客户端2文件类别指纹计算文预处理数据分块指纹计算数据传输计算指纹数据库客户端N删冗系统的组件说明该删冗余系统是分布式架构客户端文件数据块分块、计算、设置指纹传输元数据服务对比指文数值,确定数据块是否上传,并反馈信息存储端接受客户端传输的数据块,并把信息传输给元数据服务,更新元数据库4、数据存储容灾系统的删冗技术-高效删冗的系统设计方法示例2:基于云存储的无中心数据删冗余系统文件类别指纹计算文预处理数据分
55、块指纹计算数据传输计算指纹数据库客户端1存储节点接入口3存储节点接入口2存储模块修改模块存储节点接入口1查询模块数据库客户端2客户端N存储模块修改模块存储节点接入口N查询模 块数据库无中心的架构相当于环形架构(各节点的地位相同。数据一般通过HASH散列来存放)客户端:文件数据块分块、计算、传输给存储指纹值到节点。存储端:任意一个节点接受查询,并依据字典表,并存储数据块,修元数据存储模块修改模块查询模块数据库存储模块修改模块查询模块数据库文件类别指纹计算文预处理数据分块指纹计算数据传输计算指纹数据库文件类别指纹计算文预处理数据分块指纹计算数据传输计算指纹数据库无中心删冗系统高效删冗系统三标准:删
56、冗率、扩展性、IO吞吐率高性能删冗系统基于:磁盘I/O,可扩展性、容错性、负载均衡该删冗余系统是无中心分布式架构4、数据存储容灾系统的删冗技术-主流删冗方案对比netappZIPdatadomainEMCdiligentSEPATONQUANTUMSymantec.EMC在线保存1.2提供厂商删冗率删冗策略22050300500压缩技术目标设备删冗数据源删冗保留唯一数据对象,用于1级存储数据到达目标后删冗全备+增量备份后删冗备前源数据删冗实现方式删冗策略业务类型场景边备份边删冗网络传输网络直播、视频监控先备份再删冗数据计算科学计算先删冗再备份/先备份再删冗数据存储云存储、WEB服务器数据删冗策
57、略选型项目单一存储云存储存储设备设备可靠性高,价格高,数量较少设备可靠性低,价格底,数量超大数据量本地存储,数据量TB级分布式存储,数据量可达PB级备份时间备份时间窗口大,空闲时间多备份时间窗口小,用户要求响应度高数据周期历史版本较少,重最新数据历史版本多且都需要保存故障恢复可接受较长时间恢复,分钟可接受不接受恢复时间,要求秒级单一存储与云存储的数据场景区别删冗率效率:数据块变长切块技术可提高删冗率切的块越小删冗率越高压缩率效率:数据块越小删冗率越高删冗效率因素云存储4、数据存储容灾系统的删冗技术-数据删冗余技术的问题及预防数据删冗本质是一个解决数据共享的问题,用于数据容量的效能管控数据意外损
58、坏的数据恢复通常的解决办法:数据恢复技术备份数据的恢复快照恢复复制数据的恢复临时文件恢复高级恢复恢复方式意外损坏低:但是解决办法依旧是适当的数据冗余还原法数据删冗余与数据意外损坏冲突有必要的数据删冗,数据冗技术也是必须掌握的,同样我们也需要掌握数据如何冗余,冗余度是多少,数据删冗技术的可靠性是多少?及工具功能的选择能力。数据损坏的其它原因数据删冗时注意事项介质老化天灾感染病毒误操作程序BUG源数据校验技术本身是受损的数据原数据是坏的,冗余数据是好的,把坏的数据当好的。应用与磁盘数据不一致内存数据是好的,磁盘数据是坏的,冗余数据也是坏的删冗产品校验能力删冗方案与规划中的校验原应用系统的本身数据校
59、验不适合数据删冗的场景医疗影像视频流(重复低)地球物理(重复低)高价值类(用户,金融)疑 问 删除技术与传统技术交叉结合保全数据4、数据存储容灾系统的删冗技术-数据删冗余技术的问题及预防数据删冗技术的其它因素数据删冗与收益递减率并非正比关系0500 11 12 13 14 15 16 17 18 19 20 21重复数据删除率数据减少率收益递减情况:重复数据删除越多,数据减少的收益就越少重复数据删除与数据压缩重复数据删除与数据压缩都是减少存储空间,过程与本质不同。主存与辅存数据存储删冗方案应该不同性能与恢复要求不同,实施方案不同。数据删冗率原因多数据
60、类型数据更新频率数据保留期限备份策略分类与分方案可提高数据删冗效率现代企业级数据存储综述分布式存储技术数据存储容灾技术数据存储容灾系统的删冗技术数据存储容冗余纠删码技术目录/CONTENTS数据存储超融合解决方案数据存储的未来之路23451675、数据存储纠删码技术-数据存储纠删码技术简介00520025纠删码技术的论文文章数据趋势 纠删除码技术从2001年开始 2010年到2020年间有最多研究与应用 随着存储技术成熟,2020年后研究创新性输出减少 纠删除码本身技术与原理研究量最大 纠删除码技术多应用在存储系统,数据块等领域
61、5、数据存储纠删码技术-数据存储纠删码技术简介分布式数据存储冗余性挑战类型挑战数据可读性保证可靠性前提下,简化编码结构,降低数据解码杂度数据可读性如何保证用户在多模式下的访问性能数据维护通信量如何减少参与修复的节点数同时降低每 个节点的上传数据量数据维护通信量如何保证数据可靠前提下,降低数据维护通信量数据分配复杂度如何简化数据可靠度与节点 可靠度之间关系,有效分析数据存储分配量服务节点选择如何不做迁移且满足可用性,尽可能多关闭节点服务节点选择如何解决访问概率与数据失效概率负载均衡如何解决各节点性能与数据均衡操作类型数据插入数据重构数据维护名词英文说明纠删码erasure coding前向错误纠
62、错技术(FEC),根据纠删码算法与原始数据,算出冗余数据存储,保证数据可恢复性。编码enconde计算出纠删码数据的过程解码decode通过纠删码机制与纠删除码数据计算并恢复原始数据的过程修复repair数据重建,从若干磁盘中恢复出若干磁盘的数据过程MDS性质保证N=K+M个磁盘中什么问题K个磁盘可以恢复出K个数据盘。是纠删码重要性质系统码systematic codes编码后只包含校验数据,不包含原始数据;(信息位与校验位分开)非系统码non-systematic codes编码后包含原始数据与校验数据(信息位与校验位交叉)编码矩阵Generator Matrix,GM编码矩阵就是单位矩阵和
63、范德蒙德矩阵的组合数据块大小按一定比例的原始数据或校验数据组成,总数据块=原始数据块+校验块条带stripe是由若干个相同大小的数据块构成的序列,分为数据块和校验块水平码校验数据存放于单独的校验磁盘的编码方法,每个条带都是水平方式存储于n 个磁盘中,相同条带的数据块位置相同垂直码校验数据分布于所有的磁盘中,没有单独的校验盘,每个条带倾斜地将每个数据块分布于磁盘上不同位置上原始数据Original Data原真实数据容错率Fault Tolerance Ratem(纠删码块)/(K(原始数据块)+m(纠删码块)冗余度(K(原始数据块)+m(纠删码块)/k(原始数据块)更新update原始数据修改
64、,校验码跟着计算的过程纠删码术语纠删码技术是一种数据恢复技术,是数据容错主要方案之一,它通过在原始数据中加入新的校验数据,使得各个部分的数据产生关联性。在一定范围内的数据出错情况下,通过纠删码技术都可以进行恢复。纠删码方法中的 RS 码(Reed-Solomon Code)是最广泛使用的一种编码方式。纠删码技术Raid突破主流存储冗余方案高效减少带宽与存储源于FEC编码技术延伸Raid技术纠删码技术优势5、数据存储纠删码技术-数据存储纠删码技术的应用国内主流云存储(如华为云,腾讯云、青云)等也使用了EC纠删码技术云存储中使用纠删码也主要是为了解决AZ之间的网络传输性能主流云存储厂商EC编码方式
65、产品使用EC方式RS(K,M)冗余度(K+M/K)Google GFSRS(6,3)1.5Facebook HDFSRS(10,4)1.4Microsoft AzureLRC(12,2,2)1.33EMC ECSRS(12,4),RS(10,2)1.33,1.2阿里云 盘古RS(8,3)1.375CephRS(10,4)1.4容错转换机制数据热时副本,数据冷时RAID5数据热时副本,数据冷时纠删码系统支持多种纠删码并互相转换权衡存储冗余度与读写性能纠删码正在研究的方向上述机制与策略还在研究中,未在生产应用。主流云存储厂家使用的纠删除码策略5、数据存储纠删码技术-数据存储纠删码技术的应用-Had
66、oop HDFSHDFS集成EC是为了提高存储效率基于Hadoop 3.3.3HDFS 默认大小在Hadoop2.x/3.x版本中是128M,1.x版本中是64M3复本的复制因子为3,三个复制数据块需放三个不同机架数据额外开销200%并因同步多占网络与IO开销三副本是对等全量复制HDFS三副本机制节点1/机架1节点2/机架2节点3/机架3副本1副本2副本3block1block2block3block4block5block6block1block2block3block4block5block6block1block2block3block4block5block6block1block2b
67、lock3block4block5block6EC算法RS(6,3)datablock1datablock2datablock3datablock4datablock5datablock6c1c2c3数据块奇偶校验块HDFS EC机制文件数据节点奇偶校验节点原占有6*3的数据块,经EC RS(6,3)奇偶校验后只需要6+3个数据块空间支持在线EC自动将小文件发送到DATANODE中优 点布局:支持带有条带化的EC。未来支持连续性EC策略支持:RS-3-2-1024k、RS-6-3-1024k、RS-10-4-1024k、RS-LEGACY-6-3-1024k、XOR-2-1-1024k混合支持
68、:复制也支持,EC也支持,但有EC情况下,复制因子只能为1(即不能交错使用)允许XML文件自定义EC策略支持ISA-L 代表英特尔智能存储加速库(但需要OS级先开启)HDFS EC局限性某些HDFS操作不支持EC即hflush,hsync,concat,setReplication,truncate和upress,不支持EC查询不支持办法:客户端可以使用 StreamCapabilities;API 来查询 OutputStream 是否支持 hflush()和 hsync()支持性5、数据存储纠删码技术-数据存储纠删码技术的应用-Ceph纠删码Jerasure erasure code(默认
69、)ISA erasure codeLocally repairable erasure codeSHEC erasure codeCLAY codeCeph支持的EC代码库Jerasure erasure code提供一般的RS码和CRS码两种编码方式NYANABCDEFGHJENCODE(3,2)NYANNYANNYANNYANNYANABCDEFGHIYXYQGCOSD1OSD2OSD3OSD4OSD5比较项三副本RS(10,4)LRC(10,6,5)SHEC(10,6,5)容量开销3X1.41.8X1.6X恢复开销1X10X5X5X可靠性高中中中下Ceph pool默认是复制配置最简单的
70、EC配置是RAD5,至少3个主机默认是副本复制模式,可以更改配置为EC不是所有的应用都支持纠删码池,RBD 只支持副本池而 radosgw 则可以支持纠删码池Ceph 从 Firefly 版本开始支持纠删码,但是不推荐在生产环境使用纠删码池如果此时有数据丢失,Ceph 会自动从存放校验码的 OSD 中读取数据进行解码对象名对象内容shard1shard2shard3shard4shard5对象名分片名对象内容ENCODE(K,M),K=3,M=2一般纠删码的分片最多冗余是K个,如果故障发生多于K时,将会真正丢失数据。(K是对象块数,M是冗余度),ENCODE(3,2)的情况下就是最多坏3个OS
71、D,超过会丢失数据。数据将在主 OSD 进行编码然后分发到相应的 OSDS上去计算合适的数据块并进行编码对每个数据块进行编码并写入 OSDCeph纠删码逻辑流程图(通用)编码库与三副本性能比较Ceph纠删码流程说明5、数据存储纠删码技术-数据存储的冗余技术对比比较项纠删码技术(N+M)RAID技术三副本技术定义纠删码将数据存储为数量众多的条带;每个条带包含数据块和校验块,并被放置于多个机架的多个物理节点上。RAID通过条带化实现EC,它将逻辑上顺序的数据(例如文件)划分为较小的单位(例如位,字节或块),并将连续的单位存储在不同的磁盘上三副本机制来保证数据的可靠性,每一个数据块被复制为3个副本,
72、然后按照一定的分布式存储算法将这些副本保存在集群中的不同节点上。本质纠删码一种编码容错技术RAID 是一种虚拟化技术(多磁盘管理)数据同步技术使用原因降低数据冗余,提高跨机房数据传输的网络使用率降低数据冗余成本提升整个磁盘效能提升磁盘总性能、总容量提升磁盘数据吞吐率、提升数据传输效率通过数据校验提供容错功能保持地理位置接近用户,从而减少延迟;提高系统的可用性和鲁棒性,通过扩展性来提供读查询,从而增加读取吞吐量机 制机制与 RAID 5/6 类似,多位校验算法,节约磁盘空间;磁盘数据条带化,并行读取磁盘数据,镜像或存储奇偶校验实现数据冗余三副本数据节点存放位置、数据一致性、数据复制 数据恢复节点
73、使用关键技术分片、编码、解码镜像、条带、数据校验协调、复制、元数据数据管理特征常见算法:Reed-Solomon(RS);参数RS(M,N),M数据块,N校验块,最多容忍N块数据丢失数据指纹硬件故障隔离,避免了网络修复可能导致的稳定性问题;可自动避让业务,保证业务无感知;本地修复时数据延迟小,只使用本地RAID带宽,不消耗网络带宽;抵御故障能力强,每个节点都能抵御一个或多个硬盘故障;而三副本最多抵御两个连续的硬盘故障。存储系统自动确保3个数据副本分布在不同服务器的不同物理磁盘上存储系统确保3个数据副本之间的数据一致类型EC,RS,LDPC、MDSRAID0、RAID1、RAID3、RAID5、
74、RAID6 和 RAID10。/磁盘利用率大于60%50%90%30%方式数据分片、编码,数据传输、解码物理磁盘合并成一个更大的虚拟设备工具复制可靠性允许配置校验数的节点个数失效只容忍磁盘故障,不能容忍节点故障。一个RAID(RAID 5)组只容忍1个磁盘失效。允许两个副本失效数据重建通过解码完成例如RAID 5(校验码与数据放每个磁盘),数据均衡分布每个盘,通过校验算法重放数据。直接从其它副本COPYSSD磁盘寿命总写次数少,SSD消耗少SSD消耗最少,可延长SSD寿命与次数多,SSD消耗多5、数据存储纠删码技术-数据存储的冗余技术对比比较项纠删码技术(N+M)RAID技术三副本技术优 势低
75、开销,高容错、高可靠效率高,(个别磁盘坏,用户无感),大容量,高性能、可管理写入效率高,无多余计算缺 点由于纠删码存在比较严重的写放大问题,小块数据的写性能严重不足;随机写,特别是改写和重构(Rebuild)时产生的 I/O 惩罚较大无法重构,无法代替备份;冗余数固定、不灵活存储效率低,成本非常高、稳定性、木桶效应(IO不均衡);冗余度高;场 景云存储、比如磁盘阵列系统、数据网格、分布式存储应用程序、对象存储或归档存储企业服务器的标配在虚拟化、私有云、数据库等块存储场景主要应用于分布式存储:高性能计算、大数据视频云应用场、大数据分析应用场景应用领域EC主要运用于存储阵列、数字编码领域、P2P例
76、如磁盘阵列存储(RAID 5、RAID 6),云存储(RS),大文件。(grid存储、peer-to-peer存储、云存储)DAS,NAS,SAN块存储,小文件;云存储。计算开销高比纠删码小但比副本大几乎无网络销耗较 高无较低恢复效率较低最低(EC比RAID5数据恢复效率高很多)较高应用限制通常仅适用于视频等P2P场景、备份、容灾等对性能要求不高的业务场景无提供接口,支持裸设备及额外附加软件扩展能力仅适用于TB级存储跨设备负载轻,支持PB级存储故障恢复速度恢复速度比RAID,比副本慢磁盘更换,重建恢复周期长,恢复过程影响性能故障可失效立刻转移切换,无需要等待应用厂家google,faceboo
77、k,miscroft,emc,阿里云、华为,腾讯如 EMC、IBM、HP、SUN、NetApp、NEC、HDS、H3C、InfortrendEMC、IBM、HP、华为、XSKY、新华三、浪潮RAID研究前沿:异构RAID技术(大规模使用是AFA技术)(All-Flash Array)RAID 5/6是最简单的纠删码其它冗余技术:镜像技术与快照技术现代企业级数据存储综述分布式存储技术数据存储容灾技术数据存储容灾系统的删冗技术数据存储容冗余纠删码技术目录/CONTENTS数据存储超融合解决方案数据存储的未来之路23451676、数据存储应用-超融合解决方案-综述超融合基础设施(HCI)软件通过在服
78、务器硬件上运行的单个实例提供虚拟化计算、存储和网络(Gartner)数据来源:GARTNER,2021.110%20%40%60%80%100%超融合关键技术能力在不同场景的权重混合云云原生边缘虚拟桌面基础设施硬 件虚拟机分支硬件配置支持hypervisor平台远程办公、分支机构、边缘第三方硬件能力优化支持热迁移、快照及HA,DR高级特性满足性价比,可用性,管理要求硬件平台认证多Hypervisors混合支持支持最新配件混合应用场景支持软件栈集成网络支持无中断扩展OS硬件故障处理能力容器ERP,DB、BI支持DockerNOSQL数据服务支持k8sVDI存储功能与备份支持容器持久化PaaS容灾
79、与高可用支持云原生应用压缩与重删优化服务与支持带宽、延迟与IOPS优化系统管理打包模式、软件模式性能与容量存储分层监控、管理、故障诊断监控、解决问题工具、处理流程部署、配置服务边缘计算AI 函数API管理算法、机器学习(自动化)故障检测与纠正系统扩展安全性能优化与通知系统规模角色、权限管理集群互联协议计算与存储扩展超融合关键技术能力要求数据存储超融合是一种系统组件融合化的产品产品以超融合一体机、超融合服务器等数据存储超融合形成一个超融合基础设施基于超融合的研究热度持续中。超融合关键词:超融合架构;软件定义存储;策略驱动;全闪存 数据中心;超融合;存储架构;数据存储;虚拟存储;超融合基础架构;超
80、融合服务器关键能力混合云hybrid cloud云原生cloud-native边缘edge虚拟桌面基础设施VDI硬件9%7%9%7%虚拟机15%3%4%12%容器8%13%2%1%数据服务12%11%6%11%AI函数9%13%4%4%系统管理12%11%18%13%软件栈8%12%8%10%分支机构2%6%26%15%系统扩展11%11%2%10%服务与支持6%6%6%8%安全8%7%15%9%总计100%100%100%100%数据来源:GARTNER,2021.116、数据存储应用-超融合解决方案-超融合基础架构应用数据中间件或运行库数据库操作系统服务器(虚拟)存储或柜机网络机房基础设施
81、IaaSPaaSSaaS配置超融合基础架构虚拟化软件服务器存储网络外部存储设备IaaS组件安全设施网络设施融合超融合软件工具SDN认证的软件包超融合管理平台Hypervisor类型软件分布式存储软件开箱即用一体机网络交换机机房基础设施HDDSSDHDDSSDHDDSSD服务器服务器存储网络服务器hypervisorVMVMVMVMVMVMVMVMVMVMVM超融合管理平台(统一平台)机房基础设施HDDSSDHDDSSDHDDSSD服务器服务器存储网络服务器hypervisorVMVMVMVMVMVMVMVMVMVMVM机房基础设施HDDSSDHDDSSDHDDSSD服务器服务器存储网络服务器h
82、ypervisorVMVMVMVMVMVMVMVMVMVMVM分布式域1(IDC1)分布式域2(IDC2)分布式域N(IDC3)PaaSSaaSPaaSSaaSPaaSSaaSIaaS基础设施可X86廉价化虚拟化一切分布式一切Server SAN跨机房的节点是分布式的一个节点与双活、多活不同资源池化超融合架构的一些特性Server SAN云计算环境私有云公有云混合云超融合架构总目标提高基础架构层的系统效能:减少沟通环节、提高系统维护效率、分布式一切,虚拟化一切,资源按需分配弹性伸缩、自带IaaS所有功能,兼容情况下加速一切,无单点故障,自带备份容灾功能。6、数据存储应用-超融合解决方案-演进路
83、径及优势与局限性现代的超融合技术已与过往不同,可使用廉价X86机型也可支持裸金属机型。超融合由IaaS、分布式存储、虚拟化技术发展的一种创新,是IaaS向前推进的重要技术路线。超融合的本质在虚拟化基础上降低技术门槛,降低使用复杂度,并让用户用得起。超融合优势(对比传统基础设施、普通融合、集成、云计算虚拟化)比较优势项描 述按需要采购初始投资小,可先在一个节点部署后期扩展快速交付几十分钟交付部署管理极简统一界面可视化管理弹性扩展无单点故障线性扩展支持简单单一厂商减少多层沟通超强稳定存储深度融合优化兼容性强软硬件出箱已兼容维护极简减少中间环节的沟通组件可靠认证的软件硬件架构优越IO本地化,提高访问
84、速度(部分超融合产品);自带容灾体系如容灾、恢复、快照功能齐全数据容量自动均衡数据变更后,容量快速恢复分布均衡节约成本资源高复用,系统融合度高异构节点支持部分超融合产品支持异构节点局限性描述与原有系统硬件融合选择硬件要求高,与现有架构融合难度加大与原有系统管理融合难与现有资源统一调度与管理,规模有限聚合性能并不简单超融合架构的分布式支持业务性能复杂化超融合架构有场景要求更适合中小企业的私有云超融合有特性要求不适合计算密集型,容量密集型超融合有应用要求已在副本容灾机制,部署本身副本应用浪费(HADOOP等)没有改变技术本质传统采购模式,弹性不足,仅提供IaaS,整体云计算环境技术门槛高超融合并非
85、全能,但优越性明显。在局限性要求下,充分发挥超融合的场景,可以让企业即省钱,又可以省心,提高了系统的效能。超融合局限性超融合演进路径硬件堆砌控制节点与计算节点分离部署非对称架构软件堆砌控制节点以虚拟机节点方式部署对称架构开箱即用控制平台容器部署全对称分布式微服务架构6、数据存储应用-超融合解决方案产品-超融合一体机超融合一体机突破技术:存储 资源池易部署、易管理、弹性伸缩(自带云计算基因)工厂式定制系统预装云计算 超融合一体机:以节点为单元横向扩展模式。云计算扩展要求灵活。超融合一体机是云计算整个方案的一部分。不能完全满足所有云计算业务需求。厂家NutanixVmwareEMCStorMagi
86、cDell华为H3Csangfor(深信服)浪潮总部美国美国美国中国美国中国中国中国中国产品名称NutanixVmware HCIVxRailSvSANDell EMC VxRailFusion CubeUIS-CellaServer2000InCloud Rail IR5280M6产品类型一体机软件一体机软件一体机一体机一体机一体机一体机管理平台PrismvCentervCenterSvSANvCenterFusion CubeCenterCASOpenStack HorizonInCloudRail软件定义存储NDFSVSANVSAN服务器SANVSANFusion Storage基于Ce
87、ph基于Glusster FSincloudStorage2021年超融合魔力象限(2021.11)主流超融合产品现代企业级数据存储综述分布式存储技术数据存储容灾技术数据存储容灾系统的删冗技术数据存储容冗余纠删码技术目录/CONTENTS数据存储超融合解决方案数据存储的未来之路2345167下一代存储技术:存储器、存储服务器/存储方案、存储服务下一代存储器(侯选)碳、磁、铁电、阻变、相变等(半导体)CBRAM导电式随机存储器NRAM纳米随机存储器CeRAM电阻式存储器STTRAM自旋扭矩转换随机存储器RRAM/ReRAM阻变存储器PCM/PRAM相变存储器3D Xpoint3D磁存储器FeFE
88、T铁电栅场效应晶体管SRAM静态随机存储器生物存储器蛋白存储器量子存储器基于镱的金属等全息存储器基于银盐等1M10M100M1G10G10G100G1Tvolatile易失性Non-volatile非易失性HDDNANDdata storageDRAMworking memoryPRAMNORSRAMMRAMFeRAMRRAM1E-91E-81E-71E-61E-51E-41E-31E-2容量写时间(秒)分类MRAMSRAMDRAMFLASHFeRAM读速度快最快中快快写速度快最快中低中阵列效率中/高高高中/低中可升级能力好好有限有限有限单元密度中/高低高中/低中非易失性是否否是是耐用性无限无
89、限无限有限有限单元泄漏低低/高高低低低电压是是有限有限有限复杂度中低中中中上游存储器决定中下游的方案总体存储器需要很长时间才能代替新型存储器发展对未来更有意义,也可能是颠覆式的7、数据存储的未来-下一代存储的迷思DNA存储应用路径7、数据存储的未来-DNA存储的发展现状优点DNA 信息存储通过编解码、合成、编辑和测序等过程,实现数字信息写入、存储与读出存储密度大,稳定性好、能耗低、存储时间长(寿命)、易备份(PCR技术)、抗电磁干扰,维护低成本缺点产品形态DNA硬盘DNA光盘DNA磁带未来落地技术预备性,可实现规模性,鲁棒性,可编程碱基配对支持分子计算与数据库操作的可能性。因此DNA是最有效的
90、分子存储材料。但落地至少还得5年以上,DNA存储潜力巨大维 度现有传统存储(磁性、光学、固态)DNA存储密 度传统硬盘存储每立方厘米为10的13位(bits),内存为10的16位(bits)DNA存储是10的19位(1克DNA能装2.2亿部高清电影)寿 命10多年至少上百年甚至千年时间DNA存储进展1964DNA信息存储概念首次提出1964-2012不断有实验数据输出:数字,文字,诗歌,图片,歌曲等写入DNA并数据恢复2012数字化转换编码(霍夫曼编码等)、重叠法、等不同格式存入DNA并恢复,确定可行性2016基于DNA的存储系统体系架构(A DNA-based archival storag
91、e system)2017证实DNA可存放视频短片2019存储 1000MB的数据到DNA并实现了提取2019dot(dna-of-things)存储架构构产生2019DNA喷泉码压缩算法2020基因组录音机2020澳利用保存运动图象2020 年 11 月第一个 DNA 数据存储联盟成本高,存取耗时长,技术难点多。信息检索与操作有限制类:归档数据 DNA存储的研究已上升到国家战略,是现阶段研究的热点数据写过程(合成)编码DNA存储存储读过程(测序)检索数据解码DNA存储的数据操作流程DNA存储编码技术:哈夫曼编码,喷泉码、LZMA、纠错码:汉明纠错码、RS码纠错、LDP码纠错我国对DNA存储的
92、研究处于起步阶段,于2018年开始研究扶持(合成生物学)。参与DNA研究的企业:华为,华大基因参与DNA研究的学校:东南大学,华中科技大学,天津大学,国防科技大学,及军事院校。编码方式充分利用DNA存储能力的高效编码方式纠错机制读写存高保真的纠错机制生物机制DNA本身的批量、准确合成技术确保DNA对数据的保存。随机存取存取的能用性现阶段DNA存储的研究工作SSDHDDHDD/TAPECD/TAPE/DNA(第一步)归档类-冷OLAP类-温OLTP类-热OLTP类-高热存储融合DNA存储应用路径古生物科学研究表明,DNA 保存的基因数据在没有特别人工干预的情况下能保存万年之久需求侧现状产生数据越
93、来越快,数据越存越久问题现使用的存储技术针对需求现状越来越有局限性(速度,容量、保存周期、成本,大规模并行复制与处理等)解决问题方案之一DNA存储技术,使用生物学解决信息学问题,是跨界关联性高效方案一维数据(线)二维数据(面)传统介质二维存储法三维存储法(HDD,SSD,CD/DVD)(光全息存储)Facebook 于 2014 开始就着手建造总容 量可以存储 1000 PB 的蓝光光盘数据库(能耗比磁盘存储低80%,保存时间30-50年,是磁存储5-8倍)7、数据存储的未来-全息存储发展现状日本Optware公司 为代表的同轴全息数据存储系统和以 InPhase公司为代表的离轴全息数据存储系
94、统并 行的市场化探索格局。(两个2010年左右破产)(同轴更有利)01000同尺寸光盘存数据容量同尺寸光盘全息光盘是普通DVD的200倍在光存储中,全息存储还在研发,是下一代存储的可能技术1、信息干扰(噪音)纠错和编码技术保障数据准确解决降低了性能2、震动与温度敏感避震系统与体积成本大全息存储面临主要问题如全息存储商业化,将会代替BD类存储全息存储应用场景星载存储音视频存储图像识别存储空间复用技术全息存储产品:处于研发阶段,有企业正在参与技术研发(主力是高校)增强现实体全息存储试验样机演示的最大存储密度大约为(厚存储材料),该值比理论极 限值小一个数量级全息存储的一种:体全息存储(相位全息存储
95、,偏振全息存储。是未来的一种方向可能。02000020202030全息技术研究密度同轴全息光存储的基础理论与关键技术研究(2019国家重点技术)体式存储并行读写全息存储方法全息存储特征全息存储具有未来可能性7、数据存储的未来-量子/量子存储05000000025000quantum量子点量子力学physicsfindingsnanotechphotolumquantumusingquantumquantumoptical quantumgraphene quantumquantum 密度泛函new化合物量子纠缠量子存储文章数来源
96、于论文知识库理论探索算法研究样机及验证量子计算机突破2000年1982年1994-1996年2000年量子发展历程量子互联网发展需要经历六阶段量子密钥分发关键能力可执行协议集纠缠分发量子存储与通信容错设计方案量子计算我们着重关注:量子计算领域,在云计算与人工智能等发展成熟的情况 下,量子如何颠覆性的替代我们正在使用的各个组件与元素,实现效率极大化,是我们时刻关注的。可信中继器阶段制备与测量阶段纠缠生成阶段量子存储阶段少量量子比特容错阶段量子计算阶段重点关注:量子计算与量子通讯领域Arrazolanature光子芯片上实现的量子算法7、数据存储的未来-现代数据存储遇到的主要问题现代数据存储遇到的主要问题:存储措施面对突如其来的大规模数据具有短期不适应性存储的技术影响到整个业务(大规模):需要整体统筹与解决即使是云存储,需要考虑提供云存储的厂家实力或者及业务适配性数据使用方便性与数据存储方案有关