上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

数据湖和湖仓一体产业观察(1).pdf

编号:121852 PDF 25页 2.60MB 下载积分:VIP专享
下载报告请您先登录!

数据湖和湖仓一体产业观察(1).pdf

1、数据湖和湖仓一体产业观察云计算与大数据研究所2023 数据湖和湖仓一体技术发展及现状介绍数据湖&湖仓一体产业观察信通院未来工作计划数据湖和湖仓一体技术发展及现状介绍我国大数据发展态势好动力足多年来,我国大数据高速发展,不断取得重要突破,发展态势良好。1.3万亿产业规模31%论文全球占比50%全球专利受理占比超18万家大数据市场主体超800亿元企业获投总金额近一年,我国在政策、人才、资金等方面持续加码,为大数据后续发展注入强劲动力。时间文件名称2021.11工信部“十四五”大数据产业发展规划2022.1国务院要素市场化配置综合改革试点总体方案2022.4中共中央 国务院关于加快建设全国统一大市场

2、的意见2022.12中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见147所“双一流”高校中有87所已开设了大数据专业,占比达到59%广东实施“十万”产业数字化符合性人才培训行动;浙江围绕数字人才制定“高精尖缺”人才目录;福建明确要求县级以上地方人民政府制订大数据人才发展计划人才资金宁夏对于区内符合标准的优质大数据企业给予最高300万的资金支持山东、黑龙江等省份要求省内县级以上人民政府每年需统筹安排资金专项扶持大数据相关企业江苏省每年在省级财政安排12亿元专项资金支持工业企业“智改数转”部分代表性政策大数据技术进入深度优化阶段计算实时性和数据源多样性存储使用需求催生了数据湖概念,

3、同时随着云计算技术的深入应用,数据平台技术完成了从私有化部署到云上部署再向云原生的转变20世纪60年代支撑数据存储计算的软件系统起源于本时期的数据库20世纪70年代关系型数据库诞生,并成为沿用至今的数据存储计算系统20世纪80年代数据仓库理论被提出,成为之后一段时期内发掘数据价值的主要手段2000年前后面 向 非 结 构 化 数 据 的NoSQL数据库兴起2010年前后来源:中国信通院,2022经过60余年发展,大数据技术框架趋于成熟,进入深度优化阶段。目前已经形成了以分布式数据库、数据仓库、批处理平台、流处理平台为代表的总体技术框架,并广泛应用,已能够支撑具有高并发、低延迟数据处理分析需求的

4、极端场景。企业复杂多变的业务诉求需要湖仓一体平台需求统计分析 预测分析转变单领域分析 跨领域分析转变被动分析 主动分析转变非实时分析 实时分析转变结构化数据分析 多元化数据分析转变12345随着数据类型多样化、分析场景的多元化,企业需要搭建数据平台来支撑各种数据应用系统,比如SQL分析、实时监控、机器学习等,进而助力企业加速实现数据价值变现。当前常见的数据平台架构是使用多个系统来平衡数据仓库和数据湖的优劣势。系统复杂 昂贵数据移动成本 高延迟 限制了对机器学习的支持 缺乏开放性1个数据湖N个数据仓库N个专用系统:流、时间序列、图像数据库等实时性融合性复杂多变的业务诉求湖仓一体数据平台湖仓一体提

5、升数据管理效率和灵活性统一元数据管理七大技术特性:多种数据类型分析数据治理事务支持BI支持存算分离开放型实时性湖仓一体是为解决大数据场景下的实时处理诉求高、非结构化数据治理难、系统运维复杂等问题的一种新型架构。湖仓一体打破数据仓库与数据湖之间的壁垒,融合两种架构的优势:构建在数据湖低成本的数据存储架构之上,同时具备数据仓库的数据处理和管理能力。实现方案:基于Hadoop体系的数据湖向数据仓库能力扩展基于云平台进行架构构建基于三大开源数据湖(Hudi、Iceberg、Delta Lake)的解决方案基于数据库的自研平台安全应用数据湖数据仓库数据源湖仓数据治理统一湖仓血缘统一数据管理计算流动数据湖

6、&湖仓一体产业观察中国信通院信息社会创新发展的思想库和使能者邮电部邮电部邮电科学研究院邮电部邮电分营邮电部电信科学研究规划院组建信产部信产部电信研究院组建工信部工信部电信研究院1957年1994年1998年2008年2014年工信部中国信息通信研究院国家高端专业智库产业创新发展平台国家高端专业智库产业创新发展平台发展定位文化理念发展使命信息社会创新发展的思想库和使能者厚德实学兴业致远信息社会创新发展的思想库和使能者14个业务部门政策与经济研究所技术与标准研究所产业与规划研究所云计算与大数据研究所信息化与工业化融合研究所工业互联网与物联网研究所安全研究所泰尔系统实验室泰尔终端实验室泰尔认证研究所

7、无线电研究中心移动通信创新中心工业和信息化法律服务中心知识产权中心4个部属中心电信设备认证中心电信用户申诉受理中心信息通信业务受理信息通信工程定额质监中心4个分院南方分院西部分院华东分院广州智慧城市研究院 19个省通信管理局行业支撑中心 20家创新中心(京外)智能制造与工业互联网领域【上海、江苏、湖北、广东、重庆】车联网领域【上海、四川】人工智能、大数据等新一代信息技术领域【江苏、河南】4个分院(深圳、重庆、上海、广州)中国信通院信息社会创新发展的思想库和使能者鼎力支撑国家大数据战略中国信通院秉持“国家高端专业智库 产业创新发展平台”的宗旨和要求,在大数据领域积极落实国家战略,为国务院及工信部

8、、网信办、发改委等部委完成了大量支撑工作,获得广泛认可20222021国务院以国发201550 号印发促进大数据发展行动纲要成为我国发展大数据产业的战略性指导文件,中国信息通信研究院是主要起草单位。20162015牵头起草工业和信息化部大数据产业发展规划(2016-2020年)并参与宣贯实施工作参与起草工业和信息化部大数据产业发展规划(2021-2025年)并参与宣贯实施工作参与起草关于构建数据基础制度更好发挥数据要素作用的意见,支撑相关政策未来的细化和落地。持续发布大数据研究成果 在大数据领域深入研究,共计发布白皮书等研究成果50余份名称发布时间大数据白皮书(2014年)2014.5中国大数

9、据发展调查报告(2015)2015.5大数据白皮书(2016年)2016.12中国大数据发展调查报告(2017)2017.3数据资产管理实践白皮书(1.0版)2017.11大数据白皮书(2018年)2018.4数据资产管理实践白皮书(2.0版)2018.4中国大数据发展调查报告(2018)2018.4金融分布式事务数据库白皮书2018.6大数据白皮书(2019年)2019.12数据库迁移技术报告2020.7大数据白皮书(2020年)2020.12数据库发展研究报告(2021年)2021.6大数据白皮书(2021年)2021.12数据库发展研究报告(2022年)2022.6云原生数据库白皮书20

10、22.6 中国信通院大数据工作体系提供存储、计算、分析等数据智能基础能力 数据基础设施的功能、性能、稳定性、安全性 数据基础设施实施服务体系、运维保障数据基础设施生态侧:政策支撑、标准制定、人才培训、案例征集、产业大会、合作平台供给侧:产品评测、服务能力评估、方法论提炼输出、联合研究报告应用侧:政策解读、项目咨询、项目验收、应用水平评估、方法论提炼输出、实验室共建、联合研究报告数据基础设施工作体系数据基础设施工作体系从2015年起开始搭建,核心围绕数据采集、存储、计算领域的技术产品、解决方案以及供应商,覆盖其选型、实施、应用、运维全流程,从而指导大数据实现技术突破、合理应用。分布式批处理分布式

11、流处理对象存储文件存储基础平台类消息中间件云原生数据湖云原生实时数仓云原生湖仓一体开发管理类数据集成工具数据管理平台数据开发平台数据质量管理平台数据标准管理平台数据标注管理平台数据模型管理平台数据资产目录管理平台解决方案类数据平台整体解决方案数据中台解决方案分析应用类商务智能分析工具数据可视化产品数据科学平台图计算平台知识图谱工具用户行为分析供给侧服务能力应用侧运维能力平台建设服务商咨询规划能力成熟度模型数据基础设施稳定性保障组织制度能力截止2022年底:已有144家企业参与测试;依照标准的贯标测试次数达到360次平台建设服务商实施部署能力成熟度模型平台建设服务商运维运营能力成熟度模型数据基础

12、设施稳定性保障技术工具能力数据基础设施系统稳定性能力技术产品(功能、性能、稳定性、安全性)持续进行理论研究,自研多款测试工具国际标准(2项)行业标准(9项)团体标准(50余项)ITU-T F.FDAMFramework for data asset managementITU-T F.AFBDIAssessment framework for big data infrastructure大数据 数据挖掘技术要求与测试方法大数据 数据集成工具技术要求与测试方法大数据 分布式批处理平台技术要求与测试方法大数据 分布式事务型数据库技术要求与技术方法大数据大数据 分布式分析型数据库技术要求与测试方法

13、大数据 用户行为分析技术技术要求与测试方法3款测试工具,覆盖多场景、多能力持续发布大数据研究成果在大数据领域深入研究,共计发布白皮书等研究成果30余份中国信通院从2014年起,开始发布大数据白皮书,内容包括大数据领域内政策、技术、产业、应用等,旨在梳理产业现状、定位产业问题、引导产业方向。目前已经发布7版,已经成为业界洞察大数据产业发展的重要参考。云原生数据湖技术要求云原生数据湖技术要求包括存储、计算、安全、数据管理、兼容、运维、湖应用、高可用共计8大能力域,46个能力项存储运维安全计算兼容性数据管理湖应用高可用数据格式计量认证弹性-扩容计算生态支持数据源管理数据处理故障恢复能力存储分级配置管

14、理授权弹性-缩容数仓生态支持统一元数据管理数据工作流容灾能力缓存加速监控告警审计数据湖格式CPU/操作系统兼容性文件/对象操作 事件通知加密存算分离版本兼容数据可靠性多租户完整性保护 支持多场景分析多语言支持域名管理支持混合节点扩缩容-1身份鉴别容器化存储生态支持计算下推支持混合节点扩缩容-2合规保留数据格式加速容器生态支持跨域访问支持混合节点扩缩容-3防盗链存储系统限流运维授权标准牵头单位:标准参与单位:数据湖9阿里云、腾讯、星环等9家企业产品通过测评云原生湖仓一体数据平台技术要求云原生湖仓一体数据平台技术要求包括湖仓数据集成、湖仓存储、湖仓计算、湖仓数据治理、湖仓其他能力共计5大能力域,2

15、3个能力项湖仓数据集成湖仓存储湖仓计算湖仓数据治理湖仓其他能力数据源管理存算分离存储生态支持统一元数据管理异地容灾湖仓数据转换能力存储分级认证授权统一数据管理入湖仓能力数据湖格式统一开发平台统一湖仓血缘存储加速弹性能力数据评估能力存储加密多场景融合分析数据标准及数据质量统一资源管理动态数据加密多计算模式支持数据建模能力标准牵头单位:标准参与单位:湖仓一体4阿里云、科杰、新华三、南大通用等4家企业产品通过测评观察1:数据湖和湖仓一体技术快速发展、功能不断完善30%以下以下31%-50%51%-85%85%以上以上云原生湖仓一体数据平台基础能力云原生数据湖基础能力对象存储基础能力数据可视化工具数据

16、科学平台基础能力数据库管理平台基础能力时序数据库功能关系型数据库安全能力图计算平台基础能力数据开发平台基础能力数据集成工具图数据库分布式分析型数据库可选项通过率范围项目数统计可选项通过率范围项目数统计分布式流处理平台基础能力分布式批处理平台基础能力 项目可选项通过率在51%-85%和31%-50%的数量最多,有数据湖、湖仓一体、商务智能(BI)、数据可视化、图计算、图数据库、数据开发等项目,可见这些技术都在不断发展,能力不断完善。平均每个评测项目的可选项通过率为59.99%。云原生实时数仓基础能力数据库管理系统智能化HTAP数据库基础能力观察2:数据湖的云原生能力有待进一步提升 云原生能力中容

17、器化、serverless能力比较弱,分别为:33%、22%。三大开源数据湖协议中Hudi和和Iceberg支持度最高支持度最高,均占44.5%。云原生特性支持度统计云原生特性支持度统计100%100%33%22%0246810存算分离弹性扩缩容容器化SERVERLESS78%“统一元数据管理”组件形式单独产品非单独产品 测试过程中发现,数据湖在存储、数据源管理、多场景分析、计算生态支持等能力上,各产品差别不大。而统一元数据管理能力项,目前集成单独产品的会支持的更好。44.5%44.5%0%11%HudiIcebergDelta其他其他开源数据湖协议使用统计开源数据湖协议使用统计观察3:湖仓一

18、体中湖到仓的发展路线产品化程度更高75%25%湖仓一体技术路线统计湖-仓仓-湖 湖仓一体演进的两个技术路线:湖仓和仓湖,其中湖仓的落地产品化程度更高,功能更完备,占比75%。从能力项演示形式统计来看,湖-仓路线的湖仓一体产品可视化能力支持更好。0%20%40%60%80%100%湖-仓A湖-仓B湖-仓C仓-湖D能力项演示形式统计命令行演示可视化演示信通院未来工作计划信通院未来工作计划0 20 2产业研究 持续跟进大数据产业发展,研究产出实践方法论湖仓一体技术与产业研究报告0 10 1标准与评估 启动并完成湖仓一体建设成熟度模型标准编制湖仓一体建设能力汇总数据湖数据仓库IAAS数据存储数据生命周

19、期存储、扩展等操作数据湖底座支持Delta lake、iceberg、hudi多场景需求并发、索引、文件格式等实时诉求存算集成度、微批近实时化数据准备数据抽取&清洗、数据转换&加载&同步Serverless部署云化、低成本兼容性云兼容&外部兼容,数据格式&接口,国产化适配查询与计算性能查询与分析性能、高可用&高可扩展数据分析1、批数据、流数据分析,批流融合数据分析、OLAP交互式联机分析、图计算、内存计算、日志分析2、多湖、多长联合计算分析数据编排与管理工作流管理、可维护性、资源管理、数据管理其 他数据治理数据质量管理、数据血缘关系、数据治理数据安全可信计算服务、全密态数据、隐私加密、安全防护

20、、安全合规、认证、节点访问、审计等灾备建设数据备份、迁移、恢复服务支持实施服务、增值服务、专家团队、产品文档等开源社区开源情况,开源组件、代表用户产业链生态产业链合作情况,硬件、同业、中间件、内部产品线等方案成熟化业务结构与数据架构设计咨询服务,操作页面本地化方案场景化行业化、场景化的解决方案,营销管理、风险管理、客户运营等服务场景化。实践的行业广度和深度。每项能力的成熟度如何?湖仓一体建设成熟度模型湖仓一体建设成熟度模型标准编制工作标准编制工作标准推进计划湖仓一体建设成熟度模型2023年6月大会发布3/15第一次标准会讨论框架3/29第二次标准会讨论能力域4/13第三次标准会讨论技术要求4/27第四次标准会讨论技术要求5/18第五次标准会讨论技术要求感谢您的观看

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(数据湖和湖仓一体产业观察(1).pdf)为本站 (2200) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部