上海品茶

中国云原生数据湖应用洞察白皮书(47页).pdf

编号:68086 PDF 47页 2.40MB 下载积分:VIP专享
下载报告请您先登录!

中国云原生数据湖应用洞察白皮书(47页).pdf

1、中国云原生数据湖应用洞察白皮书2022.4 iResearch Inc. 22022.4 iResearch Inc. 摘要来源:艾瑞咨询研究院自主研究及绘制。概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有数据多源异构、统一存储管理、多范式计算、schema后置和应用广泛的特性。云原生是数据湖未来部署的必然形态,具有建立统一数据资产、低成本使用基础资源、高性能计算体验升级和敏捷创新赋能的核心价值。市场现状:数据变革、企业数字化转型、投融资、政策支持将持续加速释放云原生数据湖的应用需求。2020年云原生数据湖市场规模(含生态)达124亿,预计未来三年将以39

2、.7%的复合增长率快速扩张。竞争格局:中国云原生数据湖还处于发展的早期,能够提供整体解决方案的独立厂商还较少,市场较为集中,竞争主要围绕头部云厂商展开。以营收口径核算,2020年云厂商在中国云原生数据湖市场(不包含生态支持部分)的份额达到了82.4%。趋势展望:在云原生与大数据背景下,云原生数据湖成为企业智胜未来的新一代生产力工具,市场即将迎来爆发期。尽管数据湖与云和大数据天然契合(海量、弹性、简单、敏捷),但在具体业务场景落地中,仍有许多实际问题需要解决。未来,云原生数据湖厂商需与开发者、ISV和SI共同努力,在企业级生产环境中不断探索,生态共赢驱动云原生数据湖解决方案日臻完善。应用现状:现

3、阶段,云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。选型建议:企业在布局数字化转型时,面对多元且快速迭代的业务需求,一方面需建设统一的数据底座,另一方面需关注DT能力的开放性、敏捷性和创新性。在选型云原生数据湖时,除内部能力评估外,还需要考虑服务商的服务半径和发展路径。3云原生数据湖概念界定1云原生数据湖市场现状2云原生数据湖竞争分析3云原生数据湖行业应用与最佳实践4云原生数据湖选型建议与典型企业5云原生数据湖发展趋势642022.4 iResearch Inc. 数据湖的定义数据湖是面

4、向大数据场景的创新解决方案早期,业界和用户多把数据湖定义为一个储存原始格式数据的系统,可容纳结构化、半结构化、非结构化及二进制的数据。随着大数据技术的融合发展,数据湖的边界不断扩展,内涵也发生了变化。数据湖开始汇集各方面技术,逐步演进成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。它可以更加高效率低成本地管理海量多源异构数据,打通数据孤岛,释放数据价值,助力新时代下各行业企业的数字化转型。来源:艾瑞咨询研究院自主研究及绘制。数据湖典型构架及特性数据湖接入层离线数据湖管理层任务管理流程编排质量管理数据治理数据接入数据搬迁访问控制资产目录元数据管理数据湖计算层离线计算

5、实时计算应用BI报表数据大屏数据挖掘机器学习IoT分析数据科学数据库数仓APP日志MapReduceSparkStormFlinkSpark Streaming数据湖存储层OSS数据湖应用层实时调用数据湖调度层统一的API接口 应用广泛:支持使用者通过自助访问业务数据,支持数据挖掘、机器学习等未知探索诉求。 Schema后置:数据湖存储数据不需要满足特定的范式,支持在读取数据的时候schema。 数据多源异构:可容纳海量数据,且无存储格式要求,接收结构化、半结构化、非结构化及二进制数据入湖。数据统一存储管理:对内以OSS为中心,进行统一存储,对接多范式计算引擎,对外提供统一的API接口多范式计

6、算:支持多种计算引擎,满足不同数据计算分析需求,支持批处理、流处理、机器学习等。52022.4 iResearch Inc. 数据源数据处理适用场景性价比支持处理过后的结构化/半结构化数据;来自业务系统写时建模(Schema-on-write)传统行业,以及企业的稳态业务;数据量少,数据结构化,稳定可预测,对执行实时性要求不高建设成本低扩容成本高高度监管与严格事前控制,满足企业级诉求;数据与模式稳定,引擎优化表现较好。支持未经处理的结构化/半结构化/非结构化数据;来自IoT设备、Web、APP和业务系统等读时建模(Schema-on-read)泛互联网行业以及传统行业的互联网场景;海量数据,迭

7、代速度快,需要实时分析扩容成本低建设成本高可针对特定业务需求进行重新配置,灵活性和可扩展性较强。数据湖 vs 数据仓库诞生背景、设计思路及使用场景各不相同数据仓库是诞生于数据库时代,应企业分析诉求而生的数据产品,它的核心思路是把数据库中的数据进行一定格式转换后,定时地复制至另一个库里做列式存储,从而满足企业查询和数据分析的诉求。随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,传统数据仓库无法适应大数据和现代化企业对于实时、交互式分析等方面的诉求。随之,数据湖诞生。它选择了“前松后紧”的设计思路,初始化阶段放弃严格的模式,后置schema,从而获取更强的灵活性;同时通过

8、统一存储管理和计算优化来保证数据的一致性和性能。来源:艾瑞咨询研究院自主研究及绘制。数据湖数据仓库数据湖与数据仓库对比数据仓库BI报表ETL数据湖数据处理数据源数据源BI报表62022.4 iResearch Inc. 2022.4 iResearch Inc. 云原生数据湖云原生部署是数据湖未来的必然形态近年来,在数字经济的背景下,互联网行业及传统企业加速云化转型,中国整体云服务市场的规模逐年扩增,云成为新一代IT基础设施已经成为不争的事实。其中,企业云化转型的深入以及用云思维的转变,驱动了PaaS市场份额的增长,基于云的能力创新已成为基础云发展新的增长引擎。云特有的“池化、弹性、成本、敏捷

9、”等优势让数据层与应用层的很多设想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。来源:艾瑞2021年中国基础云服务行业发展洞察,艾瑞咨询研究院自主研究及绘制。来源:艾瑞2021年中国基础云服务行业发展洞察,艾瑞咨询研究院自主研究及绘制。2015-2024年中国整体IaaS和PaaS市场规模及增速2015-2024年中国整体云服务市场规模及增速3945222256324546906598928632.1%33.2%48.1%57.1%39.9%43.8%44.5%40.7% 40.7%2001820192020 2021e 2022e 2023e

10、 2024e整体云服务市场规模(亿元)整体云服务市场增速(%)24088442035527547724056.3%31.7%50.6%70.4%50.7%39.4%45.0%26.8%31.5%32.6%47.2%38.1%27.0%47.8%49.0%51.5% 49.8%49.6%2001820192020 2021e 2022e 2023e 2024eIaaS市场规模(亿元)PaaS市场规模(亿元)IaaS市场增速(%)PaaS市场增速(%)72022.4 iResearch I

11、nc. 云原生数据湖核心价值一:数据资产集中存储、统一管理,建立高质量的数据资产随着数字转型化进入深水区,“数据”已经成为企业的核心生产要素,打通各部门、各应用系统,建立企业级的统一数据资产已经成为业内的共识。基于云上的集中存储和数据湖,企业可以更丝滑地实现数据多源聚合,对内外部数据进行全生命周期的管理,从而沉淀为数据资产,赋能业务应用,释放数据价值。同时,基于云原生数据湖部署的云原生应用天然可以实现数据的无界流动,数用一体为企业打造了高效的价值闭环。来源:艾瑞咨询研究院自主研究及绘制。基于云原生数据湖的统一资产建设集中存储、统一管理n 数据质量n 数据交换n 数据安全n 数据计算n 数据打通

12、n 数据存储数据库传输、日志、IoT源接入等数据转换、逆向解析、目录管理等异构数据转换、OCR、NLP等安全密钥、权限管理、监控预警等统一调度、数据共享、API接口等海量数据、冷热分层、多种访问方式等价值闭环数据资产云原生应用数据沉淀业务赋能结构化数据半结构化数据非结构化数据ERPCRMWebEmailMediaIoT82022.4 iResearch Inc. 云原生数据湖核心价值二:低成本通过云的方式,更低成本地使用存储和计算资源云原生数据湖是基于云环境构建的低成本大数据解决方案。于存储上,云原生数据湖使用对象存储,实现了无限扩容(理论上)和更低的价格,同时云上统一存储也简化了之后数据调用

13、的复杂度;于计算上,云原生数据湖采用计算存储分离的架构,让计算节点和存储节点可以分别弹性伸缩,避免了存算需求不同造成的浪费;于用云策略上,云原生数据湖通过Serverless的模式,根据请求量自动进行毫秒级的弹性扩容,解决波峰资源短缺、波谷资源浪费的问题,实现最小单元的成本最优。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖成本优化剖析存储成本OSS计算成本计算存储分离用云成本Serverless资源浪费资源短缺预留实际现阶段定时等云资源调用机制具有一定的滞后性,为了保证高可用,企业往往选择采取冗余的伸缩策略,这造成用云成本的上升。Serverless模式下,资源消耗随着应用程序的需求(请求

14、数量)变化自动扩展或缩减,计费精确到毫秒级,大大降低了企业数据湖用云成本高企的问题。块存储文件存储对象存储随着移动互联网、产业互联网、5G的发展,个人端和企业端产生的数据量爆发增长。在早期大数据分析的架构下,计算资源和存储资源是紧耦合的,只能同步扩容,这造成了计算资源的过剩。存算分离后,计算节点和存储节点都可以按需弹性扩容,大大降低了计算的成本。不同于直接操作物理磁盘的块存储,或基于文件路径访问的文件存储,对象存储通过唯一标识符(Key)映射寻址,存取都非常灵活和简单。这种方法对在云计算环境中自动化和简化数据存储都大有裨益,体现在用户侧即表现为理论上无限的扩容可能性和更低廉的存储成本。计算存储

15、分离计算存储计算存储耦合92022.4 iResearch Inc. 云原生数据湖核心价值三:高性能云湖共生,带来大数据应用的高性能体验数据湖“统一简单、松耦合弹性、敏捷探索”的设计思路与云计算天然契合,当数据湖以云原生的方式部署时,其强大的性能优势可以被最大化释放。一方面,数据湖上云后可以享受云本身带来的性能提升,如高可用、弹性、敏捷等;另一方面,数据湖在云原生的环境中可以做更多性能优化的工作,如丰富的上下文带来的分析加速,流批融合带来的实时数据价值释放,一站式数据管理方案带来的安全和质量改善等。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖性能优化剖析云计算具备动态扩充性与可负担性,可以

16、解决海量业务带来的吞吐和IO性能瓶颈,满足大数据分析所需资源的庞大规模与突发性质的需求。弹性高可用敏捷多范式加速安全相较自建IDC,云环境拥有更多的资源冗余,一节点发生故障能无缝切换到其他节点,从而对企业侧体现为高可用,确保了业务的连续性。云让企业得以从重复、复杂的底层IT工作中释放出来,同时其模块化、松耦合的敏捷架构有利于数据产品的快速迭代、部署、运维和创新。01On Cloud 本身带来的性能提升02In Cloud 更进一步地性能优化云原生数据湖基于云环境统一了企业数据资产和多范式计算引擎,从而可以支持企业对任何数据类型执行任何分析。同时其可扩展的架构也为企业使用AI进行探索做好了准备。

17、一方面,云原生数据湖提供了比以往更丰富的上下文,有助于加速分析实验;另一方面,它统一了流式处理和批式处理,可以为企业提供更实时的数据价值体验。云原生数据湖提供了简单、强大的数据管理解决方案,以全保真的方式存储任何类型或数量的数据,有助于企业加强安全和治理。102022.4 iResearch Inc. 云原生数据湖核心价值四:敏捷创新重塑IT部门定位与价值,赋能业务应用敏捷创新云服务重塑了IT产业的分工和企业IT部门工作的内容和方式,企业IT部门越来越少地关注复杂的底层技术,转而向应用创新聚焦,充分释放其业务赋能价值。通过统一对象存储、多引擎兼容、数据智能管理,云原生数据湖基于云的环境进一步释

18、放了企业IT的生产力。IT部门无需再关注基础资源和数据层的大多问题,如存储扩容、计算优化等,可以将更多的精力放在业务支持、应用创新上,实现真正的数据驱动企业发展。来源:艾瑞咨询研究院自主研究及绘制。企业IT部门定位变化成本价值IT时代职能中心DT时代创新中心成本导向价值导向存储层基于云原生对象存储的方式,企业无需担心数据增长带来的扩容问题,无需关注数据存放的物理位置,只需要将云当作是一个无限扩展、简单存取、弹性伸缩的“网盘”即可。计算层在云原生的环境下,企业可以在统一的控制台上简单地(写SQL一种语言即可)进行多范式计算,根据业务需求和数据属性自动/半自动地选择适合的计算引擎,无需IT部门再花

19、费额外的学习成本去进行计算优化。应用层将云原生数据湖作为企业大数据的解决方案,可以更进一步地屏蔽底层的复杂性,聚焦于业务服务。基于弹性的IT基础资源和柔性的数据资产,IT可以更敏捷地进行应用创新。云计算的发展加速了IT部门定位的变化,企业对其的诉求更多地由成本转向价值支持,IT部门正在由职能中心向创新中心过渡。云原生数据湖的应用创新价值11云原生数据湖概念界定1云原生数据湖市场现状2云原生数据湖竞争分析3云原生数据湖行业应用与最佳实践4云原生数据湖选型建议与典型企业5云原生数据湖发展趋势6122022.4 iResearch Inc. 大数据技术数据湖发展历程产品随市场需求不断演进,国内数据湖

20、尚处于发展初期中国数据湖技术正在逐年发展及突破,公有云厂商及其他行业厂商纷纷在做尝试。但目前在数据感知收集及归类清洗方面存在壁垒和难度,数据湖建模经验不足,因此我国数据湖市场整体发展处于初期阶段,未来发展空间广阔。来源:公开资料,专家访谈,艾瑞咨询研究院自主研究及绘制。数据库时代1960s2000s20世纪60年代,计算机开始广泛地应用于数据管理,能够统一管理和共享数据的数据库管理系统(DBMS)诞生。20世纪90年代,为满足企业数据分析的诉求,数据仓库诞生。2000s2010s:互联网蓬勃发展,数据量爆发式增长,数据库/数仓难以承载海量数据,大数据时代开启;以Hadoop(开源)、Googl

21、e、MicrosoftCosmos 为代表的分布式技术体系诞生,奠基了大数据时代的基本技术框架。2010s2020s:数据仓库不断演进,在性能、成本、数据管理能力等方面不断优化,Google BigQuery、Snowflake等优秀产品面市;以开源 Hadoop 体系为代表的开放式 HDFS 存储、开放的文件格式、开放的元数据服务以及多种引擎(Presto、Spark、Flink 等)协同工作的模式,形成了数据湖的雏形。大数据技术的探索期2020s:大数据技术逐步渗透到下游各行业,人们对大数据产品提出了成本、安全、稳定性等更加全面的企业级生产的要求;云上纯托管的存储系统逐步取代HDFS,引擎

22、丰富度也不断扩展,数据湖开始走向“云湖共生”阶段;数据仓库和数据湖在云的体系下得以打通,湖仓一体的解决方案在业界开始应用。阿里云推出业内首个云原生企业级数据湖解决方案IBM推出面向数据湖的新一代存储解决方案百度云推出百度数据湖管理与分析平台EasyDAP华为云推出数据湖治理中心DGC,将原FusionInsight HD与MRS结合,全面升级到FusionInsight MRS云原生架构2020年阿里云定义了数据湖3.0,为用户提供以OSS为中心,多种元数据统一管理,并结合云原生进一步实现实时化、AI化、生态化的综合性解决方案。腾讯云首次对外展示完整的云端数据湖产品图谱,并推出数据湖计算DLC

23、和数据湖构建DLF产品2021年中国云原生数据湖行业发展历程亚马逊云科技推出Lake Formation2018年基于数据湖战略,EMC推出三款新的Isilon软件产品Isilon SD Edge、第8代Isilon操作系统和Isilon CloudPools2016年亚马逊云科技宣布LakeFormation全面上市青 云 QingCloud 联 合HashData发布基于云模式构建的数据湖解决方案2019年大数据技术的发展期大数据技术的普及期132022.4 iResearch Inc. 政策法律法规不断落地,推动大数据产业走向成熟2015年出台的促进大数据发展行动纲要呈现“一体两翼一尾”

24、的格局,首次将大数据发展提升至国家战略层面,奠定了大数据未来发展的总体基调。2021年5月印发的全国一体化大数据中心协同创新体系算力枢纽实施方案提出加快建设全国一体化大数据中心算力枢纽体系,同时加强对基础网络、数据中心、云平台、数据和应用的一体化安全保障,提高大数据安全可靠水平。近五年间,国家出台多条产业政策及法规,不仅从方针上引领大数据产业高效、合规发展,同时也将该产业布局至政务、金融、工业、医疗、旅游服务、气象管理等多个细分领域。来源:中国政务网国务院政策文件库,艾瑞咨询研究院自主研究及绘制。2015年-2021年中国大数据重点法律法规和产业政策脉络总基调大数据产业发展规划(2016202

25、0年):制定5-10年内大数据发展目标,将大数据发展上升至国家战略层面生态环境大数据建设总体方案;首次提出发展生态大数据,建立一个机制、两套体系、三个平台关于印发推进普惠金融发展规划(2016-2020)的通知:鼓励金融机构运用大数据、云计算等新兴信息技术,打造互联网金融服务平台。医疗大数据-提出建设人体健康信息平台,促进医疗大数据开放共享大数据产业发展规划(20162020年);推进大数据技术产品创新发展,加强大数据在重点行业领域的深入应用,构建强有力的大数据安全保障体系气象数据管理办法;关于深化“互联网+旅游”推动旅游业高质量发展的意见深入建设工业大数据平台关于加快推进国有企业数字化转型工

26、作的通知:强化数据驱动、集成创新;建设大数据平台全国一体化大数据中心协同创新体系算力枢纽实施方案;推进大规模数据的“云端”分析处理,重点支持对海量规模数据的集中处理。国家信息化发展战略纲要:优化数据中心布局,加强大数据、云计算、宽带网络协同发展科学数据管理办法关于加强互联网信息服务算法综合治理的指导意见;鼓励广大网民积极参与算法安全治理工作关于加快推进交通旅游服务大数据应用试点工作的通知子赛道2015.8 2016.1 2016.3 2016.6 2016.7 2017.1 2017.11 2018.3 2020.9 2020.10 2021.5 2021.9142022.4 iResearc

27、h Inc. 5.0 4.2 6.4 18.4 57.1 66.6 106.4 123.2 348.2 135.1 294.1 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021投资金额(亿元)21301602011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021投资事件数(件)投融资资本市场活跃,数据湖商业价值逐步凸显据统计,近年来数据服务行业投融资事件数和金额整体呈上升趋势,并在2019年达到了巅峰,投资金额超过了300亿元人民币。202

28、0年,受到疫情等外部因素的影响,投融资事件数和金额数均有所下降。但随着国内疫情的稳定和经济的回暖,2021年,数据服务行业的投融资再次展现出上升的态势。放眼全球云原生数据湖市场,初创数据湖厂商Databricks、Upsolver等都获得了上亿美元的融资。该领域的资本市场活跃,数据湖的商业价值逐渐凸显。来源:IT桔子,Crunchbase,艾瑞咨询研究院自主研究及绘制。2011-2021年中国数据服务行业投资情况及美国云原生数据湖融资事件DatabricksC轮D轮E轮F轮G轮H轮Upsolver种子轮A轮B轮截至2021.9,完成七轮融资共计34.97亿美元截至2021.4,完成四轮(两轮次

29、种子轮)融资共计4.2千万美元DatabricksUpsolverB轮A轮152022.4 iResearch Inc. 中国云原生数据湖市场规模2020年规模达124亿,预计未来三年维持39.7%的快速增长据艾瑞统计,中国云原生数据湖2020年整体规模达124.8亿元。目前行业正处于初期发展阶段,由于国家政策利好、互联网技术高速发展的驱动、企业数字化转型加速等因素,预计中国云原生数据湖市场未来三年会以39.7%的复合增长率快速发展。2018-2023年中国云原生数据湖市场规模及增速注释:云原生数据湖市场规模不含生态统计口径为2020自然年全年各厂商在中国内地(不含港澳台)销售云原生数据湖解决

30、方案的营业收入,合同签署地点和交付地点都位于中国内地区域。不包含云原生数据湖组件(包括存储、计算、管理及调度层)发生于其他解决方案(例:数据仓库)的营收,不包含云原生数据湖生态支持厂商部分。注释:云原生数据湖市场规模含生态统计口径为注释1中包含云原生数据湖组件(包括存储、计算、管理及调度层)发生于其他解决方案(例:数据仓库)的营收,且包含云原生数据湖生态支持厂商部分。来源:艾瑞长期基础云服务数据监测,结合公开资料、专家访谈,根据数据测算模型,自主研究及绘制。15 26 44 76 124 196 76.8%69.4%74.8%61.9%58.2%20021e2022e20

31、23e云原生数据湖市场规模不含生态(亿元)增长率(%)63 89 125 179 252 350 40.8%40.0%43.7%40.7%38.7%20021e2022e2023e云原生数据湖市场规模含生态(亿元)增长率(%)CAGR=73.1%CAGR=40.4%CAGR=39.7%CAGR=60%162022.4 iResearch Inc. 增长机遇数据变革与企业数字化转型加速云原生数据湖的应用IoT、移动互联网和5G的发展,带动数据量爆发,如何从数据海啸中挖掘数据价值成了企业亟待解决的难题。在此背景下,企业亟需新的大数据架构来处理数据,这为数据湖市场发展带来契机。

32、互联网的发展加速了时代数字化发展,同时也深刻地改变了企业的业务模式。以“敏捷、创新、数据驱动”为导向的数字化转型需要新的生产力工具来打破数据孤岛、沉淀数据资产、完成数据价值反哺企业。云原生数据湖的各部分组件为数字化转型的每一阶段提供技术支持,完成 “数”与“智”的融合。来源:艾瑞咨询研究院自主研究及绘制。数字化转型云原生数据湖数字化数据采集数据传输数据存储数据计算数据应用信息链接资产形成信息反馈决策赋能接入层迁移上云灵活平滑,使企业轻松实现数据多源聚合。计算层多范式计算,支持实时分析及交互式分析,更有效形成及管理数据资产。应用层统一调用元数据,通过BI、数据大屏、AI、机器学习等多种落地场景为

33、决策赋能。打通软硬件之间、企业各部门间的数据壁垒。将各种来源、不同格式的数据进行统一存储,初步形成数据资产。将原始数据资产根据使用者需求进行整合、调度、模拟,输出可读的形式。将可读数据进一步计算分析,提取数据价值,展示规律,应用于商业决策。存储层支持多源异构数据的存储,并提供数据“冷热分离”存储,沉淀数据以形成资产。云原生数据湖为企业数字化转型各环节提供技术支持数智结合,实现闭环半结构化数据暴增,为企业更好地利用数据价值、赋能业务提出了更高要求。传统大数据架构已无法满足海量多源异构数据处理需求,取而代之的将是更能顺应互联网时代的云原生数据湖解决方案。数据业务生态闭环172022.4 iRese

34、arch Inc. 痛点改进在数据治理、全链路、安全等方面仍待持续改进从应用现状来看,数据湖在国内的落地还存在许多痛点。产品层面,数据湖的数据治理能力和全链路能力仍需进一步的加强,客户方更亟需智能化、一站式的解决方案;应用层面,云原生数据湖的行业认知和人才培养较为单薄,仍待市场的进一步培育。另外,近期安全隐私法律法规不断落地,企业主对云原生数据湖的安全监管也提出了更高的要求。来源:公开资料,专家访谈,艾瑞咨询研究院自主研究及绘制。安全监管随着企业数字化进入深水区,“数据”已经成为市场和企业的核心生产要素。数据湖的最大风险之一就是安全性和访问控制。大量数据可以在没有任何监督的情况下流入湖泊,一旦

35、某些数据包含其他数据所没有的隐私和法规要求,将会有一定几率发生数据泄露或者遗失,后果不可估量。行业认知尽管数据的价值属性已经获得业界的广泛共识,但是选择观望的企业依旧占据大多数,数据湖在认知和推广上仍然面临着多方面的挑战。数据治理数据治理要求在目录中包含数据的分类、规则,若企业对于数据湖的掌控能力不足,会导致数据湖目录及整体构架设计不良、湖内数据未得到充分归档或维护,容易形成数据沼泽。因缺少上下文元数据关联,数据沼泽就无法进行数据检索,致使用户无法有效分析和利用数据。全链路能力现阶段国内可以提供全链路云原生数据湖服务的供应商较少,大多厂商仅提供数据湖组件的支持,因此下游需求企业只能采购多家供应

36、商来满足自身从数据采集治理到分析可视化的需求。尤其是技术水平较弱的企业更为希望厂商可以提供全面的服务。人才缺失目前大数据、AI技术栈创新日新月异,企业缺乏专业人才。从企业内部来看,管理者对数据治理一知半解,若在没有深入梳理企业业务现状及需求的情况下盲目搭建数据湖、追求“大而全”的概念,可能导致数据湖落地效果不佳。云原生数据湖应用的集中痛点18云原生数据湖概念界定1云原生数据湖市场现状2云原生数据湖竞争分析3云原生数据湖行业应用与最佳实践4云原生数据湖选型建议与典型企业5云原生数据湖发展趋势6192022.4 iResearch Inc. 产业图谱公有云厂商+生态厂商的市场格局初现注释:此页主要

37、表现云原生数据湖及其生态的布局情况,仅展示部分典型企业,图谱中所展示的公司logo顺序及大小并无实际意义。来源:艾瑞咨询研究院自主研究及绘制。中国云原生数据湖产业图谱数据湖综合解决方案厂商云厂商大数据厂商其他厂商数据湖生态厂商及开源项目(部分)应用管理计算存储(包括部分开源项目)202022.4 iResearch Inc. 竞争格局整体来看,中国云原生数据湖还处于发展的早期,能够提供整体解决方案的独立厂商还较少,市场较为集中,竞争主要围绕头部云厂商展开。以营收为核算口径,2020年云厂商在中国云原生数据湖市场(不包含生态支持部分)的份额达到了82.4%。一方面,于先发优势上,云计算具有弹性算

38、力支持、数据聚合的特性,与数据湖思路天然契合;另一方面,于布局实践上,“春江水暖鸭先知”,出于服务自身或互联网客户的动因,云厂商率先基于云原生进行了能力的整合,在对象存储、多范式计算、大数据管理等云原生数据湖核心技术上都更为成熟。注释:独立厂商包括大数据厂商、软件厂商、以及其他提供云数据湖服务的IT厂商。注释:此市占率统计口径为2020自然年全年各厂商在中国内地(不含港澳台)销售云原生数据湖解决方案的营业收入,合同签署地点和交付地点都位于中国内地区域。注释:此市占率统计口径不包含云原生数据湖组件发生于其他解决方案(例:数据仓库)的营收,不包含云原生数据湖生态支持厂商部分。来源:艾瑞长期基础云服

39、务数据监测,结合公开资料、专家访谈,根据数据测算模型,自主研究及绘制。2020年中国云原生数据湖市场(不含生态部分)竞争格局先发优势,云厂商市占率达82.4%2.轻量与专注与云厂商从云出发到数据服务的视角不同,独立厂商大多从数据服务出发,业务更加轻量与专注。由于数据湖较其他大数据产品更强调“海量异构数据统一存储、多源数据统一管理、多计算引擎统一调用”的能力,故而对于第三方独立厂商而言,解决“海量存储、计算优化、生态建设”的成本都会更高,市场进入的难度也更大。1.多云、混合云管理能力独立厂商具有第三方中立性,可以支持多云部署管理,解决企业供应商绑定的后顾之忧。云厂商独立厂商1.基础资源支持云基础

40、资源池化、存算分离的特性,可以最大程度上弹性、低成本地支持数据湖的各种工作。国内市场环境复杂多变,在行业应用、客户服务等领域,云厂商还需要更多的生态厂商的补足。3.能力统一调度在云原生的环境下,企业可以以统一视角,更优雅地调用多种计算引擎。2.数据聚合优势基于云的形式,企业可以更丝滑地实现各系统相通,解决数据孤岛问题。82.4%17.6%212022.4 iResearch Inc. 竞争要素剖析技术+解决方案+应用构成云原生数据湖的核心竞争力云原生数据湖是一套完整的云上大数据解决方案,可以服务企业的多种数据诉求,其竞争要素可以归类为技术、解决方案、应用三层。在技术层,云原生数据湖需要具备稳定

41、、高性价比的存储服务、多引擎兼容的计算优化服务以及全生命周期的智能化数据管理服务;在解决方案层,厂商需要贴近业务,面向特定场景和特定行业提供丰富、可落地的架构方案;在应用层,厂商需要通过生态或自建等方式提供更多的应用服务,不断扩大自己的服务半径,向终端客户展示更全面的能力。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖竞争分析框架解决方案应用技术自身应用支持生态体系建设从终端客户视角来看,数据湖是服务业务的综合大数据解决方案。故而落到实际实践中,还需要丰富多样的应用支持到业务侧。供应商应用层的竞争力主要体现在自身应用的丰富度以及生态体系建设的完整度,自己+合作伙伴共同构成了客户服务的能力半径

42、。行业解决方案场景解决方案除了存储、计算、管理等核心技术外,作为面向市场的解决方案,数据湖还具有产品属性,需要通过一定的架构将各种组件组织起来,从而为用户提供可用、易用的平台。具体维度包括面向特定场景(推荐、查询、实时分析等)和特定行业(游戏、金融等)的解决方案。存储管理计算透析数据湖产品,其核心技术主要包括存储、计算和管理三个维度:管理指对湖内数据的全生命周期管理,具体包括一键入湖、元数据管理、数据血缘、权限分级、质量控制等;计算指对多范式计算引擎的统一管理、智能调用、性能优化、智能化、开源兼容、成本优化等;存储指以OSS为中心的,稳定、安全、弹性、高性价比的存储服务。222022.4 iR

43、esearch Inc. 竞争要素一:技术统一可靠存储+多元弹性计算+一站式智能管理剖析云原生数据湖的核心技术,主要从存储、计算和管理三个维度去评估市面上的厂商。除了大数据产品通用的性能、可用性、安全及成本外,云原生数据湖还需要关注一些特定的竞争要素,如:存储层需要做前置的扩展性、性能和成本优化,以屏蔽硬件复杂性,支持多范式计算和大数据环境;计算层需要做多计算引擎优化和智能驾驶舱来简化企业使用流程;管理层需要支持多源湖外数据兼容和湖内数据全生命周期的一站式管理。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖核心技术计算多元融合简单智能成本优化管理兼容一站式安全存储稳定扩展简单高效性价比稳定:

44、具备成熟的物理冗余、传输校验、角色权限、安全加密方案,确保存储的最终稳定性。扩展:数据湖承载的数据量每天都在持续增长,需要可以按容量灵活扩展的存储系统进行支持。简单:面对应用对持久性、可用性和延迟的多样化要求,以及物理硬件复杂性,需要从存储层就着手进行优化,减少处理硬件资源复杂性的相关难题,使各应用程序都可以轻松获取和使用所需存储。高效:面对海量数据,需要智能的冷热分层策略实现资源的均衡配置,提高服务效率、降低延迟。性价比:海量数据带来对存储资源的大量需求,需要配置以相应的成本优化方案。多元融合:可以兼容多种开源/商业计算引擎,满足企业数据处理的多种诉求,且进行了优化工作,使得多范式计算对客户

45、侧表现为统一和简单。简单智能:通过AI和Serverless,实现自动预配和管理计算资源,智能弹性伸缩工作负载以最大化资源利用率,简化运营运维工作,让团队可以专注于编程,不必管理服务器集群。成本优化:资源自动伸缩叠加费用优化的批流引擎调用处理方案,让数据湖可以更为灵活地处理请求,在保证结果满意的前提下实现成本最优。兼容:提供足够强大、丰富、高效(no-code)的连接器和转换工具,支持更多数据源的接入,支持更多种类的数据转换,满足各种场景诉求。一站式:具备入湖、元数据、权限、血缘、质量、探索等数据湖所需的完备功能,提供一站式服务。安全:支持数据任务看板、作业进度统计、日志审计、资源消耗统计、数

46、据全链路展示、数字字典回溯追踪等功能,确保数据全生命周期的安全。232022.4 iResearch Inc. 竞争要素二:解决方案多场景挖掘+行业贴身服务从市场现状来看,云原生数据湖并不是一个标准化的产品,而是一套松耦合、多模块、服务化的解决方案,在具体应用中还需要根据企业具体需求,进行组件调整和架构设计。因而,客户在选型采购时,除了关注厂商的技术实力,还会关注其解决方案的成熟度。具体评估维度包括2个方面: 厂商对数据湖典型适用场景的提取能力和方法论总结,这可以帮助项目更快速地实施; 厂商对具体行业业务的理解以及相应的实施思路,这可以帮助企业切实解决其痛点。来源:艾瑞咨询研究院自主研究及绘制

47、。云原生数据湖典型解决方案社交游戏汽车海量数据交互式查询企业级大数据治理机器学习与AI探索场景维度行业维度在一些业务环节,如广告投放、用户运营、周报/月报等,需要对来自各个渠道的实时数据和历史数据进行交互式查询分析。云原生数据湖架构下,企业能够调用分布式的查询引擎,更加灵活、快速、准确的进行查询分析,支持业务决策。随着互联网的发展,企业内部积累了大量的数据,数据存储的成本愈发高昂,但数据价值却难以被全部释放。数据湖冷热分层的存储方案可以帮助企业将数据低成本的“存下来”,统一管理的架构让数据可以随时“用的到”,多种计算引擎兼容让数据可以“用的好”。在风控、推荐、预测等场景,往往会需要机器学习加以

48、支持。然而机器学习与AI探索会消耗GPU等大量的算力资源。云原生数据湖Serverless按需付费、自动扩容的方案降低了企业进行机器学习的TCO;同时schema后置的架构也让未知探索变得更加灵活。基于移动互联网的社交平台近年来快速发展,短视频、直播、图片、资讯等构成了其服务的内容,大量非结构化数据的审核处理、实时分析、精准推荐为其带来挑战与机遇。云原生数据湖冷热分层存储、上下文关联分析、实时推荐的功能大幅提升了其内容创新和用户运营的效果,并降低了成本。5G、云、社会娱乐方式、出海等因素共同驱动了游戏产业的快速发展。游戏大数据需要更智能、灵活、低成本的数据湖解决方案来进行实时动态监测、用户画像

49、和运营分析,从而降低获客成本、改善游戏体验、留存现有玩家、提升付费转换率。汽车正在成为未来生活的第三空间,车联网产业进入快车道,新型应用蓬勃发展,产业规模不断扩大 。云原生数据湖可以实时地接收和存储车联网PBEB级的数据,以低成本的方式进行资源调度,支持自动驾驶、智能交通等业务需求。242022.4 iResearch Inc. 竞争要素三:应用自研深耕+生态补充就当今市场环境来看,大多厂商和企业都把数据湖定位为数据基座,但就实际使用来说,基座还需要配合具体的应用,才能真正地赋能业务。出于发展初期或产业分工的原因,现在云原生数据湖综合解决方案厂商还不具备提供完备应用服务的能力。且由于市场环境复

50、杂,企业需求多变,在未来一段时间内,也很难有“一应俱全”的厂商出现。故而,除了关注客户需求,不断自研深耕外,厂商还需要通过生态建设,补足自己的服务半径,增强企业服务的竞争力。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖厂商的服务半径服务半径A自身能力B生态能力C客户视角下厂商的能力C客户视角下厂商的能力MaxMaxA自身能力B生态能力Max对于终端客户来说,其关注的重点往往在于供应商最后提供的应用服务,而非其服务内容背后的关系分配。无论厂商是通过传统招兵买马的方式,还是借助开源社区力量,或者发展生态合作体系,在客户视角下,它们都共同包含在厂商的服务能力半径内。关注客户诉求,持续研发迭代:无

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(中国云原生数据湖应用洞察白皮书(47页).pdf)为本站 (奶茶不加糖) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

 153**10... 升级为至尊VIP    wei**n_... 升级为高级VIP

微**... 升级为标准VIP     wei**n_... 升级为标准VIP

 157**73... 升级为高级VIP   art**r1... 升级为标准VIP

wei**n_... 升级为高级VIP   139**23... 升级为标准VIP

wei**n_...  升级为至尊VIP  wei**n_... 升级为至尊VIP

wei**n_...  升级为高级VIP   七** 升级为高级VIP

134**20... 升级为标准VIP  wei**n_...  升级为至尊VIP 

bai**in... 升级为至尊VIP  wei**n_... 升级为标准VIP

 wei**n_... 升级为至尊VIP ray**19...  升级为高级VIP

136**33...  升级为高级VIP   wei**n_... 升级为至尊VIP

wei**n_... 升级为至尊VIP  网**... 升级为高级VIP 

梦**... 升级为至尊VIP  wei**n_...  升级为至尊VIP

 wei**n_... 升级为标准VIP   181**18... 升级为至尊VIP

136**69...  升级为标准VIP  158**27... 升级为至尊VIP 

 wei**n_... 升级为至尊VIP wei**n_...  升级为至尊VIP 

 153**39... 升级为至尊VIP 152**23... 升级为高级VIP 

 152**23...  升级为标准VIP wei**n_...  升级为标准VIP

 姚哥 升级为至尊VIP 微**...  升级为标准VIP

182**73... 升级为高级VIP  wei**n_...   升级为标准VIP

 138**94... 升级为标准VIP   wei**n_... 升级为至尊VIP 

  A**o 升级为至尊VIP  134**12...  升级为标准VIP

wei**n_...  升级为标准VIP wei**n_... 升级为标准VIP  

 158**01... 升级为高级VIP   wei**n_... 升级为标准VIP

 133**84...  升级为高级VIP  wei**n_... 升级为标准VIP

周斌 升级为高级VIP  wei**n_...  升级为至尊VIP

182**06...  升级为高级VIP 139**04... 升级为至尊VIP 

wei**n_...   升级为至尊VIP  Ke**in 升级为高级VIP

 186**28... 升级为至尊VIP   139**96... 升级为高级VIP

she**nz...  升级为至尊VIP  wei**n_...  升级为高级VIP

wei**n_...  升级为高级VIP wei**n_...  升级为标准VIP

 137**19...  升级为至尊VIP 419**13...  升级为标准VIP 

 183**33... 升级为至尊VIP 189**41... 升级为至尊VIP 

张友 升级为标准VIP    奈**...  升级为标准VIP

 186**99... 升级为至尊VIP  187**37...  升级为高级VIP

 135**15... 升级为高级VIP   朱炜 升级为至尊VIP

ja**r 升级为至尊VIP   wei**n_...  升级为高级VIP

wei**n_...  升级为高级VIP 崔** 升级为至尊VIP 

187**09...  升级为标准VIP 189**42... 升级为至尊VIP

 wei**n_... 升级为高级VIP  妙察 升级为标准VIP 

wei**n_... 升级为至尊VIP  137**24...  升级为高级VIP

185**85...  升级为标准VIP  wei**n_...   升级为高级VIP

 136**40... 升级为标准VIP  156**86...  升级为至尊VIP

 186**28... 升级为标准VIP  135**35... 升级为标准VIP 

156**86...  升级为高级VIP wei**n_... 升级为至尊VIP

wei**n_... 升级为高级VIP wei**n_...  升级为标准VIP

  wei**n_... 升级为标准VIP wei**n_...  升级为高级VIP

 138**87... 升级为高级VIP  185**51... 升级为至尊VIP 

微**... 升级为至尊VIP    136**44... 升级为至尊VIP

183**89...  升级为标准VIP  wei**n_... 升级为至尊VIP

8**的... 升级为至尊VIP   Goo**ar... 升级为至尊VIP