上海品茶

您的当前位置:上海品茶 > 报告分类 > PDF报告下载

计世资讯:2020~2021年中国数据湖市场现状与发展趋势研究报告(53页).pdf

编号:77406 PDF  DOCX  53页 2.04MB 下载积分:VIP专享
下载报告请您先登录!

计世资讯:2020~2021年中国数据湖市场现状与发展趋势研究报告(53页).pdf

1、20202021 年中国数据湖市场现状与发展趋势研究报告年中国数据湖市场现状与发展趋势研究报告2021 年年 08 月月20202021 年中国数据湖市场现状与发展趋势研究报告2版权申明版权申明本报告是北京赛昇计世资讯科技有限公司的调研与研究成果。本报告内所有数据、观点、结论的版权均属北京赛昇计世资讯科技有限公司拥有。未经北京赛昇计世资讯科技有限公司的明确书面许可,任何人不得以全文或部分形式(包含纸制、电子等)引用、复制和传播。不可断章取义或增删、曲解本报告内容。本报告所涉及的数据来源于业内厂商、系统集成商、渠道以及客户和市场公开数据,采用深度访问、抽样调查等统计方法。由于统计方法本身的局限性

2、,报告数据与市场真实存在统计误差。由于使用四舍五入等原因,本报告中的数据不能确保百分百精确。北京赛昇计世资讯科技有限公司对其独立研究或与其他机构共同合作的所有研究数据、研究技术方法、研究模型、研究结论及衍生服务产品拥有全部知识产权,任何人不得侵害和擅自使用。本报告及衍生产品最终解释权归北京赛昇计世资讯科技有限公司所有。20202021 年中国数据湖市场现状与发展趋势研究报告3目录目录第一章第一章 2020-2021 年数据湖产品市场发展概述年数据湖产品市场发展概述.91、数据湖的定义.92、市场发展环境分析.92.1 政策环境. 92.2 经济环境. 92.3 社会环境. 102.4 技术环境

3、. 103、数据湖产品市场发展现状.103.1 应用领域:营销业务功能市场占比最大,运营业务功能市场增速最快.103.2 典型用户:大型企业. 113.3 行业属性:互联网、金融等行业对数据湖有更多的市场需求.113.4 方案选择:开源解决方案与商用解决方案各具一定优势.124、数据湖建设中的挑战.124.1 数据来源识别的挑战.124.2 元数据管理的挑战.124.3 数据质量管理的挑战.124.4 安全管控的挑战. 134.5 多部门数据协同的挑战.13第二章 数据湖产品市场发展分析第二章 数据湖产品市场发展分析.141、2018-2020 年数据湖产品市场规模.142、2020 年数据湖

4、产品市场构成.152.1 2020 年数据湖产品行业结构.152.2 2020 年数据湖产品厂商份额.1520202021 年中国数据湖市场现状与发展趋势研究报告43、数据湖产品市场竞争力象限.16第三章第三章 2020-2021 年中国数据湖产品用户需求及案例分析年中国数据湖产品用户需求及案例分析.181. 用户需求.181.1 互联网及信息技术服务业.181.2 电信业. 181.3 金融业. 181.4 零售行业. 191.5 制造业. 191.6 医疗行业. 192、数据湖产品典型案例介绍.202.1 丰田互联基于亚马逊云科技智能湖仓架构建设车联网服务系统.202.2 新浪微博应用阿里

5、云“湖仓一体”构建混合云 AI 计算中台. 222.3 某银行使用华为云 FusionInsight 构建“一湖两平台”金融数据湖242.4 江苏沛县借助百度智能云 EasyDAP 开展政务大数据治理及数据资产编目工作. 262.5 威立雅(中国)借助青云云端数据湖产品构建大数据平台.27第四章 数据湖厂商及其主要产品分析第四章 数据湖厂商及其主要产品分析.301、主要厂商数据湖解决方案介绍.302、数据湖产品重点厂商介绍.322.1 亚马逊云科技. 322.2 阿里云. 342.3 华为云. 352.4 腾讯云. 372.5 百度智能云. 382.6 Azure.3920202021 年中国

6、数据湖市场现状与发展趋势研究报告52.7 青云. 41第五章第五章 2021-2025 年数据湖产品发展趋势分析年数据湖产品发展趋势分析.441、2021-2025 年数据湖产品市场规模预测.442、2021-2025 年数据湖产品发展趋势.44趋势一:亚马逊云科技的智能湖仓架构将作为现代数据架构标准.44趋势 2:未来数据湖方案将与业务深度融合与集成.45趋势 3:AI 能力将赋能越来越多的数据湖工具.45趋势 4:不同应用场景中,各类数据库、基础工具实现数据协同和流通.45趋势 5:数据湖在医疗行业的应用规模将增长最快.45趋势 6:数据湖安全将成为重点研究攻关方向.46附录 相关定义及研

7、究方法附录 相关定义及研究方法.471、相关定义.471.1 产品定义. 471.2 区域定义. 481.3 城市定义. 481.4 行业定义. 492、研究方法.522.1 调查方法. 522.2 分析方法. 5320202021 年中国数据湖市场现状与发展趋势研究报告6图表目录图表目录图表 12018-2020 年数据湖产品市场规模及增长率. 14图表 22020 年数据湖产品市场行业结构.15图表 32020 年数据湖厂商份额.16图表 42020 年数据湖产品市场竞争力分析.17图表 5基于亚马逊云科技的 Toyota Big Data Center China 架构示意图21图表 6

8、新浪微博湖仓一体架构图.23图表 7某银行大数据服务云平台架构.25图表 8数据湖解决方案对比分析.30图表 9亚马逊云科技数据分析组件.32图表 10阿里云原生企业级数据湖解决方案架构.35图表 11华为新一代全场景智能数据湖架构.36图表 12华为智能数据湖运营平台架构.37图表 13腾讯云数据湖业务架构.38图表 14百度智能云数据湖管理与分析平台架构.39图表 15Azure Data Lake Analysis 架构.40图表 16青云云端数据湖产品架构.42图表 172012-2025 年数据湖产品市场规模预测及增长. 4420202021 年中国数据湖市场现状与发展趋势研究报告7

9、主要观点和结论主要观点和结论目前市场上数据湖的部署模式以云部署为主目前市场上数据湖的部署模式以云部署为主数据湖具有本地部署和云部署两种模式,目前数据湖市场的大多数供应商大多提供基于云的数据湖解决方案,以实现利润最大化和设备维护过程的有效自动化。相对于传统文件存储来说,对象存储正成为数据湖的数字底座相对于传统文件存储来说,对象存储正成为数据湖的数字底座存储作为整个数据湖架构的核心要素,承载着企业近乎全部的数据资产。相对于传统文件存储来说,对象存储通过 S3 或 OSS 接口可无缝对接公有云,快速构建混合云基础架构,在云端与本地之间实现应用平滑迁移和数据自由流动,正成为数据湖的数字底座。数据湖的营

10、销业务功能市场占比最大,运营业务功能市场增速最快数据湖的营销业务功能市场占比最大,运营业务功能市场增速最快从业务功能来看,数据湖具有市场营销、销售、运营、金融和人力资源五大业务功能。目前数据湖在营销业务功能方面占据最大的市场规模,但未来在运营业务功能方面市场增长最快。互联网、金融等行业对数据湖有更多的市场需求互联网、金融等行业对数据湖有更多的市场需求互联网、金融等行业对数据湖产品有更多的市场需求。互联网行业是技术驱动行业,擅长利用技术手段去分析数据。金融行业是业务驱动行业,本身有大量的高价值数据用于分析,天然地希望以更多的纬度来快速分析数据,获得见解。2020 年数据湖产品市场规模达年数据湖产

11、品市场规模达 72.5 亿元人民币亿元人民币由于疫情带来远程办公、远程会议等应用场景增长,以及在线教育、跨境电商等行业用户爆发性增长带来数据量暴增。近三年,我国数据湖产品市场规模持续增长,2020 年数据湖产品市场规模达 72.5 亿元人民币,增速达 28.5%,我国数据湖产品市场正迎来快速增长期。数据湖应用的重要行业是互联网和信息技术服务、电信、金融和零售数据湖应用的重要行业是互联网和信息技术服务、电信、金融和零售计世资讯统计数据显示,数据湖产品在互联网和信息技术服务、20202021 年中国数据湖市场现状与发展趋势研究报告8电信、金融、零售领域市场规模总和在总市场中占比超过 6 成。亚马逊

12、云科技、阿里云、华为云是我国数据湖市场的重点厂商亚马逊云科技、阿里云、华为云是我国数据湖市场的重点厂商计世资讯统计数据显示,亚马逊云科技、阿里云、华为云是我国数据湖产品市场份额排名前三的厂商,三者合计占比接近 50%。数据湖产品市场中,亚马逊云科技、阿里云、华为云居市场领导者的位置,青云、数据湖产品市场中,亚马逊云科技、阿里云、华为云居市场领导者的位置,青云、IBM 居市场创新者位置居市场创新者位置通过对市场中各厂商进行系统的评估,我们能够看到亚马逊云科技、阿里云、华为云凭借出色的产品服务能力和市场以及战略能力位居市场领导者的位置。青云、IBM 等厂商在产品或服务领域中都有比较突出的创新点,在

13、部分领域或应用场景中引领产品技术发展趋势,处于市场创新者的位置。腾讯云、百度智能云在数据湖产品服务市场中占据了重要的市场位置,是市场有力的挑战者。未来五年,中国数据湖市场将以未来五年,中国数据湖市场将以 31.0%的复合增长率发展的复合增长率发展随着数字经济加速推动了各个行业的数字化进程, 以及 5G 商用所带来云计算、通信、大数据、人工智能等多项技术融合催生出更多的数据湖应用场景,预计未来五年,中国数据湖市场将以 31.0%的复合增长率发展,到 2025 年,该市场将达到 279.6 亿元数据湖将呈现五大发展趋势数据湖将呈现五大发展趋势计世资讯预测,以亚马逊云科技为代表的智能湖仓架构这种集成

14、多种解决方案和技术体系的数据湖架构将成为行业发展风向标,在满足客户高度可拓展数据湖存储服务以及快速安全的数据转移服务等需求的同时,可以有效压缩运营成本,也有利于对数据进行统一的监管。随着数据湖方案与业务深度融合与集成,未来会有越来越多的行业数据湖解决方案涌现出来,且数据湖在医疗行业的应用规模将增长最快。同时,随着 AI 技术的发展,AI 能力将赋能给越来越多的数据湖工具,且不同应用场景中,各类数据库、基础工具将实现数据协同和流通。数据湖的安全备受关注,数据湖安全将成为重点攻关研究方向。20202021 年中国数据湖市场现状与发展趋势研究报告9第一章第一章 2020-2021 年数据湖产品市场发

15、展概述年数据湖产品市场发展概述1、数据湖的定义、数据湖的定义数据湖(Data Lake)是指使用大型二进制对象或文件这样的自然格式存储数据的系统。数据湖通常把所有的企业数据统一存储,既包括源系统中的原始副本,也包括转换后的数据,例如用于数据可视化、数据分析和机器学习的数据。数据湖可以存储结构化数据、半结构化数据、非结构化数据和二进制数据等多种数据类型。2、市场发展环境分析、市场发展环境分析2.1 政策环境政策环境2020 年 4 月,国务院发布关于构建更加完善的要素市场化配置体制机制的意见,首次将数据确定为生产要素,凸显我国对于数据的重视程度。近年来,中央部委、各级地方政府陆续出台数字经济相关

16、政策,以推进数字经济与实体经济融合发展。2020 年 4 月 7 日,国家发展改革委、中央网信办印发关于推进“上云用数赋智”行动 培育新经济发展实施方案的通知。2020 年 3 月 18 日,工业和信息化部办公厅发布关于印发中小企业数字化赋能专项行动方案的通知。2020 年 3 月 6 日,工业和信息化部办公厅发布关于推动工业互联网加快发展的通知。这些数字经济相关政策的发布,加速了数据的汇聚。随着企业数字化转型进程不断加快,新型基础设施建设不断推进,我国数据量呈指数型增长。数据湖可以充分利用其保真、灵活、可拓展等特点,安全、高效、低成本的对数据进行存储、分析、应用成,或将成为推进数字经济与实体

17、经济融合的重要一环。2.2 经济环境经济环境2020年,百年一遇的新冠肺炎疫情重创全球经济,国际货币基金组织预测,2020年全球经济将萎缩4.4%。我国统筹推进疫情防控和经济社会发展,在有效控制疫情的情况下,全国经济快速复苏,2020年全国GDP突破100万亿元,增长2.3%,对全球经济增长的贡献将超过三分之一,第二产业增加值接近40万亿元,增长2.6%。近年来我国高速重视数字经济发展,积极推进数字经济与实体经济融合发展,2020 年我国数字经济产业规模突破 40 万亿元,数字产业化稳步发展,产业数字化深入推进。在数字经济蓬勃发展的带动下,20202021 年中国数据湖市场现状与发展趋势研究报

18、告10我国数据规模呈指数型增长,国内企业对于数据存储的需求不断提高,为数据湖、数据库等存储设施提供良好的发展机遇。2.3 社会环境社会环境近年来国内企业数字化转型升级发展迅速,“企业上云”进程不断加快,国内企业对于大数据、云计算的认知和认可已经形成。同时,随着国内企业在数字化转型升级过程中不断成熟,对数据存储解决方案的选择多从自身需求和业务特点出发,更为注重数据存储的存储性、拓展能力、管理能力、边缘计算能力等性能特点。数据湖可以充分发挥其在数据存储、数据计算、数据分析方面的优势能力,助力企业数字化发展。2.4 技术环境技术环境在技术层面来看,云计算、大数据以及人工智能具备天然融合在一起的属性。

19、云计算无疑是过去十年对整个 IT 产业界带来最大变革的技术,它的弹性、灵活为数据湖带来了坚实的基础;而人工智能在过去几年取得突破性的发展,使之成为驱动数据湖发展的最大驱动力之一。而当前 5G 商用带来的云计算、通信、大数据、人工智能等多项技术走向融合,将催生出更多新的现代化数据应用场景,数据湖在这个过程中将会起到重要的支撑作用。3、数据湖产品市场发展现状、数据湖产品市场发展现状3.1 应用领域:营销业务功能市场占比最大,运营业务功能市场增速最快应用领域:营销业务功能市场占比最大,运营业务功能市场增速最快从业务功能来看,数据湖具有市场营销、销售、运营、金融和人力资源五大业务功能。目前数据湖在营销

20、业务功能方面占据最大的市场规模,但未来在运营业务功能方面市场增长最快。在营销业务功能方面,数据湖解决方案能够对潜在买家进行精确的细分,并通过分析来自各种来源(如社交媒体、呼叫日志和服务表单)的数据,帮助更深入地了解这些买家、他们的需求和动机。在运营业务功能方面,数据湖使公司能够提高运营效率,降低成本。数据湖解决方案和服务帮助存储和分析来自信息技术(IT)操作的结构化和非结构化数据,并将其转换为相关信息和见解。许多公司正在实施数据湖解决方案和服务,以评估其内部流程并加强运营。数据湖的实现帮助公司在运营成本、速度、灵活性和数据质量之间取得适当20202021 年中国数据湖市场现状与发展趋势研究报告

21、11的平衡。这也推动了数据湖解决方案在企业运营中的采用。此外,企业需要生成自动化的销售模式以增强客户定位,推动了销售采用数据湖解决方案;金融领域需要通过确定信誉和市场波动来管理欺诈和风险,从而推动金融领域对数据湖解决方案的采用;以及企业的预测领导力需求,进行员工情绪分析,推动人力资源采用数据湖解决方案。3.2 典型用户:大型企业典型用户:大型企业从组织规模来看,大型企业和中小企业是使用数据湖解决方案的两个主要领域。其中,大型企业是数据湖市场中占比较大的用户,他们本来就是传统的数据仓库解决方案的用户,随着企业生成的海量数据以及对存储/管理和分析该数据的软件/技术的需求不断增加,以及数据仓库解决方

22、案向数据湖的技术演化而自然转化为数据湖解决方案的主力用户。通常,大型企业具有庞大的企业网络并产生大量的数据,数据湖解决方案使这些企业可以获得相对廉价的整体解决方案,并对处理后的数据提供快速可靠访问方式,这帮助企业组织数据并产生有用的见解。近年来,基于云的数据湖解决方案快速兴起,提供了更好的性价比、可扩展性和敏捷性,这大大降低了中小型企业采用数据湖的门槛。但是直到现在,中小型用户和面向他们的解决方案还处于市场边缘,在实际市场中的占比很小。近年来,社交媒体、新零售、小程序、移动支付的兴起,都可能为中小型用户的数据湖市场发展带来了新的契机。3.3 行业属性:互联网、金融等行业对数据湖有更多的市场需求

23、行业属性:互联网、金融等行业对数据湖有更多的市场需求从行业需求来看,互联网、金融等行业对数据湖产品有更多的市场需求。主要原因在于互联网和金融行业是国内数字化程度较高的领域,数据管理体系相对完善,更为重视数据的使用、挖掘、分析和存储等能力,随着其他行业数字化程度的不断深入,数据的价值被进一企业用户步挖掘,会有更多的行业通过数据湖获益。其次互联网行业中技术更新迭代比较快,通过技术手段挖掘分析数据潜在价值,进而加速行业发展是互联网行业的一大特点。金融行业的数据价值极高,如何充分发挥数据价值以实现更大盈利推动着金融业在数据湖领域的不断探索和创新。20202021 年中国数据湖市场现状与发展趋势研究报告

24、123.4 方案选择:开源解决方案与商用解决方案各具一定优势方案选择:开源解决方案与商用解决方案各具一定优势企业用户在搭建数据湖项目时,主要有开源解决方案以及商用解决方案两种类型。目前主流开源数据湖解决方案主要有 Delta、Iceberg和 Hudi 三个,开源解决方案具有成本低廉、社区内容丰富等优势,但对企业的技术团队能力要求较高,十分考验团队解决问题的能力,互联网企业或技术能力较强的企业更倾向于选择开源解决方案。商用解决方案搭建和管理维护相对容易,解决方案服务商可以提供专业的技术支撑以及成熟的管理工具,同时商用解决方案在拓展性以及安全性方面存在一定优势,例如亚马逊云科技的 Amazon

25、Lake Formation 服务可以在几天内为企业构建一个安全的数据湖,快速、便捷、安全的服务成为主流传统行业的选择。4、数据湖建设中的挑战、数据湖建设中的挑战4.1 数据来源识别的挑战数据来源识别的挑战数据湖对数据进行采集、分析、存储过程中,对数据来源的识别,尤其是对异常数据的来源识别尤为重要。常见于在进行数据分析和数前的数据处理环节,识别异常数据后,通过删除或者修正异常数据,避免异常数据影响分析结论。主要涉及对单变量数据异常识别、多变量异常数据识别、时间序列异常数据识别等几个方面。4.2 元数据管理的挑战元数据管理的挑战数据湖需要对所有结构化、半结构化以及非结构化数据进行自动化识别、标注

26、,以支撑数据资源管理以及服务活动,例如文书型数据要用到自然语言处理,媒体型数据要用到图像识别和语音识别,同时需要引入机器学习以提高元数据管理能力。如何将多种人工智能技术融汇于元数据管理中,已成为目前多家商用解决方案服务商的技术攻关热点方向。4.3 数据质量管理的挑战数据质量管理的挑战数据湖的数据质量管理是一个集技术、业务和管理为一体的挑战。企业在进行数据湖的数据质量管理是通常会遇到数据真实性、数据准确性、数据唯一性、数据完整性等诸多问题,例如在技术层面面临数据模型设计、数据采集过程、数据存储质量等方面的挑战,在业务层面面临数据需求不清晰、业务端数据输入不规范、数据作假等问题,20202021

27、年中国数据湖市场现状与发展趋势研究报告13在管理层面则面临岗位职责不明确、数据战略不清晰等问题。目前数据湖的数据质量管理已愈发受到关注和重视,也通过在技术、业务以及管理层面采取诸多措施以提高数据质量管理能力。例如通过组建数据管理组织、制定数据质量管理方针以从管理层面明晰责任制、完善管理制度;完善数据质量的事前预防控制、事中过程控制和事后监督控制流程,提升业务层面的数据质量管理能力;定期开展数据质量的检查和清洗,设置数据检查任务,出具数据质量问题报告,完善技术层面的数据质量管理体系。4.4 安全管控的挑战安全管控的挑战随着数据的价值越来越高,数据安全已成为事关国家安全与经济社会发展的重大问题,2

28、020 年 7 月我国发布数据安全法,以提升我国各行各业对数据安全的重视程度,推进对数据的安全保护工作。数据湖的安全管控规则是否能够实现数据安全法中对隐私数据和敏感数据的保护要求,同时保证数据湖的分析能力以满足各企业的数据开放共享需求以及数据潜在价值挖掘需求,这需要足够专业的数据治理能力。4.5 多部门数据协同的挑战多部门数据协同的挑战不同部门对于相似数据可能具有不同的业务规则,这可能导致无法协调数据差异以进行准确的分析。完善的数据治理方案应具有对数据策略、标准、流程和定义的企业视角,包括企业业务词汇表,这可减少多个业务部门使用同一数据湖时出现的问题。如果企业有多个数据湖,则每个数据湖都应包含

29、在数据湖治理流程中,并为其分配业务数据管理员。总之,通过在数据湖的设计、加载和维护过程中加入强大的数据治理、元数据管理、数据质量和数据安全流程,并由经验丰富的专业人员积极参与,可显著提高数据湖的价值。20202021 年中国数据湖市场现状与发展趋势研究报告14第二章 数据湖产品市场发展分析第二章 数据湖产品市场发展分析1、2018-2020 年数据湖产品市场规模年数据湖产品市场规模我国高度重视数字经济发展,企业数字化转型进程不断加快,数据已成为企业的核心资产,根据计世资讯统计数据显示,2020 年我国数据总量将超过 5ZB,如何有效管理和使用指数级增长的数据是目前企业数字化转型过程中的重要工作

30、之一。数据湖在处理企业的结构化、半结构化、非结构化数据工作方面展现出较强的竞争力,同时具有低成本、可拓展性强、灵活高效等特性,越来越多的企业选择数据湖作为企业数据存储与管理的解决方案。受新冠疫情影响,远程办公、远程会议等应用场景需求暴增,以及在线教育、跨境电商等行业用户爆发性增长,不少企业选择数据湖解决方案应对爆发性增长的数据。计世资讯统计数据显示,近三年,我国数据湖产品市场规模持续增长,2020 年数据湖产品市场规模达72.5 亿元人民币,增速达 28.5%,我国数据湖产品市场正迎来快速增长期。图表 1 2018-2020 年数据湖产品市场规模及增长率数据来源:CCW Research, 2

31、020/1220202021 年中国数据湖市场现状与发展趋势研究报告152、2020 年数据湖产品市场构成年数据湖产品市场构成2.1 2020 年数据湖产品行业结构年数据湖产品行业结构计世资讯统计数据显示,数据湖产品在互联网和信息技术服务、电信、金融、零售领域市场规模总和在总市场中占比超过 6 成。互联网和信息技术服务业属于技术驱动型行业,擅长利用技术手段去解决问题;金融业有大量高价值数据,属于业务驱动型行业。数据湖在这几大行业有大量的应用。图表 2 2020 年数据湖产品市场行业结构数据来源:CCW Research, 2020/122.2 2020 年数据湖产品厂商份额年数据湖产品厂商份额

32、从厂商份额来看,计世资讯统计数据显示,亚马逊云科技、阿里云、华为云是我国数据湖产品市场份额排名前三的厂商,三者合计占比接近 50%。亚马逊云科技作为率先帮助用户走出数据湖价值落地之路的云服务提供商代表,逐渐得到了市场的认可,占据了中国 20.3%的市场份额。20202021 年中国数据湖市场现状与发展趋势研究报告16图表 3 2020 年数据湖厂商份额数据来源:CCW Research, 2020/123、数据湖产品市场竞争力象限、数据湖产品市场竞争力象限计世资讯(CCW Research)从产品服务能力和市场及战略能力两个维度对市场中主要数据湖产品服务商进行竞争力分析。具体的分析维度如下:产

33、品服务能力产品服务能力市场及战略能力市场及战略能力产品全面性市场推广能力技术支持能力管理团队经验及成功案例数量应用场景丰富性市场份额稳定性用户满意度混合云能力合作伙伴生态可用性价格战略安全合规能力营收能力服务能力云市场和社区通过对市场中各厂商进行系统的评估,我们能够看到亚马逊云科20202021 年中国数据湖市场现状与发展趋势研究报告17技、阿里云、华为云凭借出色的产品服务能力和市场以及战略能力位居市场领导者的位置。例如亚马逊云科技的 Amazon S3 以及 AmazonLake Fromation 是数据湖领域较为领先的产品。青云、IBM 等厂商在产品或服务领域中都有比较突出的创新点,在部

34、分领域或应用场景中引领产品技术发展趋势,处于市场创新者的位置。例如 IBM 在主数据管理、联合查询、机器学习及数据分析等领域创新能力突出。腾讯云、百度智能云在数据湖产品服务市场中占据了重要的市场位置,是市场有力的挑战者。例如腾讯云数据湖解决方案在计算弹性、成本控制、服务集成等方面具有一定实力。图表 4 2020 年数据湖产品市场竞争力分析20202021 年中国数据湖市场现状与发展趋势研究报告18第三章第三章 2020-2021 年中国数据湖产品用户需求及案例分析年中国数据湖产品用户需求及案例分析1. 用户需求用户需求1.1 互联网及信息技术服务业互联网及信息技术服务业互联网企业不断产生各种新

35、的应用,其大部分数据不再来源于数据库了,它可能来源于日志,比如用户的行为日志,或机器的日志,可能来源于各种各样非格式化的数据。这时必须要用数据湖这种方式。互联网及信息技术服务业需要分析大量的数据来汲取信息,找到市场机会并且评价市场表现,而基于 Oracle 的数据仓库无法满足扩展的需要并且维护的复杂度和成本都很高,实施数据湖方案后能加倍扩大其数据存储量,同时减少了成本,并且加快了从数据中挖掘有用信息的速度。1.2 电信业电信业数据湖解决方案可视化复杂网络和优化运营的能力,推动其在电信行业的垂直应用。在电信行业,三大运营商拥有庞大的个人位置数据,精准营销、信用评估是数据湖主要的应用场景。当前运营

36、商采用传统的数据架构,数据质量不高,实时性不够,灵活性不足,存储和应用相互制约。而引入数据湖技术,存储规模化和低成本,原始数据方便易用、可根据应用按需建模,能为电信运营商数据架构优化提供非常有益的参考。1.3 金融业金融业几十年来,金融服务行业一直依赖传统的数据基础设施,但传统的数据解决方案无法处理金融机构目前收集的各种海量数据。同时,个性化客户参与和降低风险的需求日益增长,促使银行、金融服务和保险行业垂直采用数据湖解决方案。基于云的数据湖可以帮助金融机构将所有数据存储在一个中央存储库中,从而轻松满足合规要求、实现成本效率、执行预测、执行风险评估、更好地了解客户行为并推动创新。利用数据湖可以轻

37、松收集、存储和分析数据, 同时实现数据沿袭和可审核性, 并遵守反洗钱(AML)、20202021 年中国数据湖市场现状与发展趋势研究报告19和合并审计跟踪(CAT)等法规。通过在数据湖中存储和分析客户数据,可以更深入地了解客户、推荐定制的产品和服务,并打造更好的个性化客户体验。通过数据湖的规模和敏捷性,用户能够轻松聚合来自多个来源的数据并进行大规模数据分析,例如对数千种交易策略进行回溯测试和监控市场以确保市场完整性。1.4 零售行业零售行业个性化买家细分和基于客户行为的实时体验的需求不断增长,推动了零售和电子商务行业垂直采用数据湖解决方案。大多数零售商运行许多大型的传统本地系统,这些系统并非为

38、灵活的报告而设计。其次,数据系统通常由可能位于全球不同地区的不同团队开发。即使在同一办公室内,开发团队也通常会自然而然地根据其自己的偏好创建数据系统。最后,出于渴望快速交付产品的动机,大多数零售商陷入了“先发货吧, 我们将在下一次迭代中对其进行修复”的想法。这些年来,这些技术债务不断累积,这给零售商留下了大量的“单一客户视图”。而零售商采用现代化的数据架构,能够获得执行交付差异化客户体验所需的单一视图,并通过数据湖分析工具提供的按需访问机器学习、图像和视频分析、情感分析、实时监控等功能能增强零售商的传统能力。1.5 制造业制造业不断增长的需求需要适应企业不断变化的需求,延长工厂设备的寿命,提高

39、产品质量,降低生产延迟的风险,从而推动制造业垂直采用数据湖解决方案。此外,高端装备制造业是技术密集型高科技产业,其产品研制过程需要多地域、多公司、多工程的通力配合。其中主制造商承担核心的总体设计、系统集成、总装制造、试验验证、客户服务等工作,需要各专业紧密配合。因此,围绕型号研制有数以百计的信息化系统,每天都会产生海量的数据,极易形成“数据孤岛”。而数据湖可保存结构化、半结构化和非结构化等各种类型的数据,数据结构可在需要时进行配置和重置,比较灵活方便。1.6 医疗行业医疗行业根据计世资讯数据显示,2020 年,全国 60 岁及以上老年人口数量达 2.53 亿,确诊慢性病患者近 3 亿,数量庞大

40、的患者群体带来了规模巨大的医疗数据量。与此同时,医疗数据大多是非结构化数据,医生、20202021 年中国数据湖市场现状与发展趋势研究报告20医院、患者等各方面都极为重视医疗数据的安全存储能力,传统数据库已经无法满足医疗行业临床业务的数据管理及存储需求。数据湖旨在为医疗数据存储、医疗数据安全、医疗数据治理、医疗数据分析等服务提供一体化解决方案,凭借全面可靠的数据质控体系、海量复杂的数据高效入湖能力、多协议支持数据按需获取,为医疗行业提供高质量、高可靠、易管理、易分析的数据管理平台,满足健康分析、监管决策、临床应用赋能、专病科研等多种医疗行业应用需求。2、数据湖产品典型案例介绍、数据湖产品典型案

41、例介绍2.1 丰田互联基于亚马逊云科技智能湖仓架构建设车联网服务系统丰田互联基于亚马逊云科技智能湖仓架构建设车联网服务系统(1)项目背景丰田汽车从 2009 年就开始做车联网项目,最初是面向高端车型,能提供的服务有限,用户的接受度也不高。随着互联网技术的日益成熟和人们对服务认知的提升,车联网服务开始得到越来越多的认同。从 2019 年开始,丰田汽车开始在中国市场全面推广车联网服务,所有新上市的汽车都标配了车载数据通信模块(DCM)。利用这一模块,可以在用户同意的情况下将车辆数据传输到后台的车联网系统,经过分析、处理之后,为客户提供各种连接服务,包括帮助驾驶员更安全地使用汽车、依据驾驶行为数据,

42、帮助安全的驾驶员获得汽车保险折扣等。然而要实现这一目标,首先面临的挑战是如何注入、存储、解码、转换、分析数百万辆车实时产生的海量数据。行驶的车辆每天不断地生成新数据,而数百万辆联网汽车每时每刻所产生的数据量之大是令人难以置信的每天有数十亿条消息生成数十 TB 级的数据, 为了应对这一挑战, 丰田互联需要建立可以高效存储数据的数据湖ToyotaBig Data Center China。(2)解决方案丰田互联采用了丰田互联母公司 TOYOTA Connected Corporation搭建的平台,利用亚马逊云科技丰富的功能,采用无服务器架构,仅用 5 个月的时间就完成了整个系统的开发、部署和上线

43、。20202021 年中国数据湖市场现状与发展趋势研究报告21图表 5 基于亚马逊云科技的 Toyota Big Data Center China 架构示意图在技术上,Toyota Big Data Center China 采用无服务器架构、能快速进入市场、低延时、实时接收和存储 PB 级的数据(包括关系和非关系型数据) 、 具有分析和预测功能。 作为车联网系统的核心, Toyota BigData Center China 的关键功能包括数据注入、解码、转换和分析。亚马逊云科技将这种架构方式称之为“智能湖仓架构”这意味着,客户在不同专用数据存储之间移动数据,并使用这些数据进行分析和预测。

44、在数据注入方面,实现快速、低成本地摄取和存储各种结构和非结构化的数据。Amazon Simple Storage Service(Amazon S3)具有优异的可伸缩性和高可用性,可以存储和检索任意规模的数据,并且提供了 99.999999999% 的持久性。 在 Toyota Big Data Center China 中, 来自联网车辆的实时遥测数据被摄取到 Amazon Kinesis Data Streams(KDS)中,通过 Amazon Lambda 处理以使其具有可读性,而“原始副本”则通过 Amazon Kinesis Data Firehose 保存到 Amazon S3 中

45、。在解码流程中, 进入 Amazon Kinesis Data Stream 的数据由 Lambda函数完成对输入消息的逐位解码,并将已解码的数据压缩后存入“已解码的 Amazon S3 桶”中。之后利用 Amazon EMR 的大规模并行处理功能,对解码后的消息进行数据转换和加工,再依据应用需求对数据进行进一步的分析处理,最终高效地完成从实时数据注入、解码到分析、应用的全流程。在服务上,亚马逊云科技优异的 Enterprise Support 服务为丰田互联的项目开发提供了全方位的支持。20202021 年中国数据湖市场现状与发展趋势研究报告22(3)客户收益选择亚马逊云科技给丰田互联带来的

46、好处包括节约成本、实现大规模数据移动以及其便利性。Toyota Big Data Center China 是一个庞大的项目,需要处理海量的数据,利用亚马逊云科技丰富的功能建立起成本优化模型,丰田互联极大地降低了云资源的使用成本。例如,通过制定数据生命周期策略,经过设定的存储周期之后,将数据从 Amazon S3 移动到 Amazon S3Glacier, 从而将数据存储成本降低了 6 倍, 更进一步地将数据从 AmazonS3 Glacier 移动到 Amazon S3 Glacier Deep Archive, 成本又降低了 4 倍。另一方面, 采用亚马逊云科技无服务器架构和Amazon

47、Lambda、 AmazonKinesis、Elastic Load Balancing、Amazon ECS 等技术,Toyota Big DataCenter China 实现了架构的自动灵活扩展,在每日的出行高峰期可以自动扩展满足系统的性能要求,在空闲时段则缩减规模,降低成本。此外,运维成本也大幅度降低,于亚马逊云科技构建的业务系统实现了高度自动化运维,极大地节省了人力成本。在业务层面,稳定、可靠、高效的车联网服务系统也有助于丰田汽车为中国用户提供更好的服务。一旦用户选择开通车联网服务,经销商就可以根据车辆的使用数据,主动与客户联系,为客户提供更好的服务。比如,如果通过车联网发现客户的车

48、辆存在小问题,经销商就可以主动提醒客户在驾驶过程中注意,并及时到店维修。目前丰田互联大部分业务系统都是基于亚马逊云科技的,在未来他们希望使用更多的亚马逊云科技原生和托管服务,从而极大地减少其开发和运维的成本,并增强业务系统的安全性、稳定性和可靠性。2.2 新浪微博应用阿里云“湖仓一体”构建混合云新浪微博应用阿里云“湖仓一体”构建混合云 AI 计算中台计算中台(1)项目背景微博机器学习平台团队,主要做社交媒体领域里的推荐主要做社交媒体领域里的推荐/排序、文本/图像分类、反垃圾/反作弊等技术。技术架构上主要围绕开源 Hadoop 数据湖解决方案,一份 HDFS 存储+多种计算引擎(hive、spa

49、rk、flink),以满足以 AI 为主的多计算场景需求。但微博作为国内 Top 的社交媒体应用,当前的业务体量和复杂性已然进入到开源“无人区”,开源数据湖方案在性能和成本方面都无法满足微博的要求。微博借助阿里巴巴强大的飞天大数据和 AI 平台能20202021 年中国数据湖市场现状与发展趋势研究报告23力(MaxC+PAI+DW ),解决了超大规模下的特征工程、模型训练以及矩阵计算的性能瓶颈问题,进而形成了阿里巴巴 MaxCompute 平台(数仓)+ 开源平台(数据湖)共存的格局。微博希望借助这两套异构的大数据平台,既保持面向 AI 的各类数据和计算的灵活性, 又解决超大规模下的计算和算法

50、的性能/成本问题。但因为这两套大数据平台在集群层面完全是割裂的,数据和计算无法在两个平台里自由流动,无形之中增加了大量的数据移动和计算开发等成本,进而制约了业务的发展。主要的痛点是:1)安排专人专项负责训练数据同步,工作量巨大 2) 训练数据体量大,导致耗时多,无法满足实时训练的要求 3) 新写 SQL 数据处理 query,无法复用 HiveSQL 原有 query。(2)解决方案为了解决上述的痛点问题,阿里云产品团队和微博机器学习平台团队联合共建湖仓一体新技术,打通了阿里巴巴 MaxCompute 云数仓和 EMR Hadoop 数据湖,构建了一个跨湖和仓的 AI 计算中台。MaxComp

51、ute 产品全面升级网络基础设施,打通用户 VPC 私域,且依托 Hive 数据库一键映射和强大完善的 SQL/PAI 引擎能力,将MaxCompute 云数仓和 EMR Hadoop 数据湖技术体系无缝对接, 实现湖和的仓统一且智能化管理和调度。图表 6 新浪微博湖仓一体架构图数据来源:CCW Research, 2020/12(3)客户收益通过阿里云湖仓一体新技术,新浪微博实现了以下价值:不仅融合了数据湖和数据仓库的优势,在灵活性和效率上找20202021 年中国数据湖市场现状与发展趋势研究报告24到最佳平衡,还快速构建了一套统一的 AI 计算中台,极大提升该机器学习平台团队的业务支撑能力

52、。无须进行数据搬迁和作业迁移,即可将一套作业无缝灵活调度在 MaxCompute集群和 EMR 集群中。SQL 数据处理任务被广泛运行到 MaxCompute 集群,性能有明显提升。基于阿里巴巴 PAI 丰富且强大的算法能力,封装出多种贴近业务场景的算法服务,满足更多的业务需求。MaxCompute 云原生的弹性资源和 EMR 集群资源形成互补,两套体系之间进行资源的削峰填谷,不仅减少作业排队,且降低整体成本。2.3 某银行使用华为云某银行使用华为云 FusionInsight 构建“一湖两平台”金融数据湖构建“一湖两平台”金融数据湖(1)项目背景全行各业务线数据量不断增加,业务侧对数据需求非

53、常迫切,旧有的模式是业务提需求给开发中心,开发中心安排开发资源管道,大量的需求积压,甚至由于开发周期太长导致需求已经没有了实际意义。另外行内烟囱式的数据平台建设导致“数据孤岛”,给开发人员带来大量的数据拉取和整合的工作量。耗费了大量的人力物力以及时间,还导致了业务侧的投诉和抱怨,工作效率严重滞后。从投资成本来看,业务倒逼 IT 的烟囱式的数据平台的投资建设,耗费了庞大资金和人力投入,协同效能的提升问题凸显。(2)解决方案通过引入华为云EI智能数据湖FusionInsight提供的MRS+DWS 大数据云服务化产品,将行内的基础数据需求按照业务划分为数据湖、数据仓库和信息库,即“一湖两库”为核心

54、,通过不同的数据处理手段将数据持久化;通过华为 MRS 和 DWS 产品提供的组件将主流的数据处理引擎集成在大数据服务云平台中;再将这些数据服务以租户渠道方式作为接口开放,例如“数据集市”、“损益预查询”,最后用户通过自助或者固定的应用服务渠道来获得大数据服务,如“分析师工作台”。平台全部尝试采用华为云计算、大数据、AI 等技术,基于华为服务器和 FusionInsight 产品构建了 2000+节点的大数据集群。20202021 年中国数据湖市场现状与发展趋势研究报告25图表 7 某银行大数据服务云平台架构数据来源:CCW Research, 2020/12在行内的大数据服务云场景中,真正提

55、供服务核心的是一个全行共用的大数据和数据仓库基础平台(MRS+DWS),使用服务的是多个不同的用户群体,各用户群体以租户形式互相隔离(租户渠道层),单个租户在限定的范围内使用大数据的服务,如图所示。大数据服务云平台提供用户自服务的渠道,例如风险计量或者分析师工作台。用户自行管理租户资源池内可用的资源、数据等内容。在使用过程中平台提供用户的验证、访问的管控、审计,对资源使用的计费等衍生问题的处理。(3)客户收益采用华为云 EI 智能数据湖 FusionInsight,该银行获得以下收益:将大数据、数据仓库等服务在云化基础设施上的部署,使得金融数据湖降低了建设、部署、运维等环节的投入,体现在在多个

56、租户间平摊大数据中心的建设、运维成本,提高大数据中心的使用效率。基于存算分离的架构部署,有效的节约了存储成本,真正做到资源的“按需分配”。对于单租户,省去了维护大数据、数据仓库系统带来的庞大资金和人力投入,降低了建设、部署、运维等环节的使用门槛,最终让湖内的金融数据存得下、流得动、用得好。综上所述,华为云 EI 智能数据湖 FusionInsight 立足银行客户用数痛点,构建一湖两库,实现了全球最大金融数据湖近 20PB,助力客户实现智慧银行。20202021 年中国数据湖市场现状与发展趋势研究报告262.4 江苏沛县借助百度智能云江苏沛县借助百度智能云 EasyDAP 开展政务大数据治理及

57、数据资产编目工作开展政务大数据治理及数据资产编目工作(1)项目背景沛县是首批全国文明县城、全国科技进步先进县,荣获全国百强县、全国工业百强县、国家知识产权强县工程试点县等诸多荣誉称号。为深入贯彻落实国家大数据战略,进一步规范和深化沛县政务信息资源的有效整合和开放共享,推动沛县政务信息资源的优化配置和増值利用,促进政府部门间业务协同,沛县人民政府携手百度智能云,借助百度智能云数据湖管理与分析平台 EasyDAP 平台开展沛县政务大数据治理及数据资产编目工作。(2)解决方案选择百度智能云是因为 EasyDAP 平台功能齐全,在带宽能力、响应时间等重要指标上表现不俗,能够满足沛县的要求。在实际落地过

58、程中,沛县梳理了全县所掌握信息资源,摸清数据底数,明确可共享的信息资源,并完成沛县政务信息资源目录编制,逐步构建起全县政务信息资源目录体系,包括基础信息资源如人口、法人、地理信息、信用等。主题信息资源如生态环境、健康保障、社会保障、药品安全、市场监管等。部门信息资源即各部门信息资源,涉及公安、司法、教育、政务等 27 个部门。与此同时,沛县还建立了政务信息资源调查的元数据标准,基于对各部门的业务理解,完成对数据元的结构、分布、标准等内容的梳理。沛县数据资产编目项目基于百度智能云数据湖管理与分析平台EasyDAP 如下能力开展数据治理工作:数据资源的调研梳理与管理。EasyDAP 支持接入 My

59、SQL、Oracle、SQLServer、GreenPlum、Palo、HIVE、SAP HANA、对象存储等各类数据源系统,进行统一的管理。数据资产编目第一步先将现有各类数据源接入 EasyDAP 数据源管理模块,以初步实现全域数据源资产的统一视图和理解。数据资源的探查和分析、理解。基于 EasyDAP 探查获取各类数据源的数据 Schame,并在 EasyDAP 上建设统一元数据, 基于元数据通过 SQL 方式即可探查、分析理解数据源数据内容。数据资产的规划、标准制定。基于 EasyDAP 数据标准建设、内置20202021 年中国数据湖市场现状与发展趋势研究报告27行业数据标准模板、码表

60、管理等功能,建设统一数据模型标准。数据资产的编目和建设。基于 EasyDAP 灵活自定义数据主题、自定义库、自定义表,根据组织结构、根据数据资产规划进行数据编目、资产建设。数据集成、清洗。基于 EasyDAP 提供可视化 ETL 数据集成、清洗能力,采用 20 余种可视化数据处理插件,和内置集成百度 NLP 自然语言处理能力进行数据清洗处理。数据资产的安全管理。EasyDAP 从数据源资产维度支持各类数据源的访问权限管理,将接入的各类数据源系统设置权限,确保访问安全。从数据资产统一元数据管理维度,支持主题、库、表、行、列级别的数据权限管理。支持数据密级定义、数据动态脱敏等能力,确保数据安全。数

61、据资产的服务化。EasyDAP 开放数据 API 服务,使得建设好的数据资产高效对外服务。此外,EasyDAP 还可以对数据资产进行全面的统计分析,包括数据源维度、主题维度、库表维度等,帮助用户高效查看数据资产情况。(3)客户收益截至目前,沛县数据资产编目项目一期已经基本完成,拉通 27 个部门的数据信息,改变了以往各部门数据孤岛情况,实现了数据开放、共享,互联互通。有利于政府各部门根据数据,统观全局,合理规划,科学决策。例如,数据拉通后更便于经济发展局调取数据,并进行数据规划。在数据安全方面,原本分散、不规范的数据集中后更利于留存、取用,方便及时发现问题并采取相应举措。总体来看,EasyDA

62、P 强大快速、稳定安全、操作简单、节省成本,完全满足了沛县的数据治理需求。2.5 威立雅(中国)借助青云云端数据湖产品构建大数据平台2.5 威立雅(中国)借助青云云端数据湖产品构建大数据平台(1)项目背景法国威立雅环境集团是当今全世界唯一一家以环境服务为主业大型跨国集团。从水处理服务(VeoliaWater)到公共运输业(Connex),从清洁业(Onyx)到能源服务(Dalkia),威力雅环境集团为各国政府机构、地方机关集体、工业企业和城市提供了全面高效的解决方案和服务。20202021 年中国数据湖市场现状与发展趋势研究报告28拥有分布在 5 大洲的超过 174000 名员工。 集团营业额

63、超过 260 亿美元,财务世界 500 强。威立雅集团是中国环境资源优化管理领域的标杆企业,业务遍布四十多个城市,拥有员工逾一万四千名。大数据时代的大背景下,威立雅希望借助大数据技术保持并扩大其在行业的领导地位,威立雅将以大数据为核心的智慧环境定位为集团的核心战略,将下属各个企业收集来的各种数据和项目的运营经验能够得到及时的反馈,经过深层次的大数据分析后,帮助威立雅实现优异生产过程管理和成本控制,进而对于整个集团的业务形成指导。目前威立雅面临以下挑战:数据量巨大,仅首期试点项目年产生运行数据超过 1026 亿条;数据类型多样化且复杂,包括整型、数值型、字符型、布尔型等多种数据类型,除工厂采集回

64、来的数据以外,还要打通 PLC、WIMS、VAMS 等系统数据;建立数据湖,将疏通企业内的各种数据流,包括工控数据、业务数据、财务数据等,建立企业级的数据湖;业务场景要求高,基于数据湖及威立雅生产及市场战略,提供系列大数据商业分析服务:CEMS、高精度的 KPI 和成本管控系列报表;基于大数据的故障预测,生产及运营报警建模;多维度大数据商业观察及可视化数据分析环境;基于机器学习的生产工艺优化模型;分业务及职能视角的大数据洞察门户;数据安全要求极高,本项目涉及威立雅生产工艺,核心算法模型等内容,对安全有着极高的要求,与此同时采集点位于企业工控网,严格控制边界。(2)解决方案基于威立雅的现状,结合

65、过往服务众多世界 500 强的丰富经验,青云 QingCloud 提出了端到端的企业级大数据平台的解决方案, 数据的采集主要通过 EMQ、Datax 等方式,将威立雅各个工厂的工控数据、离线的业务数据以及关系数据库数据上传至 QingCloud 云端。 云端的数据通过解码、清洗、格式转换、压缩处理后,将全量冷数据保存至QingCloud 对象存储 QingStor 中,热数据(热数据保存时间威立雅可自由设定)至数据仓库 HashData 中,方便威立雅对于数据的管理。威立雅通过以上流程实现了工控数据秒级收集、传输及存储,并为应用层的建模分析、实时分析及展示提供了核心的数据支撑。解决方案结合威立

66、雅全球大数据战略,以及各业务部门的商业计划,从运营痛点到创新管理需求,深入客户业务场景,集元数据管理、大数据管理、数据湖流入流出监控、可视化数据分析、智能洞察门户等功能于一身,帮助威立雅可以更低成本地、可持续地运维 Datalake。20202021 年中国数据湖市场现状与发展趋势研究报告29(3)客户收益凭借该方案,青云 QingCloud 最终成为威立雅集团数据湖建设的“伙伴”,除基本的优化成本结构、提升管理效率外,更是“陪伴式”地助力其通过大数据建设及洞察驱动企业决策与转型。20202021 年中国数据湖市场现状与发展趋势研究报告30第四章 数据湖厂商及其主要产品分析第四章 数据湖厂商及

67、其主要产品分析1、主要厂商数据湖解决方案介绍、主要厂商数据湖解决方案介绍计世资讯(CCW Research)从数据集成能力、易用性、数据安全、数据可视化、成本控制、智能分析等六个维度对市场中主要厂商的数据湖解决方案进行对比分析。具体的分析结果如下:图表 8 数据湖解决方案对比分析企业产品名称数据集成能力易用性数据安全数据可视化成本控制智能分析亚马逊云科技智能湖仓架构亚马逊云科技的智能湖仓架构可以将数据湖、 数据仓库和专属存储数据/元数据无缝打通, 以及将人工智能能力全面集成, 保证各个产品之间数据自由流动,统一管理。 基于高度安全的Amazon S3 数 据湖,通过 AmazonGlue 提供

68、数据集成所需要的全部功能,可以在几分钟内获取洞见结论。亚马逊云科技智能湖仓架构的全托管服务方式极大地提升了解决方案的易用性。用户完全不必花费精力进行节点配置、软件配置、自动化索引编制及提取、数据隔离及安全、行业合规、集群大小调整、自动补丁修补、报警及检测和硬件维护。 Amazon LakeFormation 可 实现设置和管理数据湖的任务自动化,在数天内构建和保护数据湖。亚马逊云科技采用责任共担模型划清服务商与客户之间的安全责任,提供强大的安全能力保证底层安全,同时提供丰富的安全管理工具帮助用户实现全面安全管理。凭借集中访问控制与策略,辅以列与行层级的过滤等功能,亚马逊云科技可以为户带来细粒度

69、访问控制与治理选项,能够立足单一控制点对跨数据湖及专用数据存储系统的访问行为进行全面管理。AmazonQuickSight 是 一种专为云而构建的可扩展、无服务器、可嵌入且采用机器学习支持的商业智能 (BI) 服务。可以用于轻松创建和发布包含采用机器学习支持的见解的交互式 BI 控制面板。它使用了机器学习和自然语言处理技术,能够从用户的问题中提取业务术语和意图,从源头筛选出相关的数据,并以数字和图形的形式反馈答案。亚马逊云科技提供一系列的成本管理工具帮助用户分析和管理整个云上的成本,并通过主动降价进一步降低成本。Amazon S3 还具备智能分层选项,可帮助客户将数据湖内的数据存储 成 本 降

70、 低 达40% 。 AmazonEMR 正式支持搭载AmazonGraviton 2 处 理器的AmazonEC2 M6g 实例,其在将成本降低达 35%的同时, 将性能提升达 15%。使用。亚马逊云科技提供最具深度与广度的专门构建的分析服务组合,具体 涵 盖 AmazonAthena, AmazonEMR,AmazonElasticsearchService, AmazonKinesis 等。这些服务全部采用行业领先的设计与构建方法,可保证客户在使用过程中不必在性能、规模或成本之间做出任何妥协。智能湖仓可提供智能融合的专门构建的分析工具,进一步实现了数据分析的智能化。阿里云云原生企业级数据湖

71、解决方案对象存储 OSS 基于12 个 9 的可靠性设计, 可存储任意规模的数据, 支持冷热分层。支 持 通 过 DataLakeFormation进行数据湖加速,提升 2-10 倍的查询性能。支持客户端和服务端两种数据加密能力,用户可以根据自身情况选择加密方案,避免数据泄露。MaxCompute 内置 SQL 、 MR 、Graph 等多种数据计算模型,对接丰富的可视化服务。通过分层存储模式,可以数据存储优化成本。DLA 可提供一站式的数据湖分析与计算服务,支持ETL、机器学习、流、交互式分析。华为云FusionInsi 支持最大 2 万规模可 运 行 包 括华为DBSS可提供数据虚拟化,全

72、局存算分离,企业级DLi可兼容20202021 年中国数据湖市场现状与发展趋势研究报告31ght 智能数据湖集群的安装部署, 滚动 升 级 。 提 供1000+精细化、可视化运维指标, 提供高可靠、 安全、 容错、易用的集群管理能力。HDFS、 Spark、YARN等大数据组件,具有易部署、易管理、高性能、高融合、高可靠并可持续演进等特点。数据泄露保护、数据库防火墙、数据库审计等功能,可以全面保障云上数据湖安全和资产安全。一份数据、一个目录、一个接口,用数极简,分析提效2-10 倍;1000+精细化指标,按需自定义、图表化呈现。EC , 副 本 降 低1:1.09,资源利用率达到到 91%,

73、存储周期提升 2 倍。Apache Spark 等生态,提供一站式的流处理、批处理、Serverless 融合处理分析等服务。腾讯云数据湖解决方案提供12个9的数据存储服务, 实现计算与存储分离, 发挥计算弹性伸缩能力, 同时对存储数据冷热分层。支持腾讯云各类计算分析、机器学习 产 品 , 包 括MapReduce、流计算、智能钛机器学习等。腾讯数盾是一套基于数据流的数据安全解决方案,满足等保合规要求的同时,也能提升数据隐私保护能力。利用商业智能分析 BI、 大数据可视交互系统、腾讯云图 TCV 等模块实现数据可视化服务。为集中式存储池,可扩展或缩减存储资源,实现存储数据冷热分层,降低大数据分

74、析与机器学习存储成本。使用流计算、云数据仓库 CDW 等系统进行数据分析。百度智能云EasyDAP支持数据源链接管理、数据湖存储管理、统一元数据管理, 数据权限管理等业务。提供多引擎、多语言可视化拖拽式批,以及流开发、可视化拖拽作业编排和调度配置,支持自定义作业包。实现多租户资源隔离。通过行、列级数据权限管控、审计日志等方式保障数据安全。实现可视化拖拽异构数据源数据集成,并提供可视化数据转换、清洗、 过滤等 ETL 处理组件。可对接主流大数据存储计算集群与百度云产品生态打通,可降低企业数据中台建设成本。基于统一元数据管理,屏蔽掉各类数据源系统和复杂分析技术,实现跨源数据即席查询分析。Azure

75、AzureData LakeStorage可实现16个9的数据持久性。借助 Azure 全局基础结构,满足多种管理数据需求。通过涵盖加密、数据访问和网络级控制的功能保护数据湖。通 过MicrosoftPower BI 对数据进行可视化处理。通过独立缩放存储和计算、生命周期策略管理和对象级分层实现成本优化。使 用 HDInsight等工具分析数据。青云青云QingCloud可拓展数据存储能力, 提升数据存取的性能。可提供第三方合作伙伴的机器学习、算法建模等工具组件,为客户提供全方位的大数据解决方案。提供安全可靠、低成本的云端存储服务。数据查询可视化,查询结果支持自定义图形化展现。采用计算存储分离

76、架构,相对于绑定架构可减少服务器资源成本,资源 利 用 率 提 升50%。计算层采用基于Greenplum 内核的 MPP 计算引擎。IBMIBM Db2Big SQLApacheHadoop支持本地或云端的应用程序和分析。 支持部署、 集成和分析结构化、 半结构化和非结构化数据。流计算支持企业处理永续数据流。帮助企业及时发现所有数据中的商机和风险,从而实现产业升级。通过基础管控、智能报告和管理工具进行组合,帮助识别并防御内部威胁,进行数据隐私保护,提升数据湖的安全性。提供直观的查询编辑器以及集群监视服务。可访问跨供应商、编程语言、位置和结构的数据,利用AI 支持的数据管理降低成本和开发时间。

77、可在协作环境中创建新的分析模型。构建和训练机器学习模型,并支持在混合云环境中准备和分析数据。数据来源:网络资料整理,2020/1220202021 年中国数据湖市场现状与发展趋势研究报告322、数据湖产品重点厂商介绍、数据湖产品重点厂商介绍2.1亚马逊云科技亚马逊云科技(1)企业简介14 年来,亚马逊云科技(Amazon Web Services)一直是世界上服务丰富、应用广泛的云服务平台。亚马逊云科技提供超过 175 项全功能的服务,涵盖计算、存储、数据库、联网、分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面,遍及 25

78、 个地理区域的 81个可用区(AZ),并已公布计划在澳大利亚、印度、印度尼西亚、以色列、西班牙、瑞士和阿拉伯联合酋长国 (UAE)新增 7 个 亚马逊云科技区域、 21 个可用区。 全球数百万客户,包括发展迅速的初创公司、大型企业和领先的政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本。自 2006 年亚马逊云科技发布 Amazon S3 以来,亚马逊云科技的云上数据湖就已经埋下了伏笔。经过近十年的酝酿,亚马逊云科技逐渐将 Amazon S3 发展成云上数据湖的核心,并围绕 Amazon S3 陆续开发出一系列数据湖相关服务, 构建了一套完整的 Amazo

79、n 数据湖生态体系。2020 年 3 月 24 日,亚马逊云科技宣布上线的两项服务:Amazon Glue和 Amazon Athena,这两项服务都是基于无服务器架构的托管服务,用户不需要关心后台的计算和存储资源,只要通过访问接口进行操作即可。这意味着亚马逊云科技的数据湖的工具链进一步完善,让亚马逊云科技的数据湖解决方案大拼图越渐丰满。(2)产品介绍图表 9 亚马逊云科技数据分析组件20202021 年中国数据湖市场现状与发展趋势研究报告33亚马逊云科技上的数据湖能为用户提供以下价值:灵活扩展,安全可靠。亚马逊云科技“智能湖仓”架构用 AmazonS3 作为数据湖的存储基础,客户可根据不断变

80、化的需求,灵活扩展或缩减存储资源。 Amazon S3 可达到 99.999999999% (11 个 9)的数据持久性,且具有强大的安全性、合规性和审计功能。专门构建,极致性能。为了满足客户不同的数据分析需求,亚马逊云科技提供全面而深入的、专门构建的数据分析服务,包括交互式查询服务 Amazon Athena、云上大数据平台 Amazon EMR、日志分析服务 Amazon Elasticsearch Service、Amazon Kinesis、云数据仓库 Amazon Redshift 等。这些专门构建的数据分析服务为客户提供了极致性能,客户在使用过程中不必在性能、规模或成本之间做出任何

81、妥协。其中 Amazon Redshift 的性价比是其他企业云数据仓库的三倍, AQUA(分布式硬件加速缓存)使 Redshift 查询的运行速度比其他其他云数据仓库最高快 10 倍;Amazon EMR 运行大数据处理及分析服务的成本不到传统本地解决方案的一半,但其速度比标准 Apache Spark 快 3 倍以上。数据融合,统一治理。亚马逊云科技“智能湖仓”架构不止是打通了数据湖、数据仓库,还进一步将数据湖、数据仓库以及所有其它数据服务组成统一且连续的整体。在实际应用场景中,数据需要在这些服务与数据存储方案之间,以及服务与服务之间按需来回移动,跨服务访问。亚马逊云科技“智能湖仓”架构降

82、低了数据融合与数据共享时统一安全管控和数据治理的难度。其中,Amazon Glue 提供数据无缝流动能力,Amazon Lake Formation 提供了快速构建湖仓、简化安全与管控的全面数据管理能力。敏捷分析,深度智能。亚马逊云科技将数据、数据分析服务与机器学习服务无缝集成,为客户提供更智能的服务。例如 AmazonAurora ML、Amazon Redshift ML、Neptune ML 等,数据库开发者只需使用熟悉的 SQL 语句, 就能进行机器学习操作; Amazon Glue、Amazon Athena ML、Amazon QuickSight Q 等,可以帮助用户使用熟悉的技

83、术,甚至自然语言来使用机器学习,帮助企业利用数据做出更好的决策。用户还可以通过机器学习服务 AmazonSageMaker、 个性化推荐服务 Amazon Personalize 等挖掘数据智能。20202021 年中国数据湖市场现状与发展趋势研究报告34拥抱开源,开放共赢。亚马逊云科技“智能湖仓”架构中的关键组件如 Amazon EMR、 Amazon Elasticserach Service、 Amazon MSK的核心都基于开源代码,接口与开源完全兼容,无需改变任何代码就可以实现迁移,也兼容主流的管理工具。OpenSearch 基于开放的 Apache2.0 授权,其代码完全开放,用户

84、可以免费下载使用并获得企业级的功能。这些服务允许用户在转型过程中,以非常低的改造成本向云端迁移。2.2 阿里云阿里云(1)企业简介阿里云创立于 2009 年, 是全球领先的云计算及人工智能科技公司,为 200 多个国家和地区的企业、开发者和政府机构提供服务。阿里云致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。2017 年 1 月阿里云成为奥运会全球指定云服务商。阿里云从 2018 年起就开始布局数据湖,推出了云原生数据湖分析Data Lake Analytics(DLA),从数据湖管理(帮助客户高效管理构建数据湖),Serverless Spar

85、k(提供高性价比的大规模计算),ServerlessSQL(提供高性价比的在线交互式分析)三个方面帮助客户挖掘数据价值。(2)产品介绍阿里云数据湖是一个集中式存储库,可存储任意规模结构化和非结构化数据,支持大数据和 AI 计算。云原生数据湖分析(Data Lake Analytics,简称 DLA) 是完全弹性的架构,提供一站式的数据湖分析与计算服务,支持 ETL、机器学习、流 、 交 互 式 分 析 ; 可 以 分 析 与 集 成 对 象 存 储 (OSS) 、 数 据 库(PostgreSQL/MySQL 等)、NoSQL(Lindorm、TableStore、MongoDB 等)数据源的

86、数据。功能包括:数据入湖,元数据管理与自动发现,支持双引擎:SQL(兼容 Presto)、Spark。云原生数据湖分析具有以下优势:Serverless。无基础设施和管理成本,零启动时间,透明升级,QoS弹性服务。数据库体验。兼容标准 SQL、支持丰富的内置函数、JDBC/ODBC和 BI 工具。20202021 年中国数据湖市场现状与发展趋势研究报告35联邦查询。支持多种 RDS 数据库、OSS、TableStore 等数据源之间关联分析。高性能引擎。支持双引擎,包括 SQL(兼容 Presto)分析、Spark计算服务。数据湖构建服务(Data Lake Formation,DLF)作为云

87、原生数据湖架构核心组成部分,帮助用户简单快速地构建云原生数据湖解决方案。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。图表 10 阿里云原生企业级数据湖解决方案架构2.3 华为云华为云(1)企业简介华为云是华为公司倾力打造的云战略品牌,提供领先的公有云服务,包含弹性云服务器、云数据库、云安全等云计算服务,软件开发服务,大数据和人工智能服务,以及场景化的解决方案。在 HUAWEI CONNECT 2019 期间,华为云发布了新一代全场景智能数据湖,助力企业高效管理数据,挖掘数据价值,享受 AI 时代智能化给企业带来的红利。截至目前,华为云智

88、能数据湖已广泛应用于金融、医学、物流、互联网、汽车、政府等行业。(2)产品介绍华为云新一代全场景智能数据湖包括三个核心的创新技术点。20202021 年中国数据湖市场现状与发展趋势研究报告36图表 11 华为新一代全场景智能数据湖架构一是统一数据存储、高效计算、智能加速。华为云智能数据湖实现一个平台一份数据支撑企业多角色协同工作,通过将 CarbonData 和对象存储服务 OBS 的技术结合,实现一份数据存储多场景应用。通过创新的多级别多维度的索引技术,能够让索引自适应调整,能够一份数据多个索引满足不同的场景,提升了 10 倍以上的数据存储 IO 性能。通过 CarbonData 数据引擎,

89、加速数据的访问和一致性,在业界领先的计算和存储分离架构下,通过支持弹性伸缩、分级存储、竞价实例等,成本可降低高达 80%,同时在存储加速、缓存加速、计算引擎加速等多级加速技术支持下,性能高于自建 100%。二是数据+AI 协同,自动学习,自动调优。通过将 AI 技术引入大数据引擎,实现自学习大数据引擎。在数据处理过程中,自动感知数据的特点,自动学习,并对大数据处理进行自动调优,进一步提升了大数据性能。三是智能数据运营平台 DAYU, 加速企业敏捷创新。 华为云 DAYU是一站式的数据运营平台,希望为企业提供数据治理的敏捷可视、自助分析、快速开发、全局治理,并能对数据湖中的数据具备高效探索的能力

90、,帮助企业实现数据“找得到,管得住,用得好”。20202021 年中国数据湖市场现状与发展趋势研究报告37图表 12 华为智能数据湖运营平台架构2.4 腾讯云腾讯云(1)企业简介腾讯云是腾讯集团倾力打造的云计算品牌,面向全世界各个国家和地区的政府机构、企业组织和个人开发者,提供全球领先的云计算、大数据、人工智能等技术产品与服务,以卓越的科技能力打造丰富的行业解决方案,构建开放共赢的云端生态,推动产业互联网建设,助力各行各业实现数字化升级。近年来,腾讯云基于自身业务发展夯实了存储技术底座,在开放兼容的趋势中提升了存储产品能力。其中对象存储产品连续多年保持三位数以上速度增长,突破 EB 级存储规模

91、,已经大步迈入存储+时代,为在线教育、社交电商等领域提供更全面的存储服务。2020 年 12 月 20 日, 腾讯 Techo Park 开发者大会在京召开, 在 “存储加速度,海量存储创造无限可能”分论坛上,腾讯云发布了满足企业低成本、高效率存储需求的智能分层和深度归档两款存储产品方案。(2)产品介绍腾讯云数据湖解决方案主要借助 COS 构建数据湖,对象存储 COS可存储任意规模的结构化、半结构化、非结构化数据,其提供 12 个 9的数据持久性,实现计算与存储分离,发挥计算弹性伸缩能力,同时对存储数据冷热分层,是构建数据湖的首选存储服务。借助 COS 构建的数据湖,可以无缝使用各类计算分析和

92、机器学习平台,从而打破数据孤岛,洞察业务价值,指导客户做出更好的决策。20202021 年中国数据湖市场现状与发展趋势研究报告38图表 13 腾讯云数据湖业务架构腾讯云数据湖解决方案具有以下功能特性:多数据源支持。可对接多种数据源,允许存储任意规模的结构化、半结构化、非结构化数据,同时可以按原样存储数据。计算弹性。通过计算与存储分离,实现计算资源的弹性伸缩,满足客户对计算资源的灵活调度。成本最优。为集中式存储池,可快速扩展或缩减存储资源,实现存储数据冷热分层,降低大数据分析与机器学习存储成本。服务集成。无缝支持腾讯云各类计算分析、机器学习产品,包括弹性 MapReduce、流计算 Oceanu

93、s、智能钛机器学习。2.5 百度智能云百度智能云(1)企业简介百度智能云是基于百度多年技术沉淀打造的智能云计算品牌,致力于为客户提供全球领先的人工智能、大数据和云计算服务。凭借先进的产品、技术和丰富的解决方案,全面赋能各行业,加速产业智能化。百度智能云为金融、城市、医疗、客服与营销、能源、制造、电信、文娱、交通等众多领域领军企业提供服务,包括中国联通、国家20202021 年中国数据湖市场现状与发展趋势研究报告39电网、南方电网、浦发银行、成都高新减灾研究所、央视网、携程、四川航空等诸多客户。2020 年 5 月 18 日, 在 ABC SUMMIT 2020 百度夏季云智峰会上百度 CTO

94、王海峰发布百度智能云全新战略。他表示,全新升级的百度智能云,融合云计算、百度大脑、大数据等百度核心技术,正在把人工智能输送到千行万业。(2)产品介绍数据湖管理与分析平台 EasyDAP(简称 EDAP),封装了数据从汇聚、管理、开发、分析及服务流程,屏蔽了大数据底层技术,提供简易的可视化开发操作界面,一站完成数据集成、数据管理、批&流数据开发、数据分析服务等。降低了数据资产构建和开发分析应用的门槛,帮助企业高效实现数据价值释放。此外,无缝对接主流大数据存储计算集群与百度云产品生态打通,可降低企业数据中台建设成本。全场景。数据集成、数据管理、数据开发、数据分析应用一站完成。低门槛。拖拽式零代码数

95、据集成、批&流可视化开发 Studio、拖拽式作业编排和配置、多源即席联合分析。兼容开放。无缝对接主流大数据存储计算平台和云计算存储生态,丰富的开放 API 等。安全可靠。多租户资源隔离;行、列级数据权限管控、审计日志等。图表 14 百度智能云数据湖管理与分析平台架构2.6 Azure(1)企业简介20202021 年中国数据湖市场现状与发展趋势研究报告40Azure 云服务是一个灵活的企业级公有云平台, 提供数据库、 云服务、云存储、人工智能互联网、CDN 等高效、稳定、可扩展的云端服务。MicrosoftAzure 的主要目标是为开发者提供一个平台,帮助开发可运行在云服务器、数据中心、We

96、b 和 PC 上的应用程序。云计算的开发者能使用微软全球数据中心的储存、计算能力和网络基础服务。Azure 智能云平台遍布全球 42 个区域覆盖百余个数据中心,助力企业在中国(由世纪互联运营)及全球部署业务, 并为其提供行业、 开源、混合及智能解决方案。(2)产品介绍Azure 的数据湖解决方案包括数据湖存储、接口层、资源调度与计算引擎层。 存储层是基于 Azure object Storage 构建的, 依然是对结构化、半结构化和非结构化数据提供支撑。接口层为 WebHDFS,比较特别的是在 Azure object Storage 实现了 HDFS 的接口,Azure 把这个能力称为“数据

97、湖存储上的多协议存取”。在资源调度上,Azure 基于 YARN 实现。计算引擎上,Azure 提供了 U-SQL、hadoop 和 Spark 等多种处理引擎。图表 15Azure Data Lake Analysis 架构Azure 数据湖解决方案具有以下特点:支持 U-SQL 作为开发工具,并与 visual studio 进行深度集成。Azure 推荐使用 U-SQL 作为数据湖分析应用的开发语言。Visual studio 为 U-SQL 提供了完备的开发环境; 同时, 为了降低分布式数据湖系统开发的复杂性,visual studio 基于项目进行封装,在进行 U-SQL 开发时,可

98、以创建“U-SQL databaseproject”,在此类项目中,利用 visual studio,可以很方便的进行编码与调试,同时,也提供向导,将开发好的 U-SQL 脚本发布到生成环境。U-SQL 支持 Python、R 进行扩展,满足20202021 年中国数据湖市场现状与发展趋势研究报告41定制开发需求。能适配 SQL、 Apache Hadoop 和 Apache Spark 等多种计算引擎。其中,hadoop 包括 Azure 提供的 HDInsight(Azure 托管的Hadoop 服务),Spark 包括 Azure Databricks。具有多种不同引擎任务之间的自动转换

99、能力。微软推荐U-SQL 为数据湖的缺省开发工具,并提供各类转换工具,支持 U-SQL 脚本与 Hive、Spark(HDSight&databricks)、AzureData Factory data Flow 之间的转化。2.7 青云青云(1)企业简介青云 QingCloud(北京青云科技股份有限公司)是一家具有广义云计算服务能力的平台级混合云 ICT 厂商和服务商,以软件定义为核心,致力于为企业用户提供自主可控、中立可靠、性能卓越、灵活开放的云计算产品与服务。 经过多年发展, 青云 QingCloud 已经具备了全维度的云产品与云服务交付能力:在技术层次上,自主研发形成跨越智能广域网、I

100、aaS 和 PaaS 的云网一体技术架构体系,拥有全面的 ICT 服务能力;在交付形态上,以统一技术架构形成云产品、云服务两大标准化业务模块,根据客户需要满足私有云、公有云和混合云的部署需求,并针对多个行业形成了完善的行业云计算解决方案;在场景纵深上,正着力布局发展集云、网、边、端于一体化的综合服务能力,实现更广义的数据互联。(2)产品介绍青云云端数据湖解决方案是一套基于云计算构建的数据湖解决方案,采用 QingStor 对象存储作为数据湖存储,HashData 作为数据湖计算引擎。青云云端数据湖解决方案可以低成本存储海量数据,规模无限扩展,支持多种数据种类(包括结构化、半结构化,多结构化等)

101、 ,并可以运行不同类型的分析(包括 SQL 查询、可视化、机器学习等)以指导做出更好的决策。20202021 年中国数据湖市场现状与发展趋势研究报告42图表 16 青云云端数据湖产品架构青云云端数据湖解决方案具有以下特点:计算存储分离。HashData 采用计算存储分离架构,数据存储到QingCloud 对象存储上, 计算层采用基于 Greenplum 内核的 MPP计算引擎。相对于计算存储绑定架构,计算存储分离在保证查询需求同时,可大幅减少服务器资源成本。在线扩容。支持在线实时弹性扩展,最快 15 分钟即可完成。当需要少量计算时,用户可以启动小集群,当计算量增加时,用户可以在几分钟内对集群进

102、行扩容,而不需要迁移数据,可轻松应对超大容量及超高并发请求带来的性能挑战。海量存储。 QingCloud 对象存储是面向海量非结构化数据的通用数据存储平台,提供安全可靠、低成本的云端存储服务。可存储任意类型、任意数量、任意大小的文件。数据持久性达99.999999999%,服务可用性达 99.99%。无限扩容。系统可无限水平扩展,且在存储容量水平扩展时,数据存取的性能线性提升。可承载无限存储空间,每个存储空间的容量亦可无限扩展。性能不变,成本更低。多级存储。对象存储 IO 速度比块存储低,HashData 创新缓存技术采用了多级存储架构,持久层数据采用对象存储,Cache 层采用基础型块存储或

103、 SSD 企业级存储,通过HashData 自带的冷热数据管理功能保证了数据查询性能,可保证性能不变。存储成本更低。采用对象存储,成本只有传统解决方案的 1/10。20202021 年中国数据湖市场现状与发展趋势研究报告43传统方案采用磁盘来存储数据,HashData 数据湖采用对象存储作为持久数据存储。对象存储的成本是磁盘的 1/5 左右,是 SSD 的1/10 左右,有明显价格优势。20202021 年中国数据湖市场现状与发展趋势研究报告44第五章第五章 2021-2025 年数据湖产品发展趋势分析年数据湖产品发展趋势分析1、2021-2025 年数据湖产品市场规模预测年数据湖产品市场规模

104、预测随着数字经济加速推动了各个行业的数字化进程, 以及 5G 商用所带来云计算、通信、大数据、人工智能等多项技术融合催生出更多的数据湖应用场景,预计未来五年,中国数据湖市场将以 31.0%的复合增长率发展,到 2025 年,该市场将达到 279.6 亿元。图表 17 2012-2025 年数据湖产品市场规模预测及增长数据来源:CCW Research, 2020/122、2021-2025 年数据湖产品发展趋势年数据湖产品发展趋势趋势一:亚马逊云科技的智能湖仓架构将作为现代数据架构标准趋势一:亚马逊云科技的智能湖仓架构将作为现代数据架构标准随着湖仓一体技术的不断成熟发展,各大厂商加紧延伸数据湖

105、的体系架构,提升数据湖的服务能力。一刀切的分析方法最终会导致无法达到标准,亚马逊云科技认为,智能湖仓架构不仅仅是要简单地集成数据湖和数据仓库,而且要将数据湖、数据仓库和专用存储集成在一起, 并实现统一治理,方便数据移动。借助亚马逊云科技智能湖仓架构,客户可将数据存储在数据湖中,并在数据湖周围使用一系列专门构建的数据服务,以市场上无与伦比的规模和性价比快速、敏捷地做出决策。20202021 年中国数据湖市场现状与发展趋势研究报告45趋势趋势 2:未来数据湖方案将与业务深度融合与集成:未来数据湖方案将与业务深度融合与集成典型数据湖架构的构成基本已经成为了业界共识:分布式对象存储+多模态计算引擎+数

106、据管理。决定数据湖方案是否胜出的关键恰恰在于数据管理,无论是原始数据的管理、数据类目的管理、数据模型的管理、数据权限的管理还是处理任务的管理,都离不开与业务的适配和集成;未来,会有越来越多的行业数据湖解决方案涌现出来,与数据科学家和数据分析师形成良性发展与互动。如何在数据湖解决方案中预置行业数据模型、ETL 流程、分析模型和定制算法,可能是未来数据湖领域差异化竞争的一个关键点。趋势趋势 3:AI 能力将赋能越来越多的数据湖工具能力将赋能越来越多的数据湖工具利用机器学习技术可将 AI 能力赋能给数据湖构建者。目前,AI能力已嵌入一些数据湖工具中。比如,数据与 AI 算法/模型协同,可用来支持非结

107、构化处理。在大数据系统中内置了 AI 的轻量推理引擎,AI算法模型作为算子,在大数据处理过程中直接调度使用,如图像识别模型作为一个 UDF,在大数据处理过程中直接使用 SQL 调用。此外,AI 也能用做数据引擎的自调优,即通过收集业务运行时的系统各方面过程数据,采用 AI 建模预测,推荐更优配置,以及更优的数据组织策略,这就像大数据系统内置了一个小机器人,它不停的在对系统做维修优化,从而让引擎使用起来具备更优越的性能。我们预测未来,AI能力将嵌入越来越多的数据湖工具中,给用户提供更前沿的技术,更便捷的服务。趋势趋势 4:不同应用场景中,各类数据库、基础工具实现数据协同和流通:不同应用场景中,各

108、类数据库、基础工具实现数据协同和流通当前开源 Hadoop 线,引擎、元数据、存储等基础部件的迭代更替进入相对稳态,大众对开源大数据技术的认知达到空前水平。数据湖提供商开发出许多数据湖开源产品与工具,使得在不同的应用场景中,各种类型的数据库、基础工具之间实现数据流转,协同和流通。如亚马逊云科技构筑了一套以 S3 为中心化存储,Glue 为元数据服务,E-MapReduce、Athena 为引擎,并通过 Lake Formation 解决产品间的安全授信问题的开放协作式产品解决方案。趋势趋势 5:数据湖在医疗行业的应用规模将增长最快:数据湖在医疗行业的应用规模将增长最快由于在专营各种药物的大型医

109、院中存在大量患者,医疗保健和生命科学领域预计将在未来五年快速增长。这些组织实施数据湖解决方20202021 年中国数据湖市场现状与发展趋势研究报告46案,可以增强整体患者体验。这些解决方案还可以为医疗保健和生命科学组织提供了经济高效且可扩展结构,用于收集和处理大量不同类型的数据。趋势趋势 6:数据湖安全将成为重点研究攻关方向:数据湖安全将成为重点研究攻关方向数据湖作为一种数据存储设施,具有极高的遭受外部攻击入侵的风险,对于本地和基于云的企业数据湖,安全性都是至关重要的。目前多数数据湖采用云部署的方式,因此数据湖安全重点技术攻关研究方向将主要包括数据安全、云安全、网络安全、访问控制、身份验证等领

110、域。20202021 年中国数据湖市场现状与发展趋势研究报告47附录 相关定义及研究方法附录 相关定义及研究方法1、相关定义、相关定义1.1 产品定义产品定义计世资讯(CCW Research)根据 IT 产品的传统分类标准和近年 IT技术的发展,对 IT 产品进行了系统的划分,明确定义了各类 IT 产品及其相互关系。具体定义见下表:产品大类产品大类产品分类产品分类细分产品细分产品硬件主机系统超级计算机、大型机、中型机、小型机、工作站个人计算机台式PC、笔记本电脑、PC服务器网络设备路由器、交换机、集线器、网卡、Modem,其他网络接入设备外围设备打印机、扫描仪、投影仪、数码相机等及其耗材存储

111、设备磁盘阵列、磁带机、移动存储产品等个人数字产品掌上电脑、智能手机、MP3等其他硬件产品终端设备、安全产品、零部件产品等软件系统软件各类封闭式或开放式操作系统,包括UNIX、Windows、Linux等系统管理软件、开发工具开发工具及中间件、安全软件、存储管理软件、系统及网络管理软件等应用软件各类商用和消费类应用软件服务维修维护服务硬件的维修维护服务、软件的维修维护服务专业IT服务咨询、集成服务、系统管理、培训等数据来源:CCW Research,202020202021 年中国数据湖市场现状与发展趋势研究报告481.2 区域定义区域定义计世资讯(CCW Research)根据各省市的地理位置

112、,IT 市场特点及其相互关系, 将中国大陆地区 31 个行政区划分为 7 个区域, 即华北、华东、华南、华中、西南、东北和西北区。具体定义见下表:区域区域省市省市中心城市中心城市东北黑龙江、吉林、辽宁沈阳华北北京、天津、山东、河北、山西、内蒙古北京华东上海、浙江、江苏、安徽、江西南京、上海华南广东、广西、福建、海南广州、深圳华中湖北、湖南、河南武汉西北陕西、甘肃、新疆、宁夏、青海西安西南四川、重庆、云南、贵州、西藏成都数据来源:CCW Research,20201.3 城市定义城市定义计世资讯(CCW Research)根据各城市的经济发展水平、IT 市场规模以及信息化发展状况,对全国 80

113、个经济相对发达的城市进行了分级。城市级别共分为 5 级。31 个省会城市、直辖市城市级别详见下表:区域区域省份省份城市城市城市级别城市级别华北北京北京1华东上海上海1华南广东广州1东北辽宁沈阳2华东江苏南京2华中湖北武汉2西北陕西西安2西南四川成都2华南广东深圳2东北黑龙江哈尔滨3东北吉林长春3华北河北石家庄3华北山东济南3华北天津天津320202021 年中国数据湖市场现状与发展趋势研究报告49华东安徽合肥3华东江西南昌3华东浙江杭州3华南福建福州3华中河南郑州3华中湖南长沙3西南重庆重庆3华北内蒙古呼和浩特4华北山西太原4华南广西南宁4西北甘肃兰州4西北新疆乌鲁木齐4西南贵州贵阳4西南云南

114、昆明4华南海南海口5西北宁夏银川5西北青海西宁5西南西藏拉萨5数据来源:CCW Research,20201.4 行业定义行业定义计世资讯(CCW Research)参照国家统计局的行业分类标准,以及北美行业分类系统(NAICS)和美国标准行业分类系统(SIC),结合中国 IT 市场的具体特点,将中国经济领域各门类归纳为 10 大行业。具体行业定义详见下表(表中代码为国家统计局行业分类标准代码):行业行业包含大类行业包含大类行业细分行业及代码细分行业及代码金融行业 金融业银行业(J-68)、证券业(J-69)、保险业(J-70)、其他金融活动(J-71)电信行业 信息传输电信(G-601)、广

115、播电视传输服务(G-603)、卫星传输服务(G-604)政府行业公共管理与社会组织中国共产党机关 (S-93) 、 国家机构 (S-94) 、 人民政协和民主党派 (S-95) 、群众社团、社会团体和宗教组织(S-96)、基层群众自治组织(S-97)水利、环境和公共设施管理业水利管理业(N-79)、环境管理业(N-80)、公共设施管理业(N-81)国际组织国际组织(T-98)教育科研 教育学前教育(P-841)、初等教育(P-842)、中等教育(P-843)、高等教20202021 年中国数据湖市场现状与发展趋势研究报告50育(P-844)、其他教育(P-849)科学研究、技术服务和地质勘查业

116、研究与试验发展(M-75)、专业技术服务业(M-76)、科技交流和推广服务业(M-77)制造行业 离散制造纺织服装、鞋、帽制造业(C-18)、皮革、毛皮、羽毛(绒)及其制品业(C-19)、木材加工及木、竹、藤、棕、草制品业(C-20)、家具制造业(C-21)、印刷业和记录媒介的复制(C-23)、文教体育用品制造业(C-24)、非金属矿物制品业(C-31)、金属制品业(C-34)、通用设备制造业(C-35)、专用设备制造业(C-36)、交通运输设备制造业(C-37)、电气机械及器材制造业(C-39)、通信设备、计算机及其他电子设备制造业(C-40)、仪器仪表及文化、办公用机械制造业(C-41)

117、、废弃资源和废旧材料回收加工业(C-43)连续制造农副食品加工业(C-13)、食品制造业(C-14)、饮料制造业(C-15)、烟草制品业(C-16)、纺织业(C-17)、造纸及纸制品业(C-22)、石油加工、炼焦及核燃料加工业(C-25)、化学原料及化学制品制造业(C-26)、医药制造业(C-27)、化学纤维制造业(C-28)、橡胶制品业(C-29)、塑料制品业(C-30)、黑色金属冶炼及压延加工业(C-32) 、有色金属冶炼及压延加工业(C-33)能源行业电力、燃气及水的生产和供应业电力的生产和供应业(D-44)、燃气生产和供应业(D-45)、水的生产和供应业(D-46)交通运输行业交通运输

118、、仓储和邮政业铁路运输业(F-51)、道路运输业(F-52)、城市公共交通业(F-53)、水上运输业(F-54)、航空运输业(F-55)、管道运输业(F-56)、装卸搬运及其他运输服务业(F-57)、仓储业(F-58)、邮政业(F-59)医保行业卫生、社会保障和社会福利业医院 (Q-851) 、 卫生院及社区医疗活动 (Q-852) 、 门诊部医疗活动 (Q-853) 、计划生育技术服务活动(Q-854)、妇幼保健活动(Q-855)、专科疾病防治活动(Q-856)、疾病预防控制及防疫活动(Q-857)、其他卫生活动(Q-859)、社会保障业(Q-86)、社会福利业(Q-87)流通行业 批发业农

119、畜产品批发(H-631)、食品、饮料及烟草制品批发(H-632)、纺织、服装及日用品批发(H-633)、文化、体育用品及器材批发(H-634)、医药及医疗器材批发(H-635)、矿产品、建材及化工产品批发(H-636) 、机械设备、 五金交电及电子产品批发 (H-637) 、 贸易经纪与代理 (H-638) 、其他批发(H-639)零售业综合零售(H-651)、食品、饮料及烟草制品专门零售(H-652)、纺织、服装及日用品专门零售(H-653)、文化、体育用品及器材专门零售(H-654)、医药及医疗器材专门零售(H-655)、汽车、摩托车、燃料20202021 年中国数据湖市场现状与发展趋势研

120、究报告51及零配件专门零售(H-656)、家用电器及电子产品专门零售(H-657)、五金、 家具及室内装修材料专门零售 (H-658) 、 无店铺及其他零售 (H-659)服务业租赁和商务服务业租赁业(L-73)、商务服务业(L-74)计算机服务和软件业计算机服务业(G-61)、软件业(G-62)住宿和餐饮业住宿业(I-66)、餐饮业(I-67)文化、体育和娱乐业文化艺术业(R-90)、体育(R-91)、娱乐业(R-92)居民服务和其他服务业居民服务业(O-82)、其他服务业(O-83)其他农、林、牧、渔业农业(A-1)、林业(A-2)、畜牧业(A-3)、渔业(A-4)、农、林、牧、渔服务业(

121、A-5)采矿业煤炭开采和洗选业(B-6)、石油和天然气开采业(B-7)、黑色金属矿采选业(B-8)、有色金属矿采选业(B-9)、非金属矿采选业(B-10)、其他采矿业(B-11)建筑业房屋和土木工程建筑业 (E-47) 、 建筑安装业 (E-48) 、 建筑装饰业 (E-49) 、其他建筑业(E-50)房地产业房地产开发经营 (K-721) 、 物业管理 (K-722) 、 房地产中介服务 (K-723) 、其他房地产活动(K-729)媒体、传播业新闻出版业(R-88)、广播、电视、电影和音像业(R-89)数据来源:CCW Research,202020202021 年中国数据湖市场现状与发展

122、趋势研究报告522、研究方法、研究方法2.1 调查方法调查方法计世资讯(CCW Research)始终坚信:精辟独到的分析必须建立在客观准确的调查数据基础之上。因此计世资讯(CCW Research)对调查工作一直非常重视,不忽略任何一个细节。计世资讯(CCW Research)的调查是基于两个基本假设:供应方和用户共同组成了 IT 市场。供应方中的上游供应商、整机厂商、渠道都是 IT 市场不可或缺的环节,彼此相互依存;IT 市场中的各类供应环节不可能就计世资讯(CCW Research)的调查问题共商答案。计世资讯(CCW Research)对调查得到的数据总是通过不同的信息源进行数据的审核

123、和校验,以保证数据和信息准确、客观。具体校验关系见下图:数据来源:CCW Research,2020数据主要来自以下 10 个方面:对制造商、分销商和经销商的调查;对最终用户(包括商用用户和消费用户)的调查;IT 业内企业领导人发表的观点或其他信息;IT 业内资深专家的观点或发表的文章;政府或行业协会发布的信息和数据;公开发布的产品及价目表;零部件厂商零部件厂商零部件厂商零部件厂商分销商分销商分销商分销商经销商经销商经销商经销商硬件、软件、服务产品供应商硬件、软件、服务产品供应商硬件、软件、服务产品供应商硬件、软件、服务产品供应商增值经销商增值经销商增值经销商增值经销商消费渠道消费渠道消费渠道

124、消费渠道产品供应链产品供应链产品供应链产品供应链用户规模用户规模用户规模用户规模相互验证相互验证相互验证相互验证需求群需求群需求群需求群供应群供应群供应群供应群相互验证相互验证相互验证相互验证大企业大企业大企业大企业中小企业中小企业中小企业中小企业消费用户消费用户消费用户消费用户政府、科研教育政府、科研教育政府、科研教育政府、科研教育零部件厂商零部件厂商零部件厂商零部件厂商分销商分销商分销商分销商经销商经销商经销商经销商硬件、软件、服务产品供应商硬件、软件、服务产品供应商硬件、软件、服务产品供应商硬件、软件、服务产品供应商增值经销商增值经销商增值经销商增值经销商消费渠道消费渠道消费渠道消费渠道

125、产品供应链产品供应链产品供应链产品供应链用户规模用户规模用户规模用户规模相互验证相互验证相互验证相互验证需求群需求群需求群需求群供应群供应群供应群供应群相互验证相互验证相互验证相互验证大企业大企业大企业大企业中小企业中小企业中小企业中小企业消费用户消费用户消费用户消费用户政府、科研教育政府、科研教育政府、科研教育政府、科研教育20202021 年中国数据湖市场现状与发展趋势研究报告53相关经济领域的数据;在大众和专业媒体上发表的文章;各个企业发布的财务报告;已有的数据库。2.2 分析方法分析方法计世资讯(CCW Research)已经树立了鲜明独到的 IT 观:中国的 IT 市场已经进入“以用

126、户为导向”的时期,并将继续凸显该特征。同时,计世资讯(CCW Research)坚信:必须通过细分市场的研究,才能够从宏观和微观两个方面准确把握市场变化。数据分析数据分析过程中,计世资讯(CCW Research)首先确定 IT 市场最突出的变化,然后根据用户的变化寻找其根本的原因,为供应商的策略改变提供决策支持。预测分析预测分析过程中,计世资讯(CCW Research)也是首先确定用户的需求重点和规模,然后才由此进行分析,预测未来一段时间各类产品的需求规模和需求重点。计世资讯(CCW Research)的分析结论,都经过了先假设、后数据验证、再明确结论的过程。虽然有的假设在数据验证的过程中被推翻,但也为分析师发现市场真实状况、揭示市场内在规律提供了有益的思路。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(计世资讯:2020~2021年中国数据湖市场现状与发展趋势研究报告(53页).pdf)为本站 (爱喝奶茶的猫) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部