1 什么是数据湖
数据湖的概念最早是由“数据仓库之父”的 Bill
Inmon提出,在其著作《数据湖架构》一书中,他提出通过设计数据湖来避免垃圾存储的概念。数据湖是存储原始数据的大型仓库,在数据湖中数据有很多不同阶段,数据湖的成功建立需要提供大规模数据接入、数据治理、数据服务和数据安全管理框架。
按照维基百科的定义数据湖是一类存储数据自然、原始格式的系统或存储,通常是对象块或者文件。数据湖通常是企业中全量数据的单一存储。使用数据湖解决方案,从结构化和非结构化数据中生成有意义的信息,并在市场中保持竞争力。
![数据湖 数据湖](//ziboxinyan.com/FileUpload/ueditor_s/upload/2021-11/3/63776177249347.png)
2 建立数据湖的意义
数据湖是政府与社会资本合作,同时解决发展数字经济三个痛点的中国特色新基建方案
(1)存的起(蓝光存储):访问速度在分钟级、存储能耗在千分之三、存储成本只有6.5%、存储时间是100年。
(2)得得到:政府收储有序开放、社会数据留存共享、制定数据安全法律、建立地方要素市场
(3)用得好:企业依法获得数据、开放数据智能算法、开发数据应用场景、为数字化转型赋能
![数据湖 数据湖](//ziboxinyan.com/FileUpload/ueditor_s/upload/2021-11/3/63773647481660.png)
3 易华录“数据湖+”战略的应用场景
(1)数据湖+大交通:公司作为智能交通龙头企业,可以基于数据湖中的政府数据,以及交通软件管理平台及电子车牌业务打造交通数据湖。 2020
年,公司中标哈尔滨智慧城市“交通云”平台服务项目,哈尔滨“交通云”城市交通大脑运用大数据、云计算、人
工智能等前沿技术,将“智慧治堵”作为先导性需求,建设城市数据大脑交通平台,实现智能感知路况、智能判定堵情、
智能巡查事件、智能优化配时、智能辅助指挥等五大基本功能。
(2)数据湖+大安全:目前研发了蓝鲸产品,基于人工智能分析,将摄像头数据导入数据湖,通过人脸识别精准锁定相关人员,良好辅助公安
部门侦破案件。公司在“智慧公安”项目建设中,面对技术难度大、工作时间紧、泛在感知数据接入复杂的状况,紧紧
围绕“智慧公安”体系化建设方案,积极解决技术难题、组织技术攻关,建起了智能化、实战化、一体化的“升级版技 防城”实战应用系统。
(3)数据湖+大健康:随着老龄化的加速,基于政府对老年人生活的重视,整合养老大数据,为老年人提供增值服务。
![数据湖 数据湖](//ziboxinyan.com/FileUpload/ueditor_s/upload/2021-11/3/63775842797573.png)
4 数据湖与数据仓库的区别
(1)数据湖能能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式;数据仓库只能处理结构化数据进行处理,而且这些数据必须与数据仓库事先定义
的模型吻合。
(2)数据湖拥有足够强的计算能力用于处理和分析所有类型的数据,分析后的数据会被存储起来供用户使用;数据仓库处理结构化数据,将它们或者转化为多维数据,或者转换为报表,以满
足后续的高级报表及数据分析需求。
(3)数据湖通常包含更多的相关的信息,这些信息有很高概率会被访问,并且能够为企业挖掘新的运营需求。
数据仓库通常用于存储和维护长期数据,因此数据可以按需访问。
![数据湖与数据仓库 数据湖与数据仓库](//ziboxinyan.com/FileUpload/ueditor_s/upload/2021-11/3/63774888074525.png)
推荐阅读:《【公司研究】易华录-数据湖基建龙头于波澜之中把握新机遇-210604(32页).pdf》
《【4】基于Flink+Iceberg构建企业级实时数据湖-胡争-阿里巴巴.pdf》
《数据湖技术IceBerg如何解决腾讯看点业务痛点v5.pdf》