1.数据质量管理
数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
![数据质量管理 数据质量管理](//ziboxinyan.com/FileUpload/ueditor_s/upload/2022-9/27/6379989002555755197292837.jpg)
2.数据质量管理的目标
数据质量管理的目标是“通过加强数据质量管理,保障企业数据中心数据的准确性、完整性,推进数据资源分析利用,使企业积累的数据成为重要的资源,为企业宏观管理和决策提供有效支持”。
3.数据质量管理工具
(1)Great Expectations
作为一个开源库,Great
Expectations可用于验证、记录和分析数据。用户以期望(expectations)的形式定义断言(assertions)。顾名思义,期望是您期望从数据中获得的质量;断言则是用声明性语言编写的。
Great
Expectations的另一个功能是自动化数据分析。它可以根据统计数据,自动从数据中生成期望。由于数据质量工程师不必从头开始编写断言,因此大幅节省了开发的时间。
目前,Great Expectations兼容大部分数据源,其中包括CSV文件、SQL数据库、Spark DataFrames和Pandas等。
(2)Spectacles
Spectacles是一种持续集成(CI)类工具,旨在验证项目中LookML。此处的LookML是Looker类型的数据建模语言。而Looker是一个BI(业务智能)平台,它允许那些不懂SQL的人员去分析和可视化数据。
Spectacles通过在后台运行SQL查询,并检查错误,来验证LookML。它能够与GitHub、GitLab和Azure
DevOps相集成。该工具适用手动调用、从拉取请求中触发,以及作为ETL作业的一部分运行等,几乎任何类型的部署模式。
(3)Datafold
作为一个主动式的数据质量平台,Datafold由数据差异(Data Diff)、具有列级沿袭(lineage)的数据目录(Data
Catalog)、以及数据监控(Data Monitoring),三个主要组件所构成。
Data
Diff允许您在合并到生产环境之前,对两个数据集(例如dev和prod)进行比较。这有助于用户采用更为主动的开发策略。它也可以被集成到团队的CI/CD管道中,以便共享GitHub或GitLab中的代码更改,并显示出具体的差异。
(4)Dbt
Dbt是一个数据转换类工作流工具。它在部署之前,能够针对目标数据库执行数据转换的代码,显示代码将如何影响数据,并突出显示各种潜在的问题。也就是说,Dbt通过运行SELECT语句,以基于转换的逻辑,去构建数据的结束状态。
(5)Evidently
作为一个开源的Python库,Evidently用于分析和监控机器学习的模型。它能够基于Panda
DataFrames和CSV文件生成交互式的报告,可用于对模型进行故障排除和数据完整性检查。这些报告会显示模型的运行状况、数据漂移、目标漂移、数据完整性、特征分析、以及分段性能等指标。
以上梳理了数据质量管理的定义、目标及工具等,希望对你有所帮助,如果你想了解更多相关内容,敬请关注三个皮匠报告的行业知识栏目。
推荐阅读:
工信部:2022质量大数据白皮书(177页).pdf
Ivalua:第五届供应链数据质量与治理研究报告(2022)(19页).pdf
数据中心高质量发展协会:超融合数据中心网络白皮书(19页).pdf