什么是数据质量管理？目标是？常见工具有哪些？

2022-09-27 15:40:54 作者：2200 2042

1.数据质量管理

数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题，进行识别、度量、监控、预警等一系列管理活动，并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

数据质量管理

2.数据质量管理的目标

数据质量管理的目标是“通过加强数据质量管理,保障企业数据中心数据的准确性、完整性，推进数据资源分析利用，使企业积累的数据成为重要的资源，为企业宏观管理和决策提供有效支持”。

3.数据质量管理工具

(1)Great Expectations

作为一个开源库，Great Expectations可用于验证、记录和分析数据。用户以期望(expectations)的形式定义断言(assertions)。顾名思义，期望是您期望从数据中获得的质量;断言则是用声明性语言编写的。

Great Expectations的另一个功能是自动化数据分析。它可以根据统计数据，自动从数据中生成期望。由于数据质量工程师不必从头开始编写断言，因此大幅节省了开发的时间。

目前，Great Expectations兼容大部分数据源，其中包括CSV文件、SQL数据库、Spark DataFrames和Pandas等。

(2)Spectacles

Spectacles是一种持续集成(CI)类工具，旨在验证项目中LookML。此处的LookML是Looker类型的数据建模语言。而Looker是一个BI(业务智能)平台，它允许那些不懂SQL的人员去分析和可视化数据。

Spectacles通过在后台运行SQL查询，并检查错误，来验证LookML。它能够与GitHub、GitLab和Azure DevOps相集成。该工具适用手动调用、从拉取请求中触发，以及作为ETL作业的一部分运行等，几乎任何类型的部署模式。

(3)Datafold

作为一个主动式的数据质量平台，Datafold由数据差异(Data Diff)、具有列级沿袭(lineage)的数据目录(Data Catalog)、以及数据监控(Data Monitoring)，三个主要组件所构成。

Data Diff允许您在合并到生产环境之前，对两个数据集(例如dev和prod)进行比较。这有助于用户采用更为主动的开发策略。它也可以被集成到团队的CI/CD管道中，以便共享GitHub或GitLab中的代码更改，并显示出具体的差异。

(4)Dbt

Dbt是一个数据转换类工作流工具。它在部署之前，能够针对目标数据库执行数据转换的代码，显示代码将如何影响数据，并突出显示各种潜在的问题。也就是说，Dbt通过运行SELECT语句，以基于转换的逻辑，去构建数据的结束状态。

(5)Evidently

作为一个开源的Python库，Evidently用于分析和监控机器学习的模型。它能够基于Panda DataFrames和CSV文件生成交互式的报告，可用于对模型进行故障排除和数据完整性检查。这些报告会显示模型的运行状况、数据漂移、目标漂移、数据完整性、特征分析、以及分段性能等指标。

以上梳理了数据质量管理的定义、目标及工具等，希望对你有所帮助，如果你想了解更多相关内容，敬请关注三个皮匠报告的行业知识栏目。

推荐阅读：

工信部：2022质量大数据白皮书(177页).pdf

联系我们

关于我们

侵权处理

关于我们

三个皮匠报告专业的行业报告下载站，每日更新，欢迎大家关注！

客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部

上海品茶