上海品茶

您的当前位置: 上海品茶 > 上海品茶 > 行业知识 > 什么是数据质量管理?目标是?常见工具有哪些?

什么是数据质量管理?目标是?常见工具有哪些?

1.数据质量管理

数据质量管理是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

数据质量管理

2.数据质量管理的目标

数据质量管理的目标是“通过加强数据质量管理,保障企业数据中心数据的准确性、完整性,推进数据资源分析利用,使企业积累的数据成为重要的资源,为企业宏观管理和决策提供有效支持”。

3.数据质量管理工具

(1)Great Expectations

作为一个开源库,Great Expectations可用于验证、记录和分析数据。用户以期望(expectations)的形式定义断言(assertions)。顾名思义,期望是您期望从数据中获得的质量;断言则是用声明性语言编写的。

Great Expectations的另一个功能是自动化数据分析。它可以根据统计数据,自动从数据中生成期望。由于数据质量工程师不必从头开始编写断言,因此大幅节省了开发的时间。

目前,Great Expectations兼容大部分数据源,其中包括CSV文件、SQL数据库、Spark DataFrames和Pandas等。

(2)Spectacles

Spectacles是一种持续集成(CI)类工具,旨在验证项目中LookML。此处的LookML是Looker类型的数据建模语言。而Looker是一个BI(业务智能)平台,它允许那些不懂SQL的人员去分析和可视化数据。

Spectacles通过在后台运行SQL查询,并检查错误,来验证LookML。它能够与GitHub、GitLab和Azure DevOps相集成。该工具适用手动调用、从拉取请求中触发,以及作为ETL作业的一部分运行等,几乎任何类型的部署模式。

(3)Datafold

作为一个主动式的数据质量平台,Datafold由数据差异(Data Diff)、具有列级沿袭(lineage)的数据目录(Data Catalog)、以及数据监控(Data Monitoring),三个主要组件所构成。

Data Diff允许您在合并到生产环境之前,对两个数据集(例如dev和prod)进行比较。这有助于用户采用更为主动的开发策略。它也可以被集成到团队的CI/CD管道中,以便共享GitHub或GitLab中的代码更改,并显示出具体的差异。

(4)Dbt

Dbt是一个数据转换类工作流工具。它在部署之前,能够针对目标数据库执行数据转换的代码,显示代码将如何影响数据,并突出显示各种潜在的问题。也就是说,Dbt通过运行SELECT语句,以基于转换的逻辑,去构建数据的结束状态。

(5)Evidently

作为一个开源的Python库,Evidently用于分析和监控机器学习的模型。它能够基于Panda DataFrames和CSV文件生成交互式的报告,可用于对模型进行故障排除和数据完整性检查。这些报告会显示模型的运行状况、数据漂移、目标漂移、数据完整性、特征分析、以及分段性能等指标。

以上梳理了数据质量管理的定义、目标及工具等,希望对你有所帮助,如果你想了解更多相关内容,敬请关注三个皮匠报告行业知识栏目。

推荐阅读:

工信部:2022质量大数据白皮书(177页).pdf

Ivalua:第五届供应链数据质量与治理研究报告(2022)(19页).pdf

数据中心高质量发展协会:超融合数据中心网络白皮书(19页).pdf

本文由作者2200发布,版权归原作者所有,禁止转载。本文仅代表作者个人观点,与本网无关。本文文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

相关报告

G7:卡比斯湾七国集团峰会公报(英文版)(39页).pdf
G7:卡比斯湾七国集团峰会公报(英文版)(39页).pdf

 我们在大流行期间提供了12万亿美元的支持。只要有必要,我们将继续支持我们的经济,将我们的支持重点从应对危机转移到促进未来的增长,制定创造就业、投资基础设施、推动创新、支持人民和提高水平的计划,使任何地方和人,无论年龄,种族或性别被抛在后面。过去的全球危机并非如此,我们决心这次将有所不同。通过在改革后的贸易体

消费者与新现实(英文版)(28页).pdf
消费者与新现实(英文版)(28页).pdf

COVID-19 pulse survey Wave 5 update September 2020 Consumers and the new reality Methodology overview To understand the lasting impact of COVID-19 on con

丁香妈妈:母婴人群的科学育儿之道(78页).pdf
丁香妈妈:母婴人群的科学育儿之道(78页).pdf

年轻爸妈们也希望保持好身材,但或许因为自由时间有限,并未找到合适的健身方式为人父母后,爸妈们想要保持好身材的需求并不弱于有娃之前,但有43%的用户仍在准备的路上,或许是因为有娃之后,并没有大片空闲时间能够满足健身需求,也并没有找到适合自己的健身方式。短时间、碎片化、简易居家健身满足有娃人群健身塑形需求产后的  

华为:2023数字化及其对工作场所的影响分析报告-七国调查的关键结果(英文版)(14页).pdf
华为:2023数字化及其对工作场所的影响分析报告-七国调查的关键结果(英文版)(14页).pdf

 Prof.Dr.Anna SchneiderTrier University of Applied Sciences,Trier(Germany)19 September 2023Picture Markus Spiske from unsplashDigitalization and its impact

Frost&ampSullivan:中国P2P借贷行业市场研究报告(51页).pdf
Frost&ampSullivan:中国P2P借贷行业市场研究报告(51页).pdf

 关于中国P2P借贷行业市场研究。2014-2018 年:P2P 借贷平台持续升温,平台用户数量激增。在2014 年至2017 年间,P2P借贷平台积累了大量的用户,投资人与借款人数量经历了显著的增长,分别从91.9 万人与19.0 万人增加至441.0 万人与476.0 万人。但受行业风险事件、停业及问题平

【研报】艺考行业深度报告:艺考赛道潜力可期产业投资价值出现-210312(41页).pdf
【研报】艺考行业深度报告:艺考赛道潜力可期产业投资价值出现-210312(41页).pdf

联考逐步全国推广,内容逐步丰富。2002 年艺考正式成为高考选择特殊人才的途径之一,尚没有 联考,2005 年教育部鼓励有条件的省份统一组织艺术类专业考试后于 2008 年开始规范美术类统 考, 2009 年全面实施美术类省级统考,2013 至 2015 年期间教育部鼓励各省市扩大联考的科类。全国联考的覆盖 

【研报】教育行业艺考:考核趋向标准化培训市场有望加速整合-20201228(21页).pdf
【研报】教育行业艺考:考核趋向标准化培训市场有望加速整合-20201228(21页).pdf

请仔细阅读本报告末页声明请仔细阅读本报告末页声明 证券研究报告 | 行业专题研究 2020 年 12 月 28 日 教育教育 艺考艺考:考核趋向考核趋向标准化,标准化,培训市场培训市场有望有望加速整合加速整合 艺考:艺术类高校升学通道,标准化程度有望提升艺考:艺术类高校升学通道,标准化程度有望提升。艺考为

会员购买
客服

专属顾问

商务合作

机构入驻、侵权投诉、商务合作

服务号

三个皮匠报告官方公众号

回到顶部