j

jijile

V1

2022/11/02阅读:72主题:绿意

数据质量管理深入浅出

质量问题也许是生活中最为关注的问题,我们都期望享用高质量的商品与服务,且企业也不断加大质量管理的投入,为了更好的用户体验。

在企业数字化转型浪潮下,传统的质量管理手段已无法应对数字化转型中的数据质量管理需求,我们需要探索出一条数据独有的质量管理体系应对数字化转型需求。

本篇文章以数据质量管理为目标,探究数据质量背后的逻辑,并通过管理与技术手段进行实施。

一、概述

1、数据质量

数据质量就是通过一组维度来评价数据的方式,如同判断商品的好坏一样,数据也有评价标准。

数据是对现实世界的反映,如果当前数据代表的意义与现实世界不符,则认为数据出了质量问题。

举栗:奇峰实际性别为男,网站注册信息时也为男,但是注册完成后查看性别显示为女,则认为这个系统出现了数据质量问题。

2、质量问题原因

追根溯源,导致数据出现质量问题的原因有很多,总的来看,主要有业务、技术、管理、基础设施四个方面:

  • 业务端:业务源系统变更(源系统数据库表结构变更、源系统环境变更)、业务端数据输入不规范等;
  • 技术端:数据开发任务中各种任务的流程、参数、配置等出错;
  • 管理端 :认知层面缺乏质量意识、缺乏有效的数据质量问题处理机制等;
  • 基础设施:物理资源不足、基础设施不稳定等。

3、数据质量评判标准

  • 准确性:
    数据描述的信息与客观现实是否相符,准确性是数据质量中最重要的评价标准。
  • 完整性:
    当前数据是否存在丢失、关键字段为空、或者不可用的情况,主要包括:实体完整、属性完整、记录完整和字段值完整。
  • 一致性:
    多源数据是否遵循了统一的规范,数据集合是否保持了统一的格式。
  • 规范性:
    数据是否遵循预定的语法规则并符合其定义,例如数据的类型、长度、格式、取值范围等。
  • 唯一性:
    当前数据是否有重复,是否存在唯一标识保证数据的唯一性,包括:主键唯一,实体唯一,事件唯一
  • 及时性:
    数据从产生到可以查看的时间间隔。数据分析对于及时性要求不高,但如果数据分析周期过长,可能导致分析结论失去借鉴意义。
图:数据质量评价标准
图:数据质量评价标准

4、数据质量管理

数据质量管理(Data Quality Management),是指对数据生命周期的每个阶段可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

通俗点说就是:能够确保数据质量的管理活动,我们称其为数据质量管理。

二:意义

下图即可说明:

图:数据质量是统计的生命
图:数据质量是统计的生命

三:当前痛点

1、决策导向(重中之重)

目前国内企业掀起了一波数字化转型的浪潮,数据作为生产要素的价值也愈发凸显出来。依赖错误的数据做出的决策,必然会将企业导向错误的方向。在此背景下,数据质量被越来越多的企业管理者重视。

2、数据使用成本高

数据质量较低,导致在数据使用过程中,开发人员需要反复对数据进行校准(准确性)、补全(完整性)、校对(一致性)、转义(规范性)、去重(唯一性)等操作,确保结果真实可用。数据使用成本激增。

3、故障恢复成本高

数据质量导致的问题,最后都会反馈到员工以及用户之中,到时无论是排错,修复,决策调整,都会占用开发-业务-管理人员大量的时间精力,增加人力成本开支。

四:主要目标

1、成本可控

高质量的数据在开发时可以省去数据清洗与预处理的成本,提高开发效率并大幅降低故障率,从而节省出大量的开发与使用成本,减少故障恢复的投入。

2、结果可靠

高质量的数据产出可靠的统计结果与报表。

3、协作高效

依据可靠的结果进行协作,降低了校对以及沟通成本,提高协作效率。

五:数据质量管理落地实施

1、痛点为导向

首先需要明确一点,数据质量在绝大多数的数据平台建设中,都不会作为前期建设的主要重点。

数据质量的建设一般不会以需求为导向,即在平台建设过程中就规划相关内容并进行开发迭代,平台建设的前期一般以业务产出为主。

平台建设完成后,数据质量相关痛点愈发凸显,导致平台遭受质疑,数据使用成本升高,此时数据质量才会被重点关注,并投入大量精力去进行整改优化。

2、事前规范

规范制定
在数据流程正常运行的前提下,大部分数据质量问题均是因为没有遵循开发规范导致。我们可以根据数据质量特性制定相关开发规范并在事前进行遵守。

  • 数据模型规范:
    数据结构清晰、分层明确-层级依赖、高内聚-低耦合-可扩展、规范化-反规范化等。
  • 元数据规范:
    字段描述、字段类型-长度-取值范围、枚举范围、主键唯一等。
  • 命名规范:
    表、字段名称,项目名称,文件名称、函数名称、编码规范等。
  • 安全规范:
    隐私字段脱敏、权限层级管控等。
  • 上线规范:
    唯一性校验、试运行正常、数据条数校验、NULL 值校验等。

规范核验
针对已经制定的开发规范,需要采取自动化或人工手段进行规范校验,并提醒相关责任人进行整改,否则规范只是流于表面。

3、事中监控(数据质量监控系统)

图:数据质量监控系统
图:数据质量监控系统

数据质量的落地实施,最核心还是需要通过数据质量监控系统,通过自动化的质量检核方式,极大的减少人力的投入和过程干预,提升效率,减少误差。围绕完备性、真实性性、一致性、及时性等指标监控分析数据质量问题并进行整改优化。

下篇文章:《数据质量监控系统设计与实现》,带你 0-1 设计与实现一个完整的数据质量监控系统

监控规则制定
引用系统定义的校验规则对系统表、字段进行多角度的数据质量监控,对系统关键业务数据的质量情况进行全方位把握,监控规则分为字段级与表级监控,具体包含以下几种:

  • 唯一值监控:监控某个字段值是否唯一,例如 ID,如果唯一值字段出现重复数据,则代表数据质量异常。
  • 空值监控:某个字段必须有值,例如付款记录中的金额。此规则监控此类字段是否为空,为空则判断异常。
  • 指标波动监控:某个指标例如 GMV,如果当天指标比昨天暴涨 10 倍,大概率为异常。
  • 取值范围监控:例如年龄字段,值是否超过常规范围。枚举字段,值是否超过定义范围。
  • 记录数量波动监控:如果当前表日均增加 1W 条记录,某天新增超过 2W 条,大概率出现异常。
  • 数据规范校验:字段格式规范(例如时间字段是否按照指定格式),

监控异常告警
对上述监控规则中,出现异常的任务进行告警至责任人。包括但不限于:微信、钉钉、飞书、邮件、短信、手机等方式。

异常修复及记录
责任人接收到异常告警后,及时对数据任务进行排查以及修复,同时对当前异常进行记录用于后续整改。

4、事后改进

事实上,再严格的预防措施和监控都无法完全避免数据质量问题的发生,事后的管理和评估就尤为重要了。

要想真正解决数据质量问题,就要明确业务需求并从需求开始控制数据质量,并建立数据质量管理机制。
从业务出发做问题定义,由工具自动、及时发现问题,明确问题责任人,通过邮件、短信等方式进行通知,保证问题及时通知到责任人。跟踪问题整改进度,保证数据质量问题全过程的管理。

六:评价体系

在公司实施了一系列的数据质量管理策略之后,我们如何评价是否有效,可以从以下几点:

  1. 数据完整性
    ☆ 考量数据项信息是否全面、完整、无缺失
    ★ 指标公式:表完整性和字段完整性的平均值

  2. 监控覆盖率
    ☆ 确保数据遵循统一的数据标准或规范要求
    ★ 指标公式:已监控作业个数/作业总个数

  3. 告警响应度
    ☆ 通过日常管理、应急响应,降低或消除问题影响,避免数据损毁、丢失
    ★ 指标公式:已处理告警个数(本周)/告警总个数(本周)

  4. 作业准确性
    ☆ 考量数据是否符合预设的质量要求,如唯一性约束、记录量校验等
    ★ 指标公式:1 - 告警作业个数(本周)/监控作业总个数

  5. 作业稳定性
    ☆ 考量作业的运行稳定性,是否经常报错,导致数据事故
    ★ 指标公式:1 - 错误作业个数(本周)/作业总个数

  6. 作业时效性
    ☆ 考量数据项信息可被获取和使用的时间是否满足预期要求
    ★ 指标公式:延迟的高价值作业个数/高价值作业总个数

  7. 作业性能分
    ☆ 考量作业的执行效率和健康度,诊断作业是否倾斜等性能问题
    ★ 指标公式:1 - 危急作业个数(本周)/作业总个数

    图:数据质量管理评价
    图:数据质量管理评价

分类:

后端

标签:

大数据

作者介绍

j
jijile
V1