数字化时代,数据已经成为企业管理的关键要素,随着数据的日益增长及汇聚,企业数据质量问题成为数据治理的关键。数据质量直接影响到能否通过数据分析驱动企业生产、运营、服务提效及创新。高质量的数据对管理决策、业务支撑等都有极其重要的作用,只有持续的数据质量改进才能推动数据治理体系的完善,维持数据质量水平,为企业数据战略提供坚实的保障。
数据这个词很活跃,人人耳熟能详。它相对比较清楚的释义为:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。在运营商行业中,所涉及到的相关IT数据,通常包括支撑系统中的资产数据、订单数据、归档业务信息数据、客户数据等等,这些数据产生贯穿了业务支撑的全过程,所包含的信息极其丰富。
数据的信息记录作用确定了它在查询、统计、分析等方面都会在不同的时期里发挥作用,其不仅仅面向所有者提供信息,通常会根据协议约定覆盖整个企业的业务生产,甚至外部。
信息化也好,数字化也罢,终究是众多基于数据的应用,数据应用能否获得预期业务效果,不仅考验规划设计应用场景的产品专家,更是取决于长期困惑企业及支撑厂家的数据问题能否得到解决。
不完整,即对于需要描述的一个对象,缺乏足够完整的信息。往往构成源于不同系统、不同时期,总是有各种原因导致无法汇聚。
不正确,这点和数据产生的方式有很大关系,不正确的过程数据通常由业务逻辑或业务规则造成,资料数据错误通常由录入环节失误导致,这种失误通常难以管理,例如营业人员把客户的出生信息录成上个世纪,则直接就多了个百年老妖。
不明白,业务系统在草创之初恣意生长,带来的模型管理混乱。多年之后的数据开发人员和业务人员,很多的时候眼巴巴地看着一些释义似是而非的数据徒增奈何。
学习时间又到,数据质量的定义是:数据的一组固有属性满足数据消费者要求的程度。据此,业务人员符合概念中的消费者的定义,概因其是业务需求的代表者。数据质量直接影响到数据业务需求的支撑,然而影响数据质量的因素又有哪些呢?
很多企业的信息化现状是先建设后治理。早期缺乏整体的数据规划,没有统一的数据标准和明确的数据质量目标,导致不同业务部门在处理业务时,容易出现数据冲突或矛盾。
缺乏有效的数据问责机制,没有明确数据归口管理部门和岗位职责,导致出现数据质量问题时无法厘清职责,各业务部门之间互相推诿。
数据质量管理中的一大挑战,在于各个部门对于所依据的、共识的数据标准进行业务系统建设。如果缺乏统一的数据标准,致使数据理解难以一致,业务之间的协作和沟通就如同“鸡同鸭讲”。
业务部门既是数据需求的提出方,也是数据的生产方。业务部门的人为因素是造成企业数据质量低下的一个非常重要的原因。常见的人为因素有拼写错误,数据输入不匹配字段如大小写、特殊字符录错等,这些都会导致数据的不规范问题。
在设计阶段对数据模型质量的关注不足,需求理解不到位,数据库表结构、数据库约束条件、数据校验规则的设计开发不合理,就会造成数据录入无法校验或校验不当,引起数据的重复、不完整、不准确。
数据传输包含数据采集、数据转换、数据装载、数据存储等环节。数据采集来源多不统一、数据采集接口效率低、数据转换规则配置错误、数据装载存储机制不合理等,使得产生数据出数慢、数据不准确、数据不完备等问题。
正所谓“工欲善其事,必先利其器”,一套好的数据治理工具能让企业的数据治理工作事半功倍,因此如何低成本、高效率、全链路、闭环化的管控、稽核、监控数据质量成为重要命题。
WhaleDI“数据质量管理工具”作为企业数据治理体系落地的重要利器之一,通过对数据仓库/源端数据进行质量标准管理,以全流程覆盖、易使用、规则全、智能化、闭环管理等为目标,建立事前标准定义、事中全链路监控、事后分析的运营机制,形成PDCA质量管理循环,促进数据质量的持续提升。
通过对数据标准的统一定义,明确数据的管理部门和责任主体,为企业的数据质量治理提供了基础保障。通过对数据实体、数据关系以及数据处理,定义统一的标准、数据映射关系和数据质量规则,使得数据的质量治理有法可依,有据可循,为企业数据质量的提升和优化提供保障。
数据标准管理其核心能力主要包括业务术语管理、字段库管理、术语字段标准映射等。
(1)业务术语则是可以定义企业级的公共业务词汇表,建立各部门对公共业务术语的共识,以业务视角管理各类业务术语,包括客户名称、客户编码、身份证号、手机号码、邮箱等,同时对这些业务术语进行目录化、标准化、流程化管理。
(2)字段库是指对数据模型逻辑字段的管理,对数据模型的字段从字段名称、字段编码、字段分类、字段类型、关联业务术语、关联数据字典、关联同义词等方面进行规范、统一的定义,后续模型开发直接引用即可,保障模型开发的规范性。字段库字段标准配置,包括字段命名规则、字段编码规则、字段取值范围、是否主键、是否唯一、是否非空等,后续可用于映射物理字段数据标准,实现实例数据的标准检验。
(3)通过字段库字段关联业务术语,实现业务术语与字段库字段(即逻辑字段)建立1:1的对应关系,实现业务术语与逻辑字段的映射。通过脚本解析(例如脚本中a.cust_id=b.customer_id、a字段数据复制b字段数据等)、调度任务字段映射、同义词等方式,建立逻辑字段与物理字段1:N的关联关系。通过业务术语逻辑字段与对应物理库表物理字段的1:N的关联关系,可将业务术语字段的数据标准自动映射至对应物理库表字段,例如字段命名规则、字段编码规则、字段取值范围、是否主键、是否唯一、是否非空等,实现数据标准的低成本配置、高效应用,为后续的数据质量治理提供有效依据。
数据质量管理工具支持提供多种可视化规则模板配置能力,覆盖数据质量管理中的各类稽核场景,包括数据的及时性、完整性、一致性、准确性、逻辑性等20+稽核规则;此外对于复杂场景的稽核,支持自定义规则模板配置能力,可通过SQL、Shell、存储过程等自定义灵活配置。
及时性规则:主要用于对接口层的数据是否准时到达进行稽核,包括表数据、表字段数据、文件数据等。
完整性规则:主要用于稽核从业务系统采集数据的库表或文件到接口层库表或文件的记录是否完整,系统会根据取数条件判断两边的表记录数或文件名称/大小等是否完整一致。
一致性规则:主要用于稽核从业务系统采集库表数据同步至数仓接口层库表间实例明细是否一致、或同指标应用不同库表间指标值统计是否一致等,包括主数据一致性、明细一致性、指标值一致性等。
准确性规则:主要用于稽核库表的数据字段格式是否符合数据标准规范定义,包括主键唯一性、不可重复性、非空性、外键准确性、取值范围、编码规则等。
逻辑性规则:支持目标表当前账期的数据与历史账期数据进行比较,是否满足一定的波动率、阀值、平衡公式的要求,判断数据的波动情况。
自定义规则:对于复杂场景的稽核,可通过SQL、Shell、存储过程等自定义灵活配置。
根据不同的配置场景,支持多视角质量规则配置,包括基于规则视角、表视角、任务视角等,可按需选择,灵活应用。除了多视角配置能力外,产品持续提升免配置、低配置、批量配置等能力,可降低配置成本,提升配置效率。
规则免配置:包括对于关键源表、目标表的总数一致性比对等,通过开关控制脚本解析日志获取库表记录数。
规则低配置:包括对于库表的主键、关键维度、关键度量的非空性校验等,根据数据标准推荐配置对应的数据质量规则。
规则批量配置:包括数仓目录批量配置(目录下的库表可自动沿袭配置)、表视角批量配置、EXCEL导入批量配置等能力。
数据质量稽核是通过建立数据质量管理组织机构,制定质量管理规范,确定相应的工作流程方法,并在系统中实现质量检查、修正、考核功能,形成数据质量修正闭环的机制;数据稽核是对数据本身执行合法性等方面检查的过程,通过配置质量规则和执行稽核引擎来实现对数据属性、数据属性关系、数据表关系的检查。
质量稽核引擎是基于配置的质量规则策略自动解析生成可执行的稽核任务,自动输出稽核结果。
稽核对象数据源类型:包括MySQL、Oracle、GP、GBase、Hive、ES、HBase、FTP等,基本涵盖业务系统的数据源类型。
质量稽核任务频率配置:历法支持公历和农历,稽核频率可选择月、日、小时、分钟、非周期等类型,可根据实际需要灵活选择。
质量稽核任务高效执行:可基于稽核对象字段进行任务分片设置,实现任务分区分片、多任务多线程、分布式等执行方式,提升质量稽核效率。
质量稽核结果自动输出:基于质量规则配置的策略例如稽核通过、稽核警告、稽核不通过等阈值范围,稽核引擎自动输出稽核结果和稽核差异明细数据等,可供业务人员查看和跟踪处理。
对于数据质量稽核结果提供可视化分析能力,支持通过拖拽式、组件化的方式自定义质量报告,包括数据质量稽核结果概览、数据质量总体得分、分层分域分质量规则类型得分、分层分域分质量规则类型质量趋势图等多维度分析,让数据质量情况看得见。
对于生成的数据质量报告,支持面向组织、用户、角色等方式进行报告共享,报告可转换成图片、PDF、xlsx、html、txt等,可通过短信、邮件、FTP等方式推送质量报告,并可设置推送频率,让数据质量情况被关注。
对于已定义的数据质量报告可沉淀为报告模版,可快速复用,降低报告配置成本。
对于数据质量规则支持模板化派单配置,包括配置工单接收人、工单处理流程、工单处理时限等,对数据质量稽核不通过的问题系统根据配置自动发送预警工单,通知源端或问题负责人进行质量整改。同时可将已配置的派单流程沉淀为模版,可供后续配置直接引用,降低配置工作量。
工单处理人完成质量整改进行回单时,系统自动关联启动质量稽核任务对已完成整改的数据进行二次稽核,二次稽核通过后才能归档整个工单流程。通过质量工单流程建设数据质量治理闭环体系,为平台运营降本提效赋能。
目前数据质量管理工具已在国内外电信运营商行业、政企行业等多个项目落地。其中,重庆电信大数据平台每天对元数据和实例数据进行及时性、完整性、一致性、准确性、逻辑性稽核,已沉淀570+质量稽核规则。通过自动化、流程化、闭环化数据质量管理,更少的配置投入,更快的数据问题发现,降低企业数据质量管理成本,帮助企业全面提升数据质量,为企业数据治理奠定了核心基础。
企业数据加工往往是跨系统的,数据从采集到应用,涉及到多系统、多环节、多流程,数据链路环节长,数据加工复杂,常常没有形成全链路血缘。此外,数据采集调度任务成千上万、整体较分散,无法查看上下游质量影响情况,因此,聚焦业务应用的可视化全面质量监控显的尤为重要。
企业数据质量治理的终极目标是为了提升数据价值、更好的服务于业务,因此以最终关注的业务应用为目标整体查看全链路数据质量情况更能符合实际业务诉求。
数据血缘是指在数据的全生命周期内,数据与数据之间会形成各式各样的关系,贯穿整个数据链路。数据血缘主要包括表级血缘和字段级血缘,通过数据血缘分析针对数据流转过程中产生并记录的各种信息进行自动采集、处理和分析,对数据之间的血缘关系进行系统性梳理、关联、并将梳理完成信息进行存储,最终以全链路方式进行可视化呈现,有助于高效地实现质量问题的快速定位以及影响面的快速评估。
数据生产、加工过程中,数据的变更对于后续的数据链路都可能产生一定的影响,因此可视化监控数据的异动例如表结构变动、脚本变动、任务变动等,再基于数据血缘分析对上游或者下游相关数据链路的影响,有助于提前预测问题、规避或减少对业务应用的影响。
通过对整条数据链路进行监控和分析,可提前预测数据出数的及时性,监控数据波动情况、数据分布情况等质量信息,有助于快速发现问题、定位问题,从而及时进行干预,减少质量问题的发生、降低问题对业务带来的影响和运维成本。