按照DAMA数据质量提升方法论以及行业实践,总结出了数据质量提升方法,主要包括收集、分析、提升等,从数据问题出发,深入分析,抽丝剥茧,最终理清数据的问题现状和总结出数据问题的真正原因,并针对问题引发的原因从制度规范、管理内容、组织与人员、流程机制和技术支撑等制定合理有效的提升措施。
在具体数据质量问题解决过程中,数据质量问题的定位和解决过程往往依赖具体人员的经验,问题处理效率和正确性难以保证。因此有必要引入元数据的相关功能,提供对数据模型、指标口径及数据处理过程等元数据信息的灵活展现。在基于元数据管理的基础上建立罗盘数据质量稽核评价平台,并通过制定相关管理流程来保证数据质量的日常管理。
罗盘数据质量稽核评价平台的核心是元数据管理支撑功能的实施。
罗盘数据质量稽核评价平台与元数据管理平台支撑功能之间的关系阐述如下:
¨ 数据质量管理包含元数据管理
¨ 元数据管理功能为数据质量管理提供支撑
平台逻辑架构如下所示:
n 采集层:主要描述数据质量系统的相关数据来源,数据来源包括:导入业务规则和技术规则,同时在数据质量检核过程中需要以JDBC 连接方式连接源业务系统、数据仓库贴源层和大数据平台等,并运行检核规则。
n 存储层:采用 3NF 设计存储模型,主要存储数据质量业务规则、技术规则、数据指标信息和检核问题明细数据。
n 管理层:
u 稽核规则建立
提供业务规则、技术规则录入和导入功能,以及业务规则和技术规则的发布入口。
u 稽核规则执行
规则执行主要包括以下内容:
² 任务组配置:把相关检核规则信息配置到一个任务组,以便批量执行质量检核;
² 手动稽核:根据定义好的稽核规则、系统立即执行稽核任务;
² 自动稽核:根据定义好的稽核规则和调度配置、系统在后台自动进行质量稽核操作;
u 检核监控
² 资源监控:动态监控 JVM 的内存情况,CPU 繁忙程度;
² 运行监控:动态监控质量检核指标的并行度;
² 检核日志:提供检核日志,以便及时了解检核规则运行结果。
u 数据质量问题管理
提供数据质量问题登记、数据质量问题状态更新流程的发起管理和发起流程、已办流程、流程跟踪信息查询等流程信息查阅功能。
u 评分管理
通过数据质量评分卡应用可以对检核结果进行评估,更加直观合理地考核数据质量是否有所改进,质量评分卡提供业务规则、技术规则配置、评估对象管理、评分结果统计分析查询报表等功能。
n 应用层:数据质量应用层主要包括数据质量基础应用和数据质量统计分析。数据质量基础应用主要包括业务规则和技术规则的查询、下载,以及稽核结果查询和问题明细查询等功能;数据质量统计分析主要实现单稽核规则、表级、系统级的数据质量趋势分析,产生相应的数据质量报告和检核问题报告, 以及产生评分评估结果。
n 用户层:使用数据质量管理的各类用户。不同的企业涉及的人员会有不同,此处从总体上概括为数据质量管理人员、系统管理人员、数据架构师、技术用户、业务用户等。