您现在的位置:   首页 >> 新闻中心 >> 数据分析

怎么保障企业数据仓库中的数据质量?

发布人:www.yunke.ai 发布时间:2021-01-01 132 次浏览

不同的企业以及企业的不同发展阶段,关于数仓数据质量保障的要求都不尽相同。文章从互联网公司发展的各个阶段对数据质量管理的要求,以及常见的数据质量衡量标准和通用的数据质量管理流程出发,分享了关于数据质量管理的相关经验。

前段时间被问起:公司的数据质量管理是怎么控制的?基于目前大部分互联网公司的数据部门都会建设集团数据仓库,上层数据产品的数据来源也基本上来自数据仓库。所以,这个问题我理解为:怎么保障企业数据仓库中的数据质量?

结合以往的数据项目经验,我做了简单的回答:

(1)数据基础建设

想要有一个高质量的数据仓库,那么首先从数据仓库的设计上,我们就得有一个主题域完善,层级分明(通常分为ODS【数据源表层】,DWD【数据明细层】,DWS【数据汇总层】,DWA【数据应用层】),且数据消费场景明确,数据加工链路清晰的数据仓库体系。

有了这个基础之后,我们才能对不同主题域,不同层级的数据分别进行监控。

(2)数据处理监控

通过数据血缘关系管理,监控并定位数据处理链路上出问题的执行节点,通过系统或者邮件或企业员工管理平台通知到相应的负责人。

(3)业务系统调整响应

一是新增业务模块,导致有新的数据需要及时接入到数据仓库中。

二是业务模块变更,导致数仓中某些指标的历史统计口径发生了改变。

无论是哪一种,除了借助相应的发布平台工具之外,同时还需要规范及优化人为干预流程,降低业务部门与数据部门的沟通成本,提升数据部门的数据输出质量及数据响应速度。

虽然对于不同的企业以及企业的不同发展阶段,关于数仓数据质量保障的要求都不尽相同,但是都有相关的方法论可以参考。

下面从互联网公司发展的各个阶段对数据质量管理的要求,以及常见的数据质量衡量标准和通用的数据质量管理流程来聊聊数据质量管理那些事儿。

一、从公司发展周期看数据质量管理