本文根据神策数据联合创始人 & CTO 曹犟发表的《数据治理中的一些挑战与应用》主题演讲整理而成。

本文将为你重点介绍:
- 数据治理的概念与重要性
- 数据治理面临的挑战
- 数据治理与组织架构
- 数据治理中的应对
许多大数据公司在过去一段时间都得到了较好的发展,究其原因是因为恰逢专注于业务流的信息化建设正在向数据化转型。
但在很多时候,数据其实还只是 IT 化的“副产品”,早期的工作思路仍然围绕如何将业务 IT 化,而数据只是这个过程中自然而然产生的结果,即所谓的“副产品”。
由于在数据生产的过程中并未做到足够重视,数据质量与可靠性则很难得到保证,这也是数据治理在现在得以被重视的重要原因。
在业务 IT 化的过程中,企业通过第三方厂商、自研等方式构建多种数据系统,采用多种系统中的数据化治理,是实现数据效能、数据驱动业务的关键步骤。
早期,企业用信息技术去构建业务流,而现在,我们试图用信息技术,特别是互联网行业中的一些大数据处理以及分布式处理技术构建数据流,但在构建过程中,过多强调技术本身而忽视了对数据的治理。
数据治理是整体性问题,并非仅是技术问题,市面上数不胜数的商业组件可以解决如何对数据进行存储、查询等问题,但是在实际的业务情况下对于数据治理这样一个系统性工程,目前却并无现成的产品或技术可以直接解决。

我们可以尝试用数据治理的角度来解读上图。
构建数据流的过程,很大意义上是为了解决分布在 IT 系统里各个不同子系统之间的数据孤岛问题,用一条完整的数据流将不同子系统之间的数据孤岛打通,同时应用于不同的应用场景,这个打通的过程,就是某种意义上的数据治理。这也反映了我之前尤为推崇的一个观点——构建数据仓库本身就是一个数据治理的过程。
另外,对于数据的本质,我一直推崇如下两个定义:第一“信息是用来消除不确定性的”,第二“大数据的本质,就是用信息来消除不确定性”。
同样,对于数据驱动在业务决策和产品智能两大方面的应用,也都将建立在数据治理的基础上才有意义。

一、什么是数据治理?
数据治理的本质是组织对数据的可用性、完整性和安全性的整体管理。
闽ICP备13000641号-4