数据平台其实是个概括的词,泛指企业中的数据环境、数据形态和数据架构等内容。而本文就跟大家详细介绍这些内容。

数据环境与数据形态
数据环境指的是数据存储、处理、转换所处的物理环境,例如生产环境、分析环境和测试环境等。
生产环境是生产应用和系统实时运行所处的环境,其中的数据是会实时变化的。
分析环境是与生产环境解耦的一个数据环境,在数据环境中对数据进行分析,不会影响生产环境的正常运行。分析环境中的数据来源于生产环境中的“快照”,因此本质上是离线的数据。
为保证分析环境的作业不对生产环境造成影响,我们应该避免数据直连的方式,即将原始数据直接从生产系统导入分析系统的紧耦合方式。这种方式在数据量较小时可能不会出现问题,但当数据量增大后,数据直连的弊端便会逐渐展现。主要体现在双方环境的互相影响、安全上的隐患、平台扩展性差等方面。因此更合理的办法是在生产环境和分析环境之间设置数据缓冲区,作为中转从各个系统接收原始数据并暂存,经过ETL后导入分析环境。
至此,根据数据所处环境,可将数据定义为3种基本形态:生产数据、原始数据和分析数据。数据和其所处环境之间的联系如下图所示。

数据形态及所处环境之间关系
闽ICP备13000641号-4