本文围绕数据采集为讨论主题,从三个方面——业务流程梳理、原型注意点、项目上线后复盘总结进行了分享。

随着数据量的不断增速,数据价值也逐渐被很多公司所关注,尤其是偏重于业务型的企业,大量数据的产生,在未被挖掘整合的过程中通常被看作是一堆无效且占用资源的;但一旦被发掘,数据的价值将无可估量。尤其像电商,银行,服务行业等等。近段时间有幸参与负责了一个大数据项目,今天主要对采集系统做一次简单的复盘:
数据采集系统故名思意就是将数据从数据源采集到能够支撑大数据架构环境中,从而实现数据的采集以便后期对数据的二次加工建立数据仓库。
一、业务流程梳理
在业务流程梳理的过程中,我们先预设个场景,如:
当公司运营人员提出一个订单转化率的需求,作为产品人员,首先要确定分析订单转化率与哪些因素有关,最终确定从用户下单,支付这两个环节中分析,如当月有多少用户提交了订单,之后有多少用户确认了订单,有多少用户最终支付订单等;最终呈现了漏斗形的分析主题;因此分析时就需要确定所需要的这些数据要从哪些表获取,都需要获取哪些数据,获取到后要采集存储到哪个数据仓库的表中,最终被使用到。
因此从上面的例子中我们可以从以下几点思考业务流程:
- 确定主题,确定主题模型;
- 确定表和数据口径;
- 确定需要与目标的映射关系;
- 确定表与口径需要从哪些源下获取,以及如何数据更新的频率等;
从以上几点我们可以看出,第一点主题模型我们今天不做过多的介绍,着重从2~4点分析可以将采集系统划分为数据源配置、表结构的管理、源表管理、映射配置和采集任务管理几大模块。
- 数据源管理包括新增,编辑,删除等;
- 表结构管理包括表结构的批量导入,查看等;因为采集过程中表是要参与映射的,结构一旦导入是不允许修改的,以免影响后面的采集配置文件的输出。
- 映射配置主要是配置表与表,字段与字段的映射关系,过滤条件与增量的设置。作为采集的配置模板使用;为什么不是在之前就与数据源关联的目的是因为解耦表与数据源的关系,方便于后期的扩展和用户易用性。
- 采集任务管理主要是建立源与源之间采集过程以及任务的执行情况。
闽ICP备13000641号-4