您现在的位置:   首页 >> 新闻中心 >> 数据分析

工作中人们常提到的数据预处理,说的到底是什么?

发布人:www.yunke.ai 发布时间:2021-01-01 171 次浏览

数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。

在做数据分析时,我想许多数据分析师会像《R语言实战第二版》的作者卡巴科弗那样发出感叹:“数据分析师在数据预处理上花费了60%的时间……”

是的,我们所知道的建模,评估模型等数据分析工作所花费的时间远远没有数据预处理的多。这件事虽然麻烦多事但却“功在千秋”,如果在做数据分析时前期的数据预处理做的很好,那后面的步骤会说话的话,相信我,它们一定会感谢你的。这就跟减肥一样,过程艰难,但人家创造101的杨超越不也下定决心唱出一句:“燃烧我的卡路里,你是最棒的”嘛。

数据预处理一方面是为了提高数据的质量,另一方面也是为了适应所做数据分析的软件或者方法。一般来说,数据预处理步骤有数据清洗、数据集成、数据变换、数据规约,每个大步骤又有一些小的细分点。当然了,这四个大步骤在做数据预处理时未必都要执行。

一、数据清洗

数据清洗,顾名思义,“黑”的变成“白”的,“脏”的数据变成“干净”的,脏数据表现在形式上和内容上的脏。

  • 形式上的脏,如:缺失值、带有特殊符号的;
  • 内容上的脏,如:异常值。