您现在的位置:   首页 >> 新闻中心 >> 数据分析

面向初学者的数据分析知识,让你快速了解数据分析

发布人:www.yunke.ai 发布时间:2021-01-01 129 次浏览

编辑导语:大数据是互联网发展到一定阶段的必然产物,身处于大数据时代的我们每天都会活在一连串的数据里。因此,为了高效并合理地运用这些数据,数据分析行业迅速崛起。到现在,越来越多的人看到了数据分析的未来和前景,本文作者总结了初学者应该掌握的数据分析知识,帮助你快速掌握数据分析技巧。

一、什么是数据分析?

数据或信息只是一串原始的数字或字符,数据量的增加会导致各种需求的增加。

比如我们需要对数据执行检查,进行数据清理,转换以及数据建模,通过这些方式来达到我们需要的目的,得出相应的结论,做出正确的决策——我们把这一系列过程称为数据分析。

在统计应用中,数据分析可以又分为探索性数据分析(EDA)和验证性数据分析(CDA)。这二者的区别在于——EDA着重于发现数据中的新特征,而CDA着重于确认或否定现有的假设。

探索性数据分析可以理解为一种用于找到数据间的模式相关性的分析。就像是“参考答案”的获取,这种“参考答案”有且不限于一个。

场景包括典型的“啤酒尿布”这类数据挖掘应用,工具包括SAS、SPSS这类数据挖掘软件以及R语言这类语言工具。

优点是有可能从一堆貌似杂乱无章的数据中找到一些相关性和模式来辅助决策;缺点是找到一些无意义的相关性,比如所有拥有结婚证的用户都结过婚。

验证性数据分析是当你知道了用什么分析模型和算法,目前需要对已有的数据计算出响应结果,更类似一种“准确答案“的获取。

应用场景就是基于多维数据仓库的OLAP分析应用。在企业应用最广泛的就是EPM(Enterprise Performance Management)包括全面预算,商业智能等应用。

在企业应用最广泛的就是EPM(Enterprise Performance Management)包括全面预算,商业智能等应用。

与"啤酒尿布”这种探索性数据挖掘应用相比,OLAP分析的结果只能是唯一的准确答案。

比如通过企业计算出的利润率只能是一个数字,任何一家企业都不可能得出“利润率有可能是13.2%”这样的答案,一旦确定了一个数字,那这个数字就必然只有对和错两种结果,不存在第三种的可能性。

这类系统包括Oracle Hyperion、IBM Cognos以及智达方通Intcube EPM,这些都是基于多维数据仓库的OLAP分析工具平台。

二、数据分析的大致步骤