依托于统计学的数据分析,存在许多先天性的不足,例如对数据的精确度要求很高,无法做到实时的分析等等。而当下最时髦的数据分析——大数据分析,就能很好地弥补统计学的不足,下一期我们会讲数据分析的今生——大数据。
从不会说话的死人说起
二战时,从战火中返航的飞机的伤痕呈现某种规律,有的部位中弹多,有的部位中弹少。为了提高飞机的防御力,直觉上似乎应该在弹孔密集处加强装甲。

但如果仅仅根据返航的飞机上的弹孔分布,来研究该加强飞机的哪部分时,就忽略掉了“飞机被击落”这个筛选的过程。也就是说,能返航的飞机都是躲过防空炮火筛选的、没有受过致命伤的。他们多中弹于翼部和尾部,而油箱和驾驶员仓位完好,这恰恰说明翼部和尾部不是致命伤,不应该加强;而油箱和驾驶员仓位受伤的飞机,基本没有活着回来的,因此油箱和驾驶员仓位才是真正致命的地方,这些部位受伤的飞机却因为被击落而被筛出研究样本,从而变成了“不会说话的死人”。
下图为沃尔德在论文中计算飞机被击落概率的方法:

从二战飞机的故事,我们可以看到,同样的数据,都能得出完全不同的判断。而如何做出正确的判断,则取决于人的数据分析能力。这个系列,我会阐述经典的数据分析方法以及当下流行的数据分析方法,即以统计学为基础的数据分析,和以大数据为基础的数据分析。
数据分析的前世:统计学
三百多年前,一个名叫约翰·格朗特(John Graunt)的英国缝纫用品商提出了一个很有新意的方法,推算出鼠疫时期伦敦的人口数,而这种方法就是后来的统计学。他利用教区死亡记录数据来估计伦敦的人口,每年伦敦大约有13000葬礼,每十一个家庭平均每年3人死亡,家庭平均8个人,因此伦敦的人口约为384000。采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。由此我们可以得出统计学的定义:
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
闽ICP备13000641号-4