您现在的位置:   首页 >> 新闻中心 >> 数据分析

数据分析经典模型——朴素贝叶斯

发布人:www.yunke.ai 发布时间:2021-01-01 133 次浏览

编辑导语:做过数据分析的人,想必对贝叶斯模型都不会陌生。贝叶斯预测模型是运用贝叶斯统计进行的一种预测,不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用先验信息。通过实证分析的方法,将贝叶斯预测模型与普通回归预测模型的预测结果进行比较,结果表明贝叶斯预测模型具有明显的优越性。

说到贝叶斯模型,就算是不搞数据分析的都会有所耳闻,因为它的应用范围实在是太广泛了。

大数据、机器学习、数据挖掘、数据分析等领域几乎都能找到贝叶斯模型的影子,在疾病诊断、金融投资、日常生活中也都会用到。

贝叶斯公式不仅可以帮助人们确定导致某一事件发生的最可能的原因,而且在数量上刻画了随着新信息的加入,人们对一个事物的认识如何从先验概率过渡到后验概率。

要了解贝叶斯,我们先来看看条件概率。

一、条件概率

条件概率是指事件A在事件B发生的条件下发生的概率,条件概率表示为:P(A|B)。

来看下面这个例子:

假设现在有一个装了7个石块的罐子,其中4块是红色的,3块是白色的,如图:

问题1:如果从罐子中随机取出一块石头,那么是白色的可能性是多少?

回答1:由于取石头有7种可能,其中3块是白色,所以取出白色石头的概率为3/7。

问题2:取出红色的概率是多少?

回答2:很显然,答案是4/7。

我们用P(white)来表示取到白色石头的概率,用P(red)来表示取到红色石头的概率,那么:P(white)=3/7,P(red)=4/7。

很简单,对吧?

问题来了:现在,我们把这7块石头放到两个桶中,上述概率该如何计算呢?

问题分析:要计算P(white)或者P(red),事先得知道石头所在桶的信息会不会改变结果?

假定计算的是从B桶取到白色石头的概率,这个概率可以记作P(white|B),我们称之为“在已知石头出自B桶的条件下,取出白色石头的概率”,这就是条件概率。

从上图可以看出P(white|A)=2/4,P(white|B)=1/3,依然很简单。

条件概率的计算公式如下:

P(white|B)=P(white and B)/P(B)

我们来验证下上述公式:

  • P(white and B)=球是白色且球是从B桶中取到的=1/7;
  • P(B)=从B桶中取到球的概率=3/7;
  • P(white|B)=P(white and B)/P(B)=(1/7)/(3/7)=1/3;

为了方便起见,我们将white替换为A,条件概率可以表示为P(A|B)=P(A and B)/P(B)。

二、贝叶斯公式

知道了条件概率,现在,我们来推算贝叶斯公式: