朴素贝叶斯 朴素贝叶斯是一个什么模型
一、朴素贝叶斯公式
1.朴素贝叶斯法概述
朴素贝叶斯法是基于贝叶斯定理与特征条件独立性假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入输出的联合概率分布(朴素贝叶斯法这种通过学习得到模型的机制,显然属于生成模型);然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。
学习朴素贝叶斯算法之前,我们先搞定下面这些基本概念和数学公式??
2.朴素贝叶斯法的基本公式
①联合概率分布
联合概率表示为包含多个条件并且所有的条件都同时成立的概率,记作P(X=a,Y=b)P(X=a,Y=b)P(X=a,Y=b)或P(a,b)P(a,b)P(a,b)或P(ab)P(ab)P(ab)
联合概率分布就是联合概率在样本空间中的分布情况
②条件概率conditionalprobability
二、朴素贝叶斯公式经典例题
朴素贝叶斯算法过滤垃圾邮件
--
简单解释一下。
通常的概率是用现有资料得到的概率,比如从一个装有质地相同的红白圆球的袋子拿球,知道其中有红球m个,白球n个,任意拿出一个球,则拿出红球的概率为,这个小学生也知道。
沿用上述假设,采用不放回拿取的方式,第二次拿到了红球,能不能计算第一次拿到红球的概率呢?答案是可以。
设第一次拿到红球为A,第二次拿到红球为B,A|B为在B事件发生的条件下A发生的概率。
其中和分别为第一次拿出红球和白球的条件下第二次又拿出红球的概率,很容易就算出来。
依据上面的公式,我们就可以在已知结果的情况下,算出其条件的概率了,这个公式就叫做
贝叶斯公式
。
对于邮件服务器来讲,读取某一单词在已知垃圾邮件中出现的频率不难,就可以用贝叶斯公式算出在某邮件含有这一单词的情况下,该邮件为垃圾邮件的概率了。
我们完全可以假设这些单词的出现是独立的,计算某一邮件中垃圾概率最高的n个单词的联合概率,判定超出某个阈值为垃圾邮件,就可以实现邮件服务器对于垃圾邮件的自动归类了。
这就是所谓的朴素贝叶斯算法的原理,原理上很初级,但是事实证明却非常有效。
三、朴素贝叶斯公式例题
假设我们现在有垃圾邮件样本、正常邮件样本、测试邮件,其中
垃圾邮件样本:
1.点击、更多、信息
2.最新、产品
3.信息、点击、链接
正常邮件样本:
1.开会
2.信息、详见、邮件
3.最新、信息
测试邮件:
最新、产品、实惠、点击、链接