0%

统计学习方法(四)朴素贝叶斯法

朴素贝叶斯法基于贝叶斯定理,对于训练集,首先根据特征条件假设联合概率分布,基于此,对给定的输入,利用贝叶斯定理求出后验概率最大的输出。

4.1 朴素贝叶斯法的学习与分类

基本方法

先验概率分布

条件概率分布

基本假设是条件独立性

后验概率计算

代入(4.3)即得

所以朴素贝叶斯分类器可表示为

后验概率最大化

假设选择0-1损失函数,这时期望风险函数为

为最小化期望风险,只需对X=x逐个极小化

4.2 朴素贝叶斯法的参数估计

极大似然估计

先验概率的极大似然估计是

条件概率的极大似然估计是

朴素贝叶斯算法

  • 计算先验概率及条件概率
  • 对于给定实例,计算
  • 确定实例x的类

贝叶斯估计

极大似然估计可能会出现所要估计的概率值为0的情况,这时会影响后验概率的计算结果,使分类产生偏差。

条件概率的贝叶斯估计是

等价于在随机变量每个取值的频数上赋予一个正数,λ=0时即为极大似然估计,常取λ=1,称为拉普拉斯平滑。

显然有

先验概率的贝叶斯估计是

Scikit-learn

1
2
3
4
5
6
7
8
9
from sklearn.naive_bayes import GaussianNB
# from sklearn.naive_bayes import BernoulliNB, MultinomialNB

clf = GaussianNB()
clf.fit(X_train, y_train)

clf.score(X_test, y_test)

clf.predict([[4.4, 3.2, 1.3, 0.2]])

总结

给定先验分布,利用贝叶斯定理求出后验概率最大的类。