900字范文 > 李航统计学习方法-朴素贝叶斯

李航统计学习方法-朴素贝叶斯

时间：2024-06-25 14:52:46

相关推荐

李航统计学习方法-朴素贝叶斯

朴素贝叶斯法

朴素贝叶斯（naïve Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法[1]。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯法实现简单，学习与预测的效率都很高，是一种常用的方法。本章叙述朴素贝叶斯法，包括朴素贝叶斯法的学习与分类、朴素贝叶斯法的参数估计算法

朴素贝叶斯法的学习与分类

设输入空间x⊆R n为n维向量的集合，输出空间为类标记集合＝{c1，c2 ,…,cK}。输入为特征向量x∊x，输出为类标记（class label）y∊ 。X是定义在输入空间x上的随机向量， Y是定义在输出空间上的随机变量。P(X,Y)是X和Y的联合概率分布。训练数据集

由P(X,Y)独立同分布产生。朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)。具体地，学习以下先验概率分布及条件概率分布。

先验概率分布

条件概率分布

于是学习到联合概率分布P(X,Y)。条件概率分布P(X＝x|Y＝ck)有指数级数量的参数，其估计实际是不可行的。事实上，假设x (j)可取值有Sj个，j＝1,2,…,n，Y可取值有K个，那么参数个数为。

朴素贝叶斯法对条件概率分布作了条件独立性的假设。由于这是一个较强的假设，朴素贝叶斯法也由此得名。具体地，条件独立性假设是

朴素贝叶斯法实际上学习到生成数据的机制，所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使朴素贝叶斯法变得简单，但有时会牺牲一定的分类准确率。朴素贝叶斯法分类时，对给定的输入x，通过学习到的模型计算后验概率分布P(Y＝ ck |X＝x)，将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行：

朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择 0-1损失函数：

式中f(X)是分类决策函数。这时，期望风险函数为

期望是对联合分布P(X,Y)取的。由此取条件期望

为了使期望风险最小化，只需对Xx＝逐个极小化，由此得到：