第 7 章朴素贝叶斯 on 《从零学AI指南手册》

7.1 朴素贝叶斯算法

Mon, 01 Jan 0001 00:00:00 +0000

在前面几章内容中，我们分别介绍了一种回归模型和两种分类模型及模型的改善与泛化。在接下来的这章内容中，我们将介绍下一个新的分类模型——朴素贝叶斯（Naive Bayes, NB）。整个第7章的学习路线如图7-1所示，我们将先以朴素贝叶斯为例来介绍详细介绍贝叶斯算法背后的思想和原理以及如何从零实现，然后再来介绍基于不同条件概率下的贝叶斯算法模型。

图 7-1 朴素贝叶斯算法学习路线图

7.1 朴素贝叶斯算法#

7.1.1 概念介绍#

什么是朴素贝叶斯呢？从名字也可以看出，朴素贝叶斯算法与贝叶斯公式有着莫大的关联，说得简单点朴素贝叶斯就是由贝叶斯公式加“朴素”这一条件所构成的。在看贝叶斯算法的相关内容时，相信各位读者一定会被突如其来的数学概念搞得头昏脑涨。例如先验概率（Prior Probability）、后验概率（Posteriori Probability）、极大似然估计（Maximum Likelihood Estimation）、极大后验概率估计（Maximum A Posteriori Estimation）等等，所以接下来我们将先简单地介绍一下这几个概念，让读者先对这部分内容有一个感性的认识，然后继续介绍后面的内容。

1. 先验概率

所谓先验概率指的是根据历史经验得出来的概率。例如可以通过西瓜的颜色、敲击的声音来判断其是否成熟。因为已经有了通过颜色和声音来判断的“经验”，不管这个经验是自己学会的还是别人告诉的，它都是你在执行一项任务之前已经知道的信息。又如在某二分类数据集中，其中正样本有4个，负样本有6个，通过这个数据集能够学习到的先验知识便是任取一个样本，其为正样本的可能性为40%，为负样本的可能性为60%。最后再举个例子，假如办公室失窃了，理论上每个人都可能是小偷，但可以根据对每个人的了解分析得出一个可能性，例如张三偷窃的可能性为20%，李四偷窃的可能性为30%，王五偷窃的可能性为50%，而这就被称为先验概率，它是通过历史经验得来的。

2. 后验概率

所谓后验概率指的是通过贝叶斯公式推断得到的结果。例如上述例子中，不可能因为负样本出现的可能性为60%就判定任意取出的样本为负样本，也不能因为王五偷窃的可能性最大就判定每次办公室失窃都是由他所为。先验知识只能帮助我们先取得一个大致的判断，而事实情况需要根据先验概率和条件概率进行计算。

3. 极大后验概率估计

一言以蔽之，极大后验概率指的是在所有后验概率中选择其中最大的一个。例如上述例子中，根据先验概率和条件概率便可以计算出每个样本属于正样本还是负样本的后验概率。最后在判断该样本属于何种类别时，挑选后验概率最大的类别即可。

4. 极大似然估计

所谓极大似然估计（最大似然估计）指的是用来估计使当前已知结果最有可能发生的模型参数值（参见3.4.3节）。例如上述例子中，已知的当前结果为正样本有4个，负样本有6个。那么什么样的模型参数能够使这一结果最可能发生呢？此时只需最大化式(7-1)即可。

$$ \left( \begin{matrix} 10 \\ 4 \\ \end{matrix} \right){{p}^{4}}{{(1-p)}^{6}}\tag{7-1} $$

其中，$p$ 为属于正样本的概率。

7.1.2 朴素贝叶斯原理#

由贝叶斯公式可知

$$ P(B|A)=\frac{P(AB)}{P(A)}\tag{7-2} $$

假设$B$为最终的分类标签，$A$为一系列的特征属性，那么在使用朴素贝叶斯进行样本分类时，实际计算的是每个样本在当前的特征取值为$A$的情况下，它属于类别$B$的概率，因此，当进一步计算出特征值$A$属于每个类别的概率后，再挑选概率值最大时所对应的类别即可作为该样本的类标。但是，在实际情况中对于$A$和$B$之间的联合概率分布$P(AB)$并不知道，说得直白点就是我们不知道数据集的生成规则，但是可通过先验概率分布$P(B)$乘以条件概率分布$P(A|B)$来得到联合分布，即公式(7-2)可转换为

$$ P(B|A)=\frac{P(B)P(A|B)}{P(A)}\tag{7-3} $$

现在假设输入空间$\mathcal{X}\subseteq R^n$，为$n$维向量的集合，输出空间为类标记$\mathcal{Y}=\{{{c}_{1}},{{c}_{2}},...,{{c}_{K}}\}$，输入为特征向量$x\in\mathcal{X}$，输出为类标记$y\in \mathcal{Y}$。同时，$X$ 是定义在输入空间$\mathcal{X}$上的随机向量，$Y$是定义在输出空间$\mathcal{Y}$上的随机变量，也就是说$X$是一个$m\times n$的矩阵，$y$为类标签。$P(X,Y)$是$X$和$Y$的联合概率分布，训练集$T=\{(x_1,y_1),(x_2,y_2),…,(x_m,y_m)\}$由$P(X,Y)$独立同分布产生。

根据上面的分析可知，可以通过学习数据的先验分布，再学习数据的条件概率分布，即可得到联合概率分布$P(X,Y)$。具体地，对于每个类别来讲其先验概率分布为

$$ P(Y={{c}_{k}})=\frac{\#{{c}_{k}}}{m},k=1,2,...,K\tag{7-4} $$

其中，$\#{{c}_{k}}$表示该类别一共有多少个样本，$m$表示样本总数。

同时，对于已知类标下的条件概率分布为

$$ P(X=x|Y={{c}_{k}})=P({{X}^{(1)}}={{x}^{(1)}},...,{{X}^{(n)}}={{x}^{(n)}}|Y={{c}_{k}})\tag{7-5} $$

其中，${{x}^{(i)}}$表示第$i$个特征的取值。

从式(7-5)可知，在实际情况中我们并不知道对应的条件概率，因此朴素贝叶斯对条件概率分布又做了一个条件独立性假设，即$P(AB|D)=P(A|D)P(B|D)$，而这也是“朴素”一词的由来。故，式(7-5)可改写为

$$ P(X=x|Y={{c}_{k}})=\prod\limits_{i=1}^{n}{P}({{X}^{(i)}}={{x}^{(i)}}|Y={{c}_{k}})\tag{7-6} $$

由此，根据式(7-3)的分析可知，对于已知特征属性在$X=x$的条件下，其属于类别$Y=c_k$的后验概率为

7.2 贝叶斯估计

Mon, 01 Jan 0001 00:00:00 +0000

7.2 贝叶斯估计#

在介绍完7.1节中的内容后，相信各位读者对朴素贝叶斯算法的原理应该有了清楚地认识，但还有一个不能忽略的问题就是，当训练集不充分的情况下，某个维度的条件概率缺失时该怎么处理。例如在7.1.3节的示例中，如果条件概率$P(X^{(3)}=D|Y=1)=0$，即训练集中不存在这一情况，而在测试的数据样本中却存在这种情况该如何处理呢？如果此时仍旧将这种情况下的条件概率看作0，则在预测的时候将会产生很大的错差。

7.2.1 平滑处理#

通常，解决这类问题的一个有效办法就是在各个估计中加入一个平滑项（Smoothing Parameter），则此时先验概率和条件概率的计算方法为

$$ {{P}_{\lambda }}(Y={{c}_{k}})=\frac{\sum\limits_{i=1}^{m}{I}({{y}_{i}}={{c}_{k}})+\lambda }{m+K\lambda }\tag{7-20} $$$$ {{P}_{\lambda }}({{X}^{(j)}}={{a}_{jl}}|Y={{c}_{k}})=\frac{\sum\limits_{i=1}^{m}{I}(x_{i}^{(j)}={{a}_{jl}},{{y}_{i}}={{c}_{k}})+\lambda }{\sum\limits_{i=1}^{m}{I}({{y}_{i}}={{c}_{k}})+{{S}_{j}}\lambda }\tag{7-21} $$

其中$K$表示数据集分类的类别数；$S_j$表示第$j$维特征的取值情况数； $\lambda\geq0$，并且当$\lambda=1$时称为拉普拉斯平滑（Laplace Smoothing），这也是常用的做法。

同时，当$\lambda>0$时分别称式(7-20)和式(7-21)为先验概率和条件概率的贝叶斯估计，并且可以发现，当$\lambda=0$时，就是极大似然估计。

7.2.2 计算示例#

接下来，将第7.1.3节中的数据使用拉普拉斯平滑（$\lambda=1 $）再来计算一次。在计算之前我们知道，此时类别数$K=2,S_1=2,S_2=2,S_3=3$。

根据表7-1和式(7-20)易知，各类别的先验概率分别为

$$ P(Y=0)=\frac{6}{15+2\cdot 1},\ \ P(Y=1)=\frac{11}{15+2\cdot1}\tag{7-22} $$

条件概率为

$$ \begin{aligned} & P({{X}^{(1)}}=0|Y=0)=\frac{5}{5+2\cdot1},P({{X}^{(1)}}=1|Y=0)=\frac{2}{7} \\[1ex] & P({{X}^{(2)}}=0|Y=0)=\frac{5}{7},P({{X}^{(2)}}=1|Y=0)=\frac{2}{7} \\[1ex] & P({{X}^{(3)}}=D|Y=0)=\frac{2}{8},P({{X}^{(3)}}=S|Y=0)=\frac{2}{8} \\[1ex] & P({{X}^{(3)}}=T|Y=0)=\frac{4}{8},P({{X}^{(1)}}=0|Y=1)=\frac{4}{12} \\[1ex] & P({{X}^{(1)}}=1|Y=1)=\frac{8}{12},P({{X}^{(2)}}=0|Y=1)=\frac{5}{12} \\[1ex] & P({{X}^{(2)}}=1|Y=1)=\frac{7}{12},P({{X}^{(3)}}=D|Y=1)=\frac{3}{13} \\[1ex] & P({{X}^{(3)}}=S|Y=1)=\frac{4}{13},P({{X}^{(3)}}=T|Y=1)=\frac{6}{13} \end{aligned}\tag{7-23} $$

计算出属于各个类别的后验概率为

$$ \begin{aligned} & P(Y=0|X=x) \\[1ex] & =P(Y=0)\cdot P({{X}^{(1)}}=0|Y=0)\cdot P({{X}^{(2)}}=1|Y=0)\cdot P({{X}^{(3)}}=D|Y=0) \\[1ex] & =\frac{6}{17}\cdot \frac{5}{7}\cdot \frac{2}{7}\cdot \frac{2}{8}\approx 0.02 \end{aligned}\tag{7-24} $$$$ \begin{aligned} & P(Y=1|X=x) \\[1ex] & =P(Y=1)\cdot P({{X}^{(1)}}=0|Y=1)\cdot P({{X}^{(2)}}=1|Y=1)\cdot P({{X}^{(3)}}=D|Y=1) \\[1ex] & =\frac{11}{17}\cdot \frac{4}{12}\cdot \frac{7}{12}\cdot \frac{3}{13}\approx 0.03 \\[1ex] \end{aligned}\tag{7-25} $$

于是我们同样可以得出，样本$x=(0,1,D)$属于$y=1$的可能性最大。

7.3 朴素贝叶斯实现

Mon, 01 Jan 0001 00:00:00 +0000

7.3 朴素贝叶斯实现#

经过前面两个小节内容的介绍，对于朴素贝叶斯算法的原理我们已经有了清晰的认识。在本节内容中，我们将开始分步对各个部分的实现进行详细地介绍。同时，需要说明的是以下实现代码均参考自sklearn 0.24.0 中的CategoricalNB模块，只是对部分处理逻辑进行了修改与简化，完整代码见 AllBooKCode/Chapter07/C01_naive_bayes_category.py 文件。

7.3.1 特征计数实现#

通过7.1节的内容可知，不管是计算先验概率还是条件概率，在这之前都需要先统计训练集中各个样本及样本特征取值的分布情况。因此，这里首先需要初始化相关的计数器，然后再对样本和特征取值的分布情况进行统计。

具体地，对于计数器的初始化工作实现过程，示例代码如下：

1 class MyCategoricalNB(object):
2 
3     def __init__(self, alpha=1.0):
4         self.alpha = alpha
5 
6     def _init_counters(self):
7         self.class_count_ = np.zeros(self.n_classes, dtype=np.float64)
8         self.category_count_ = [np.zeros((self.n_classes, 0))
9                                 for _ in range(self.n_features_)]

在上述代码中，第3~4行是初始化平滑项系数alpha。第7行class_count_被初始化成了一个形状为[n_classes,]的全零向量，其中n_classes表示分类的类别数量，而每个维度分别表示每个类别的样本数量（例如[2,2,3]表示0、1、2这3个类别的样本数分别是2、2、3），其目的是后续用于计算每个类别的先验概率。第8行category_count_被初始化成了一个包含有n_features_个元素的列表，其中n_features_表示数据集的特征维度数量，同时category_count_中每个元素的形状是[n_classes,0]（后续每个元素将会更新为[n_classes,len(X_i)]的形状， len(X_i)表示X_i这个特征的取值情况数量）；而category_count_的作用是记录在各个类别下每个特征变量中各种取值情况的数量，例如category_count_[i][j][k]为10表示含义就是特征i在类别j下特征取值为k的样本数量为10个。

在初始化两个计数器之后，进一步便可以实现各个类别及特征分布的统计，示例代码如下：

 1     def _count(self, X, Y):
 2         def _update_cat_count(X_feature, Y, cat_count, n_classes):
 3             for j in range(n_classes):  # 遍历每个类别
 4                 mask = Y[:, j].astype(bool)  # 取每个类别下对应样本的索引
 5                 counts = np.bincount(X_feature[mask])  # 统计当前类别下，特征X_feature中各个取值下的数量
 6                 indices = np.nonzero(counts)[0]
 7                 cat_count[j, indices] += counts[indices]
 8                 
 9         self.class_count_ += Y.sum(axis=0)  # Y: shape(n,n_classes)   Y.sum(): shape(n_classes,)
10         self.n_categories_ = X.max(axis=0) + 1
11         for i in range(self.n_features_):  # 遍历每个特征
12             X_feature = X[:, i]  # 取每一列的特征
13             self.category_count_[i] = np.pad(self.category_count_[i],
14                          [(0, 0), (0, self.n_categories_[i])], 'constant')                                   
15             _update_cat_count(X_feature, Y,self.category_count_[i],self.n_classes)

在上述代码中，第1行参数Y是原始标签经过one-hot编码后的形式，例如3分类问题中类别1会被编码成[0,1,0]的形式，因此Y的形状为[n,n_classes]。第9行代码是计算得到每个类别对应的样本数量。第10行则是统计每个特征维度的取值数量（因为特征取值是从0开始的所以后面加了1）,例如[3 3 3 3]表示四个特征维度的取值均有3种情况。第11~12行开始遍历每个特征并取对应的特征列。第13~14行是对category_count_中的每个元素填充self.n_categories_[i]列全0向量，此时category_count_中每个元素将会变成形状为[n_classes,len(X_i)]的全零矩阵。第15行则是根据输入的每一列特征等相关参数来更新category_count_计数器。

7.4 多项式朴素贝叶斯原理与实现

Mon, 01 Jan 0001 00:00:00 +0000

7.4 多项式朴素贝叶斯原理与实现#

在上一节内容中，我们详细介绍了一种常见的朴素贝叶斯算法，也被称之为Categorical Naive Bayes。但实际上，”朴素贝叶斯“算法远不止这一种，而它们之间的主要区别在于对条件概率的处理上[3]，即式(7-10)中的$\prod{P}({{X}^{(i)}}={{x}^{(i)}}|Y={{c}_{k}})$部分。因此在接下来的这节内容中，我们将会介绍第2种基于朴素贝叶斯思想的分类模型，多项朴素贝叶斯（Multinomial Naive Bayes, MNB）。

7.4.1 算法思想#

在通过Categorical NB来进行文本分类的场景中，在计算条件概率时都是将词表中的每个词以是否出现为标准进行类别化（Categorization）处理，因此如果将词频作为特征维度的取值类别，那么将会出现在测试集中特征维度的取值情况数大于训练集中的情况。

例如在训练集中“客栈”这个词出现的最大次数为10，那么模型在拟合过程中就会认为“客栈”这个维度的特征取值有10种情况，并以此进行建模；但是当测试集中的某个样本里“客栈”这个词出现的频次为11时，那么模型便会认为该维度多了一种取值情况，进而无法取到对应的条件概率。

同时，在利用词袋模型对文本进行向量化表示时词频也是一个重要的考量因素，而多项朴素贝叶斯算法在处理这一问题时则是将每个维度的词频在总词频中的占比来作为条件概率进行建模[4]。

7.4.2 算法原理#

在MNB中，我们可以将类别$c_k$下条件概率的分布参数化为$\theta_{c_k}=(\theta_{c_k1},\theta_{c_k2}...,\theta_{c_kn})$这样的形式，其中$n$表示训练集中的特征维度（例如在文本分类中则是词表的长度），$\theta_{c_ki}$则是类别$c_k$下特征$i$的条件概率。进一步，参数$\theta_{c_k}$可以通过极大似然估计来计算得到[3]：

$$ \hat{\theta}_{c_ki}=\frac{N_{c_ki}+\alpha_i}{N_{c_k}+\alpha }\tag{7-26} $$

其中$N_{c_ki}$表示在整个训练集$T$中样本属于$c_k$这个类别下特征$x^{(i)}$出现的频次，即$N_{c_ki}=\sum_{x\in T}x^{(i)}$；$N_{c_k}$表示类别$c_k$下所有维度特征的总频次，即$N_{c_k}=\sum_{i=1}^nN_{c_ki}$；$\alpha_i$表示每个特征维度对应的平滑系数，$\alpha$表示所有平滑系数的总和[4]。但是在实际处理时通常会将每个维度的平滑系数设为相等，因此式(7-26)可以改写为：

$$ \hat{\theta}_{c_ki}=\frac{N_{c_ki}+\alpha}{N_{c_k}+\alpha n }\tag{7-27} $$

其中$\alpha$表示每个特征维度的平滑系数。

在根据式(7-27)估计得到每个类别下各个特征的条件概率（词频占比）后，便可以通过式(7-10)来最大化后验概率以此确定样本的分类类别。但是这里存在一个问题，那就是通过式(7-10)可以知道，在最大化后验概率时各个特征维度的条件概率是进行的累乘操作，而在动则上千维的文本向量中，这样累乘计算得到的结果将会出现下溢的情况。

因此，常见的一种做法是在式(7-10)的两边同时取自然对数$\log$，且由于$\log$函数是单调的因此这并不影响最终的预测结果[5]。所以式(7-10)可以改写为如下形式

$$ \hat{y} = \arg\max_{c_k} \log{\left(P(Y=c_k)\prod\limits_{i=1}^{n}{P}({{X}^{(i)}}|Y={{c}_{k}})\right)}\tag{7-28} $$

其中${P}({{X}^{(i)}}|Y={{c}_{k}})$表示在类别$Y=c_k$下特征$X^{(i)}$对应的条件概率。

进一步，根据$\log(xy)=\log(x)+\log(y)$，式(7-28)可以改写为

$$ \hat{y} = \arg\max_{c_k} \left(\log P(Y=c_k) +\sum_{i=1}^n\log P({{X}^{(i)}}|Y={{c}_{k}})\right)\tag{7-29} $$

同时对于MNB算法来说，从式(7-27)可以看出，此时条件概率计算的是训练集中特征维度的词频占比（相当于模型参数），因此在最终计算后验概率时需要同时考虑到每个维度的词频情况，即[4]

$$ \hat{y} = \arg\max_{c_k} \left(\log P(Y=c_k) +\sum_{i=1}^nf_i\log P({{X}^{(i)}}|Y={{c}_{k}})\right)\tag{7-30} $$

其中$f_i$表示特征维度$i$对应的词频。

此时根据式(7-30)的形式来看，还可以将$\log P({{X}^{(i)}}|Y={{c}_{k}})$理解为特征$x^{(i)}$在对应类别下重要性大小的权重，而先验概率$\log P(Y=c_k)$则可以理解为数据集中各类别的相对频次（偏置），频次越大则当前样本越可能归属于该类别。因此，从这个角度看还可以将多项贝叶斯理解一个简单的线性模型。也正是因为这样的特性，MNB算法在处理TFIDF这类文本特征表示时依旧有着很好的效果[3]。

到此，对于多项贝叶斯算法的基本原理就介绍完了，下面我们再来通过一个实际的计算示例来帮助大家更加清晰地理解。

7.4.3 计算示例#

假设现在有一批基于词袋模型表示的文本数据，其一共包含有$X^{(1)},X^{(2)},X^{(3)}$这3个特征维度，每个维度表示词表中相应词的词频，$Y$表示样本对应的所属类别，如表7-2所示。现需要预测$x=[17,25,39]$这个样本的所属类别。

表 7-2. 示例计算数据

根据式(7-30)，由表7-2易知，各个类别先验概率的$\log$取值为

7.5 高斯朴素贝叶斯原理与实现

Mon, 01 Jan 0001 00:00:00 +0000

7.5 高斯朴素贝叶斯原理与实现#

在前面两节内容中，我们分别介绍了基于类别特征的Categorical朴素贝叶斯算法和基于特征权重的Multinomial朴素贝叶斯算法，而两者之间的唯一区别就体现在对条件概率的处理上。在接下来的这节内容中，我们将会介绍第3种基于朴素贝叶斯思想的极大化后验概率模型——高斯朴素贝叶斯（Gaussian Naive Bayes, GNB）。

7.5.1 算法思想#

根据Categorical贝叶斯和Multinomial贝叶斯算法的原理可知，前者只能用于处理类别型取值的特征变量，而后者的初衷也是为了处理包含词频的文本向量表示（尽管从结果上看也适用于类似TFIDF这样的连续型特征）。所谓高斯贝叶斯是指假定样本每个特征维度的条件概率均服从高斯分布，进而再根据贝叶斯公式来计算得到新样本在某个特征分布下其属于各个类别的后验概率，最后通过极大化后验概率来确定样本的所属类别。

7.5.2 算法原理#

高斯贝叶斯算法假定数据样本在各个类别下，每个特征变量$X^{(i)}$的条件概率均服从高斯分布，即

$$ P(X^{(i)}|Y=c_k)=\frac{1}{\sqrt{2\pi \sigma^2_{c_ki}}}\exp\left(-\frac{(X^{(i)}-\mu_{c_ki})^2}{2\sigma^2_{c_ki}}\right)\tag{7-36} $$

其中$X^{(i)}$表示第$i$个特征维度，$\sigma_{c_ki}$和$\mu_{c_ki}$分别表示在类别$Y=c_k$下特征$X^{(i)}$对应的标准差和期望。

在计算得到每个特征维度的条件概率后，再进行极大化后验概率计算

$$ \begin{aligned} \hat{y} &= \arg\max_{c_k} \log{\left(P(Y=c_k) \prod_{i=0}^{n}P(X^{(i)} \mid P(Y=c_k)\right)}\\[2ex] &=\arg\max_{c_k} \log{\left[P(Y=c_k) \prod_{i=0}^{n}\frac{1}{\sqrt{2\pi \sigma^2_{c_ki}}}\exp\left(-\frac{(X^{(i)}-\mu_{c_ki})^2}{2\sigma^2_{c_ki}}\right)\right]}\\[2ex] &\Longrightarrow \arg\max_{c_k} \left[\log P(Y=c_k)+\sum_{i=0}^n\log{\left(\frac{1}{\sqrt{2\pi \sigma^2_{c_ki}}}\exp\left(-\frac{(X^{(i)}-\mu_{c_ki})^2}{2\sigma^2_{c_ki}}\right)\right)}\right]\\[2ex] &=\arg\max_{c_k}\left(\log P(Y=c_k)-\frac{1}{2}\sum_{i=0}^n\log{2\pi\sigma^2_{c_ki}-\frac{1}{2}\sum_{i=0}^n\frac{(X^{(i)}-\mu_{c_ki})^2}{\sigma^2_{c_ki}}}\right) \end{aligned}\tag{7-37} $$

这里需要注意的是，同上一节介绍的多项式朴素贝叶斯一样，在后验概率计算过程中同样进行取对数操作。

7.5.3 计算示例#

假设现在有一个基于TFIDF方法表示文本数据，其一共包含有$X^{(1)},X^{(2)},X^{(3)}$ 这3个特征维度，每个维度表示词表中相应词的TFIDF权重，$Y$表示样本对应的所属类别，如表7-3所示。现需要预测$x=[0.5,0.12,0.218]$这个样本的所属类别。

表 7-3. 示例计算数据

由表7-3易知，各个类别的先验概率为

$$ \begin{aligned} \log P(Y=0)&=\log(\frac{2}{10})\approx-1.609\\[1ex] \log P(Y=1)&=\log(\frac{5}{10})\approx -0.693\\[1ex] \log P(Y=2)&=\log(\frac{3}{10})\approx-1.204 \end{aligned}\tag{7-38} $$

根据表7-3可知，当$Y=0$时特征$X^{(1)}$对应的参数期望和方差为

$$ \begin{aligned} \mu_{00} & = \frac{0.3+0.6}{2}=0.45\\[2ex] \sigma^2_{00}&=\frac{(0.3-0.45)^2+(0.6-0.45)^2}{2}=0.0225 \end{aligned}\tag{7-39} $$

同理可得

引用

Mon, 01 Jan 0001 00:00:00 +0000

引用#

[1]李航，统计机器学习，清华大学出版社

[2]Scikit-learn: Machine Learning in Python, Pedregosa et al., JMLR 12, pp. 2825-2830, 2011.

[3] https://scikit-learn.org/stable/modules/naive_bayes.html#naive-bayes

[4] Rennie J D, Shih L, Teevan J, et al. Tackling the poor assumptions of naive bayes text classifiers[C] (ICML-03). 2003: 616-623.https://www.aaai.org/Papers/ICML/2003/ICML03-081.pdf

[5] https://nlp.stanford.edu/IR-book/html/htmledition/naive-bayes-text-classification-1.html

[6] 代码仓库：https://github.com/moon-hotel/MachineLearningWithMe

第 7 章 朴素贝叶斯 on 《从零学AI指南手册》

7.1 朴素贝叶斯算法

7.1 朴素贝叶斯算法#

7.1.1 概念介绍#

7.1.2 朴素贝叶斯原理#

7.2 贝叶斯估计

7.2 贝叶斯估计#

7.2.1 平滑处理#

7.2.2 计算示例#

7.3 朴素贝叶斯实现

7.3 朴素贝叶斯实现#

7.3.1 特征计数实现#

7.4 多项式朴素贝叶斯原理与实现

7.4 多项式朴素贝叶斯原理与实现#

7.4.1 算法思想#

7.4.2 算法原理#

7.4.3 计算示例#

7.5 高斯朴素贝叶斯原理与实现

7.5 高斯朴素贝叶斯原理与实现#

7.5.1 算法思想#

7.5.2 算法原理#

7.5.3 计算示例#

引用

引用#

第 7 章朴素贝叶斯 on 《从零学AI指南手册》