精选文章 on 《从零学AI指南手册》

彻底搞懂KV Cache大模型推理加速的核心！

Mon, 23 Mar 2026 00:00:22 +0800

我相信你肯定注意到每次在使用 ChatGPT 或 Claude 的时候，第一个 Token 出现的时间明显更长，随后其余的 Token 几乎瞬间就会输出。

在这背后，是一个被称为 KV 缓存的精心设计，其目的便是让大语言模型（LLM）推理速度更快。

在深入探讨这个技术的细节之前，我们可以来看一下有无 KV 缓存时大语言模型推理的速度对比情况

你的浏览器不支持 video 标签，请更换浏览器查看。

可以明显看到，有 KV 缓存时的推理速度要远远快于没有 KV 缓存时的推理速度，前者约9秒，而后者则需要39秒。

现在让我们从第一性原理出发，来看看 KV 缓存它到底是如何工作的。

1. 大语言模型如何生成 Token#

Transformer 在处理所有输入的 Token 时将会为每个 Token 生成一个隐藏状态，然后这些隐藏状态将会被投影到词表空间并生成对数概率（词表中每个词对应一个分数）。

你的浏览器不支持 video 标签，请更换浏览器查看。

并且，我们在预测下一个输出 Token 时，只会用到输出结果的最后一个 Token 对应的概率值。最后，我们将从这些对数概率中采样，得到下一个 Token ，将其追加到输入中，然后重复这个过程。

你的浏览器不支持 video 标签，请更换浏览器查看。

注意，非常重要的一点是：要生成下一个 Token ，你只需要最后一个 Token 的隐藏状态即可， 其他所有隐藏状态都是中间副产品。

什么是深度学习？这篇文章说透了！

Thu, 12 Mar 2026 19:37:22 +0800

1. 什么是深度学习？#

结构定义：深度学习通常指网络层数大于 2 的深度神经网络（DNN）。它由输入层、多个隐藏层（也称隐含层）和输出层组成。
核心机制：在这些网络中，如果某一层每个神经元的输入都完全依赖于前一层所有神经元的输出，则称为全连接层。
处理流程：深度学习将原始特征通过多层神经网络进行抽象特征提取，然后再将提取到的特征输入到最后一层进行回归或分类等任务处理。

2. 为什么要“深度”？#

“深度”不仅仅是层数的堆叠，其背后的核心逻辑在于提升模型的表达能力和自动化水平：

实现自动特征提取：深度学习最核心的目的就是特征提取。在传统的机器学习中，特征通常需要人工设计（特征工程），这受限于人类的解释能力且难以处理高维数据（如像素）。深度学习将这一过程交给模型，让网络自己去提取特征。
从具体到抽象的层级表征：在多层网络中，越靠近输入层的隐藏层提取的特征越具体，而越靠后的隐藏层提取的特征越抽象。例如在图像识别中，浅层可能识别边缘，深层则能识别复杂的物体轮廓。
增强模型表达能力（非线性变换）：如果只是简单的线性层堆叠，无论多少层最终都只能简化为一个线性回归模型。通过在层与层之间引入非线性激活函数（如 Sigmoid, ReLU），“深度”结构能让模型捕捉到极其复杂的非线性映射关系，而不会退化为简单的线性组合。
性能突破：大量的研究实验表明，深层次的特征提取所取得的效果要远远好于浅层网络。深度网络能够提供更为丰富和高级的特征表示，从而显著提高下游任务（如分类或生成）的精度。

深度学习通过“深度”结构实现了对复杂数据特征的层级化、抽象化提取，解决了传统方法难以处理复杂非线性问题的瓶颈。

随机森林是如何进行特征重要性评估的？

Thu, 05 Feb 2026 19:28:22 +0800

在决策树或随机森林中，对于特征重要性的评估核心逻辑在于衡量一个特征在节点划分过程中对不确定性（不纯度）的减少程度。

1. 决策树中的特征重要性计算#

在单棵决策树中，特征重要性是基于该特征在所有节点分裂时所带来的基尼不纯度减少量的加权总和来计算的。

计算公式：对于某个使用特征 $A$ 进行分裂的节点 $t$，其重要性增量计算如下：
$$ \text{importance} = \frac{N_t}{N} \times (\text{impurity} - \frac{N_{tL}}{N_t} \times \text{left\_impurity} - \frac{N_{tR}}{N_t} \times \text{right\_impurity}) $$
其中，
- $N$：总样本数。
- $N_t$：当前节点的样本数。
- $\text{impurity}$：当前节点的基尼不纯度。
- $N_{tL}, N_{tR}$：左、右子节点的样本数。
- $\text{left\_impurity}, \text{right\_impurity}$：分别表示左、右子节点的基尼不纯度。
核心逻辑：越靠近决策树顶端（根节点）的特征通常越重要，因为它们能对更多类别的样本进行区分，带来的不纯度减少量通常更大。如果一个特征未参与任何节点的划分，其重要性则为 0。

以9.2.2节随机森林里的其中一棵决策树为例，其在每次进行节点划分时的各项信息如图9-3所示。

图 9-3 决策树特征重要性评估

这里有一个细节需要注意，在图9-3中每个节点里samples的数量指的是不重复的样本数（因为采样会有重复），而列表value中的值则包含重复样本。例如在根节点中，samples=62表示一共有62个不同的样本点，但实际上该节点中有105个样本点，即有43个样本点为重复出现的样本点。

此时，对于特征petal width来讲，根据式(9-2)其特征重要性值为

$$ \frac{105}{105}\times \left( 0.657-\frac{70}{105}\times 0.507-\frac{35}{105}\times 0 \right)\approx 0.319\tag{9-3} $$

对于特征petal length来讲，由于其在两次节点划分中均有参与，所以它的特征重要性为

$$ \frac{70}{105}\times \left( 0.507-\frac{27}{70}\times 0-\frac{43}{70}\times 0.089 \right)+\frac{43}{105}\times \left( 0.089-0 \right)\approx 0.338\tag{9-4} $$

对于另外两个特征sepal length和sepal width来讲，由于两者并没有参与决策树节点的划分，所以其重要性均为0。

2. 随机森林中的特征重要性（MDI）#

随机森林评估特征重要性的主流方法是平均不纯度减少量（Mean Decrease in Impurity, MDI）。

全面对比贝叶斯三大算法异同点！附实验结果！

Wed, 28 Jan 2026 19:28:22 +0800

朴素贝叶斯算法家族的核心思想都一样，均根据式(1)来进行建模

$$ y=\underset{{{c}_{k}}}{\mathop{\arg \max }}\,P(Y={{c}_{k}})\prod\limits_{j=1}^{n}{P}({{X}^{(j)}}={{x}^{(j)}}|Y={{c}_{k}})\tag{1} $$

不同贝叶斯算法间的差异主要在于它们对条件概率 $P(X^{(i)}|Y=c_k)$ 的处理方式不同，这决定了它们分别适用于不同类型的特征数据。

以下是Categorical（类别型）、Multinomial（多项式） 和 Gaussian（高斯） 朴素贝叶斯的主要区别：

1.类别型贝叶斯 (Categorical NB)#

适用特征：主要用于处理类别型取值（Discrete/Categorical）的特征变量。
核心原理：它假设每个特征的取值都是离散的类别。在计算条件概率时，它通过统计每个特征维度在各个类别下的分布情况（即每种取值出现的次数）来建模。
应用场景：例如不考虑词频的词袋模型，仅记录单词“是否出现” 。
限制：如果测试集中出现了训练集中未涵盖的特征取值，模型可能无法取到对应的条件概率，除非使用平滑处理。

2.多项式贝叶斯 (Multinomial NB)#

适用特征：主要用于处理离散计数型特征，特别是包含词频的文本向量表示。
核心原理：它将每个维度的词频在总词频中的占比作为条件概率进行建模。它考虑的是某个特征在特定类别下出现的频次在所有特征总频次中的占比，这被视为该特征在对应类别下的权重。
应用场景：在文本分类中，它非常适合处理**词袋模型（词频计数）**或 TF-IDF 权重矩阵。

3.高斯贝叶斯 (Gaussian NB)#

适用特征：主要用于处理连续型特征变量（如身高、温度、像素值等）。
核心原理：它假定每个特征维度的条件概率均服从高斯分布（正态分布） 。它通过计算每个类别下每个特征的期望（均值）**和**方差来估算概率密度。
应用场景：在处理数值型连续变量时效果显著，但也常被发现对某些离散型特征（如垃圾邮件分类中的文本特征）也有非常出色的效果。

4.对比#

特性	Categorical NB	Multinomial NB	Gaussian NB
特征类型	类别/离散型	频次/计数型	连续/数值型
概率假设	类别分布	多项式分布	高斯（正态）分布
计算重点	特征取值的分类统计	特征频次占总频次的比例	均值与方差
典型应用	二值化词袋文本分类	词频计数、TF-IDF 文本分类	通用数值特征分类

进一步，使用垃圾邮件分类数据集，但采用不同特征处理方式，来对这3个模型进行一次交叉对比