《从零学AI指南手册》

    • 精选文章
    • 大模型Agent开发
        • 1.1 RAG 提出背景
        • 1.2 RAG 流程概览
        • 2.1 SDK 介绍
        • 2.2 现代大模型中的 SDK
        • 2.3 DashScope 接口体系
        • 2.4 千问大模型接入与使用
        • 3.1 文档加载与标准化
        • 3.2 常见文本切分策略
        • 3.3 向量数据库选择
        • 3.4 Qwen3 Embedding 模型介绍
        • 3.5 语义搜索引擎构建
        • 3.6 Milvus 模块解析
        • 4.1 两步式 RAG 搭建
        • 4.2 Function Calling 概念介绍
        • 4.3 LangChain 中的 Tool 修饰器
        • 4.4 RAG Agent 原理与搭建
        • 4.5 复杂问题拆解与ReAct框架
        • 4.6 RAG 中的两阶段索引
        • 4.7 Qwen3 Reranking 原理与使用
        • 4.8 基于两阶段索引的 RAG Agent
        • 4.9 LangGraph 基本概念介绍
        • 4.10 基于 LangGraph 构建自定义 RAG Agent
        • 5.1 Agent 记忆机制概览
        • 5.2 短期记忆持久化与使用
        • 5.3 短期记忆管理
        • 5.4 拥有短期记忆的 RAG Agent
        • 5.5 长期记忆管理与持久化
        • 5.6 从零实现 Mini ChatGPT 助手
        • 5.7 pgvector 配置安装
        • 5.8 长期记忆检索与遗忘
        • 5.9 基于 LangGraph 的Mini ChatGPT 助手
        • 5.10 使用 create_agent 搭建 Mini ChatGPT
    • 深度学习
      • 目录思维导图
        • 1.1 深度学习的发展阶段
        • 1.2 深度学习中的关键人物
        • 1.3 深度学习框架介绍
        • 2.1 体系结构介绍
        • 2.2 深度学习环境安装
        • 2.3 开发环境安装配置
        • 3.1 线性回归
        • 3.2 线性回归简洁实现
        • 3.3 梯度下降与反向传播
        • 3.4 从零实现回归模型
        • 3.5 从逻辑回归到Softmax回归
        • 3.6 Softmax回归简洁实现
        • 3.7 从零实现分类模型
        • 3.8 回归模型评估指标
        • 3.9 分类模型评估指标
        • 3.10 过拟合与正则化
        • 3.11 超参数与交叉验证
        • 3.12 激活函数
        • 3.13 多标签分类
        • 4.1 卷积的概念
        • 4.2 卷积的计算过程
        • 4.3 填充和池化
        • 4.4 LeNet5网络
        • 4.5 AlexNet网络
        • 4.6 VGG网络
        • 4.7 NIN网络
        • 4.8 GoogLeNet网络
        • 4.9 ResNet网络
        • 4.10 DenseNet网络
        • 5.1 参数及日志管理
        • 5.2 Tensorboard可视化
        • 5.3 模型的保存与复用
        • 5.4 模型的迁移学习
        • 5.5 开源模型复用
        • 5.6 多GPU训练
        • 5.7 数据预处理与缓存
        • 6.1 学习率调度器
        • 6.2 梯度裁剪
        • 6.3 批归一化
        • 6.4 层归一化
        • 6.5 组归一化
        • 6.6 动量法
        • 6.7 AdaGrad算法
        • 6.8 AdaDelta算法
        • 6.9 Adam算法
        • 6.10 初始化方法
        • 7.1 RNN网络
        • 7.2 时序数据
        • 7.3 LSTM网络
        • 7.4 GRU网络
        • 7.5 BiRNN网络
        • 7.6 CharRNN网络
        • 8.1 TextCNN网络
        • 8.2 TextRNN网络
        • 8.3 CNN-RNN网络
        • 8.4 ConvLSTM网络
        • 8.5 3DCNN网络
        • 8.6 STResNet网络
        • 9.1 自然语言处理介绍
        • 9.2 Word2Vec词向量
        • 9.3 Word2Vec训练与使用
        • 9.4 GloVe词向量
        • 9.5 词向量的微调使用
        • 9.6 fastText网络
        • 9.7 Seq2Seq网络
        • 9.8 序列模型评价指标
        • 9.9 NMT网络
        • 9.10 注意力机制
        • 9.11 含注意力的NMT网络
        • 9.12 含注意力的RNN网络
        • 10.1 ELMo网络
        • 10.2 Transformer网络
        • 10.3 Transformer结构
        • 10.4 Transformer实现
        • 10.5 Transformer对联模型
        • 10.6 BERT网络
        • 10.7 从零实现BERT
        • 10.8 BERT文本分类模型
        • 10.9 BERT问题选择模型
        • 10.10 BERT问题回答模型
        • 10.11 BERT命名体识别模型
        • 10.12 BERT从零训练
        • 10.13 GPT-1模型
        • 10.14 GPT-2与GPT-3模型
        • 10.15 基于GPT-2的中文预训练模型
        • 10.16 InstructGPT与ChatGPT
        • 10.17 ChatGPT与提示词工程
        • 10.18 百川大模型使用
        • 10.19 百川大模型实现
        • 10.20 GPT-4与GPTs使用
    • 机器学习
      • 目录思维导图
        • 1.1 安装使用Conda
        • 1.2 开发环境安装配置
        • 2.1 模型的建立与求解
        • 2.2 多变量线性回归
        • 2.3 多项式回归
        • 2.4 回归模型评估
        • 2.5 梯度下降
        • 2.6 正态分布
        • 2.7 目标函数推导
        • 3.1 模型的建立与求解
        • 3.2 多分类任务
        • 3.3 常见的分类评估指标
        • 3.4 目标函数推导
        • 4.1 基本概念
        • 4.2 特征标准化
        • 4.3过拟合
        • 4.4 正则化
        • 4.5 偏差、方差与交叉验证
        • 4.6 实例分析手写体识别
        • 5.1 K近邻思想
        • 5.2 K近邻原理
        • 5.3 sklearn接口与示例代码
        • 5.4 kd树构建与搜索
        • 5.5 从零实现K近邻
        • 6.1 词袋模型
        • 6 .2 基于K近邻算法的垃圾邮件分类
        • 6.3 考虑权重的词袋模型
        • 6.4 词云图
        • 7.1 朴素贝叶斯算法
        • 7.2 贝叶斯估计
        • 7.3 朴素贝叶斯实现
        • 7.4 多项式朴素贝叶斯原理与实现
        • 7.5 高斯朴素贝叶斯原理与实现
        • 8.1 决策树的基本思想
        • 8.2 决策树建模与可视化
        • 8.3 决策树生成之ID3与C4.5
        • 8.4 决策树剪枝过程
        • 8.5 从零实现ID3与C4.5算法
        • 8.6 连续型特征变量下决策树实现
        • 8.7 CART生成与剪枝算法
        • 8.8 从零实现CART算法及剪枝示例
        • 9.1 集成学习算法
        • 9.2 随机森林
        • 9.3 泰坦尼克号生还预测
        • 9.4 AdaBoost原理与实现
        • 9.5 MultiAdaBoost原理与实现
        • 9.6 Gradient Boost 原理与实现
        • 10.1 SVM思想
        • 10.2 SVM线性不可分
        • 10.3 SVM原理
        • 10.4 SVM中的软间隔
        • 10.5 拉格朗日乘数法
        • 10.6 对偶性与KKT条件
        • 10.7 SVM优化问题
        • 10.8 SVM核函数原理
        • 10.9 SMO算法求解SVM
        • 10.10 从零实现SVM分类算法
        • 11.1 聚类算法的思想
        • 11.2 Kmeans聚类算法
        • 11.3 Kmeans算法求解
        • 11.4 从零实现Kmeans聚类算法
        • 11.5 Kmeans++聚类算法
        • 11.6 聚类外部评价指标
        • 11.7 加权Kmeans聚类算法
        • 11.8 聚类内部评价指标
        • 11.9 聚类K值选取与分析
        • 11.10 基于密度的聚类算法
        • 11.11 基于层次的聚类算法
        • 12.1 主成分分析
        • 12.2 基于核函数的主成分分析
        • 13.1 Self-Training 自训练算法
        • 13.2 Label Propagation算法
        • 13.3 Label Spreading 算法

    精选文章

    摘录自公众号「@跟我学机器学习」

    2026年3月23日更新于 2026年6月28日2 分钟阅读

    彻底搞懂KV Cache大模型推理加速的核心!

    我相信你肯定注意到每次在使用 ChatGPT 或 Claude 的时候,第一个 Token 出现的时间明显更长,随后其余的 Token 几乎瞬间就会输出。在这背后,是一个被称为 KV 缓存的精心设计,其目的便是让大语言模型(LLM)推理速度更快。在深入探讨这个技术的细节之前,我们可以来看一下有无 KV 缓存时大语言模型推理的速度对比情况

    2026年3月12日更新于 2026年6月28日1 分钟阅读

    什么是深度学习?这篇文章说透了!

    深度学习(Deep Learning)是机器学习(Machine Learning)的一个子集,而机器学习又是人工智能(Artificial Intelligence)的一个子集。从本质上讲,深度学习是指构建多层神经网络并进行参数学习的过程,因此它也被形象地称为“多层神经网络学习”。

    2026年2月5日更新于 2026年6月28日1 分钟阅读

    随机森林是如何进行特征重要性评估的?

    在决策树或随机森林中,对于特征重要性的评估核心逻辑在于衡量一个特征在节点划分过程中对不确定性(不纯度)的减少程度。在单棵决策树中,特征重要性是基于该特征在所有节点分裂时所带来的基尼不纯度减少量的加权总和来计算的。

    2026年1月28日更新于 2026年6月28日1 分钟阅读

    全面对比贝叶斯三大算法异同点!附实验结果!

    在决策树或随机森林中,对于特征重要性的评估核心逻辑在于衡量一个特征在节点划分过程中对不确定性(不纯度)的减少程度。在单棵决策树中,特征重要性是基于该特征在所有节点分裂时所带来的基尼不纯度减少量的加权总和来计算的。

    大模型Agent开发 Forward