📐 AI 数学基础教程¶
定位: AI 研究生必修 | 前置知识:高等数学、 Python 基础 核心理念:手推公式 → 代码验证 → 联系 AI 场景
📚 教程简介¶
AI 的核心是数学。本教程聚焦 AI/ML/DL 中最常用的数学工具,每个公式都配有 Python 代码验证和 AI 应用场景,帮助你:
- 面试中能手推反向传播、 Softmax 梯度、注意力机制
- 理解为什么用交叉熵损失、为什么 Adam 要偏差修正
- 建立从数学到算法的直觉联系
📌 章前导读:先把数学当成模型语言¶
这门课最适合用“苏剑林式”的方式读:先看统一视角,再看推导细节;先把数学对象当成几何/概率/优化问题,再回到代码实现。
- 线性代数先看几何:矩阵不是符号游戏,而是线性变换、基变换和低秩结构,后面很多 AI 技术都能回到
SVD / 伪逆 / 低秩近似。 - 概率统计先看生成与估计:训练数据怎么来、参数怎么估、模型如何对齐分布,这些问题比公式本身更重要。
- 优化理论先看训练动力学:学习率、动量、权重衰减、收敛性和稳定性,决定了“能不能训起来”。
- 信息论先看损失函数:交叉熵、 KL 、互信息和 Softmax,本质上是在描述模型如何逼近目标分布。
每学完一节,建议多问一句:这个公式到底在解释模型里的哪一层问题,表征、训练还是推理?
🗺️ 学习路线图¶
Text Only
线性代数 ──→ 概率统计 ──→ 优化理论 ──→ 信息论与数学工具
(向量/矩阵 (分布/估计 (梯度下降 (Softmax/反向传播
SVD/PCA) 贝叶斯/EM) Adam/凸优化) 注意力推导)
📖 章节导航¶
| 编号 | 章节 | 核心内容 | 难度 | 学习时间 |
|---|---|---|---|---|
| 01 | 线性代数 | 向量/矩阵/SVD/PCA/注意力矩阵 | ⭐⭐⭐ | 8-10 小时 |
| 02 | 概率统计 | 贝叶斯/MLE/EM/KL 散度/交叉熵 | ⭐⭐⭐⭐ | 8-10 小时 |
| 03 | 优化理论 | SGD/Adam/凸优化/KKT/学习率调度 | ⭐⭐⭐⭐⭐ | 8-10 小时 |
| 04 | 信息论与数学工具 | 互信息/Softmax 推导/反向传播/注意力推导 | ⭐⭐⭐⭐ | 6-8 小时 |
🛠️ 推荐工具¶
| 工具 | 用途 |
|---|---|
| NumPy | 数值计算验证 |
| PyTorch | AI 场景代码 |
| Matplotlib | 可视化 |
| SymPy | 符号计算验证推导 |
💡 学习建议¶
- 先手推再看答案 — 每个推导先自己在纸上完成
- 代码验证 — 用 NumPy 代码验证每个数学结论
- 联系 AI — 每学一个数学工具,想想它在 ML/DL 中哪里出现过
- 面试导向 — 每章末的面试题是高频考点,必须掌握
✅ 总学习检查清单¶
- 能手写 SVD 分解并解释与 PCA 的关系
- 能推导 MLE 和贝叶斯公式,解释 KL 散度
- 能推导 Adam 优化器的更新公式
- 能手推 Softmax 梯度和两层网络反向传播
- 能解释注意力机制为什么除以\(\sqrt{d_k}\)
最后更新日期: 2026-03-26 适用版本: AI 数学基础教程 v2026
⚠️ 核验说明(2026-03-26):本页已纳入 2026-03-26 全站统一复核批次。若文中涉及外部模型、API、版本号、价格或第三方产品名称,请以官方文档和实际运行环境为准。