09 - 深度学习进阶¶
📌 导航提示:本章提供高级深度学习话题的索引与核心要点。详细架构解析、公式推导和代码实现请参考
深度学习/目录(特别是06-高级主题/)。
🗺️ 在ML知识体系中的定位¶
深度学习进阶话题是连接基础模型与前沿研究的桥梁。掌握这些技术能帮助你: - 理解现代架构(如ResNet、Transformer)为何有效 - 提升模型训练的稳定性和效率 - 为阅读前沿论文打下基础
🏗️ 高级架构话题索引¶
| 话题 | 核心思想 | 适用场景 | 详细教程 |
|---|---|---|---|
| 残差网络 (ResNet) | 跳跃连接让网络学习残差 F(x)=H(x)-x,解决深层网络退化问题 | 图像分类、作为骨干网络 | 深度学习/02-CNN/ |
| DenseNet | 密集连接,每层与所有前层相连,特征复用、参数高效 | 中小数据集图像任务 | 深度学习/02-CNN/ |
| EfficientNet | 复合缩放(深度×宽度×分辨率),统一缩放策略 | 资源受限的部署场景 | 深度学习/02-CNN/ |
| 注意力机制 | 动态权重分配,让模型关注输入中最相关的部分 | NLP、CV、多模态 | 深度学习/04-Transformer/ |
| Transformer | 纯注意力架构,抛弃循环和卷积,支持并行计算 | NLP、视觉(ViT)、语音 | 深度学习/04-Transformer/ |
| 图神经网络 (GNN) | 在图结构数据上进行消息传递和聚合 | 社交网络、分子、推荐 | 本目录 17-图神经网络.md |
⚙️ 训练优化技术索引¶
| 技术 | 核心思想 | 为什么重要 | 详细教程 |
|---|---|---|---|
| Batch Normalization | 标准化每层输入的均值和方差 | 加速收敛、允许更大学习率、减轻初始化敏感性 | 深度学习/01-foundation/ |
| Layer/Group/Instance Norm | BN的变体,适用于小batch或序列任务 | NLP中LayerNorm是标准选择 | 深度学习/06-高级主题/ |
| 混合精度训练 | 用FP16计算前向/反向,FP32存储参数 | 显存减半、训练加速1.5-2倍 | 深度学习/06-高级主题/ |
| 梯度累积 | 多个小batch梯度累加后再更新 | 用小显存模拟大batch训练 | 深度学习/06-高级主题/ |
| 学习率调度 | Warmup + 余弦退火/线性衰减 | 稳定训练早期、提升最终性能 | 深度学习/01-foundation/ |
| 知识蒸馏 | 大模型(Teacher)指导小模型(Student)学习 | 模型压缩、部署优化 | 深度学习/06-高级主题/ |
🔧 正则化与泛化技术¶
| 技术 | 一句话核心 |
|---|---|
| Dropout | 训练时随机丢弃神经元,等价于集成多个子网络 |
| 数据增强 | 通过变换扩充训练集(翻转、裁剪、Mixup、CutMix) |
| 权重衰减 | L2正则化,约束权重大小防止过拟合 |
| Early Stopping | 验证集性能不再提升时停止训练 |
| 标签平滑 | 软化one-hot标签,防止模型过度自信 |
📋 面试要点¶
- ResNet为什么能训练非常深的网络? → 残差连接使梯度可以直接回传,缓解梯度消失;恒等映射比学习完整映射更容易
- BatchNorm在训练和推理时的区别? → 训练用当前batch统计量,推理用全局移动平均;eval模式切换很关键
- 注意力机制相比CNN/RNN的优势? → 全局感受野、并行计算、动态权重;缺点是计算复杂度O(n²)
- 知识蒸馏的核心loss是什么? → 软标签KL散度 + 硬标签交叉熵的加权组合
✏️ 练习¶
- 架构对比分析:选择一个图像分类任务,分别使用VGG、ResNet、EfficientNet(可用预训练模型微调),对比参数量、训练速度、准确率,总结各架构的优劣势。
📖 下一步学习:10-强化学习基础.md | 高级话题详解 →
深度学习/06-高级主题/