跳转至

09 - 深度学习进阶

深度学习进阶图

📌 导航提示:本章提供高级深度学习话题的索引与核心要点。详细架构解析、公式推导和代码实现请参考 深度学习/ 目录(特别是 06-高级主题/)。


🗺️ 在ML知识体系中的定位

深度学习进阶话题是连接基础模型与前沿研究的桥梁。掌握这些技术能帮助你: - 理解现代架构(如ResNet、Transformer)为何有效 - 提升模型训练的稳定性和效率 - 为阅读前沿论文打下基础


🏗️ 高级架构话题索引

话题 核心思想 适用场景 详细教程
残差网络 (ResNet) 跳跃连接让网络学习残差 F(x)=H(x)-x,解决深层网络退化问题 图像分类、作为骨干网络 深度学习/02-CNN/
DenseNet 密集连接,每层与所有前层相连,特征复用、参数高效 中小数据集图像任务 深度学习/02-CNN/
EfficientNet 复合缩放(深度×宽度×分辨率),统一缩放策略 资源受限的部署场景 深度学习/02-CNN/
注意力机制 动态权重分配,让模型关注输入中最相关的部分 NLP、CV、多模态 深度学习/04-Transformer/
Transformer 纯注意力架构,抛弃循环和卷积,支持并行计算 NLP、视觉(ViT)、语音 深度学习/04-Transformer/
图神经网络 (GNN) 在图结构数据上进行消息传递和聚合 社交网络、分子、推荐 本目录 17-图神经网络.md

⚙️ 训练优化技术索引

技术 核心思想 为什么重要 详细教程
Batch Normalization 标准化每层输入的均值和方差 加速收敛、允许更大学习率、减轻初始化敏感性 深度学习/01-foundation/
Layer/Group/Instance Norm BN的变体,适用于小batch或序列任务 NLP中LayerNorm是标准选择 深度学习/06-高级主题/
混合精度训练 用FP16计算前向/反向,FP32存储参数 显存减半、训练加速1.5-2倍 深度学习/06-高级主题/
梯度累积 多个小batch梯度累加后再更新 用小显存模拟大batch训练 深度学习/06-高级主题/
学习率调度 Warmup + 余弦退火/线性衰减 稳定训练早期、提升最终性能 深度学习/01-foundation/
知识蒸馏 大模型(Teacher)指导小模型(Student)学习 模型压缩、部署优化 深度学习/06-高级主题/

🔧 正则化与泛化技术

技术 一句话核心
Dropout 训练时随机丢弃神经元,等价于集成多个子网络
数据增强 通过变换扩充训练集(翻转、裁剪、Mixup、CutMix)
权重衰减 L2正则化,约束权重大小防止过拟合
Early Stopping 验证集性能不再提升时停止训练
标签平滑 软化one-hot标签,防止模型过度自信

📋 面试要点

  1. ResNet为什么能训练非常深的网络? → 残差连接使梯度可以直接回传,缓解梯度消失;恒等映射比学习完整映射更容易
  2. BatchNorm在训练和推理时的区别? → 训练用当前batch统计量,推理用全局移动平均;eval模式切换很关键
  3. 注意力机制相比CNN/RNN的优势? → 全局感受野、并行计算、动态权重;缺点是计算复杂度O(n²)
  4. 知识蒸馏的核心loss是什么? → 软标签KL散度 + 硬标签交叉熵的加权组合

✏️ 练习

  1. 架构对比分析:选择一个图像分类任务,分别使用VGG、ResNet、EfficientNet(可用预训练模型微调),对比参数量、训练速度、准确率,总结各架构的优劣势。

📖 下一步学习10-强化学习基础.md | 高级话题详解 → 深度学习/06-高级主题/