跳转至

阶段三:函数近似与深度学习

学习时间: 3周 重要性: ⭐⭐⭐⭐⭐ 深度强化学习的核心基础


📚 本阶段内容

本阶段学习如何使用函数近似(特别是神经网络)来处理大规模状态空间的强化学习问题,这是深度强化学习的核心。

章节列表

  1. 01-值函数近似
  2. 线性函数近似
  3. 特征工程
  4. 梯度下降方法
  5. 收敛性分析

  6. 02-DQN详解

  7. 经验回放(Experience Replay)
  8. 目标网络(Target Network)
  9. 网络架构设计
  10. 训练技巧

  11. 03-DQN改进算法

  12. Double DQN
  13. Dueling DQN
  14. Prioritized Experience Replay
  15. Noisy Networks
  16. C51/Rainbow

  17. 04-策略梯度方法

  18. REINFORCE算法
  19. 基线(Baseline)
  20. Actor-Critic框架
  21. A2C/A3C

  22. 05-Actor-Critic高级方法

  23. GAE(Generalized Advantage Estimation)
  24. 自然策略梯度
  25. TRPO简介
  26. PPO基础

🎯 学习目标

完成本阶段后,你将能够: - 理解函数近似的必要性和挑战 - 实现DQN及其改进版本 - 掌握策略梯度方法 - 理解Actor-Critic架构 - 能够解决复杂的连续控制问题


🔗 与前后阶段的联系

Text Only
前一阶段: 02-时序差分学习
    ├── TD(0)
    ├── SARSA
    ├── Q-Learning
    └── 探索与利用
本阶段: 03-函数近似与深度学习
    ├── 值函数近似
    ├── DQN
    ├── 策略梯度
    └── Actor-Critic
后一阶段: 04-高级算法
    ├── PPO
    ├── SAC
    └── 分布式RL

💡 学习建议

  1. 先掌握基础:确保理解Tabular RL后再学函数近似
  2. 关注稳定性:函数近似带来不稳定性,注意理解原因
  3. 调试技巧:学会调试神经网络RL算法
  4. 计算资源:准备GPU环境进行实验

🛠️ 实践项目

  1. CartPole with DQN:用DQN解决倒立摆
  2. LunarLander:连续控制入门
  3. Atari Breakout:完整DQN实现
  4. REINFORCE on CartPole:策略梯度入门

📖 推荐资源

必读书籍

  • Sutton & Barto《Reinforcement Learning: An Introduction》第9-13章

经典论文

  • Mnih et al. (2015): Human-level control through deep reinforcement learning (DQN)
  • Van Hasselt et al. (2016): Deep Reinforcement Learning with Double Q-learning
  • Wang et al. (2016): Dueling Network Architectures for Deep Reinforcement Learning
  • Schaul et al. (2016): Prioritized Experience Replay
  • Mnih et al. (2016): Asynchronous Methods for Deep Reinforcement Learning (A3C)

准备好进入深度强化学习的世界了吗? 从值函数近似开始!