阶段三:函数近似与深度学习¶
学习时间: 3周 重要性: ⭐⭐⭐⭐⭐ 深度强化学习的核心基础
📚 本阶段内容¶
本阶段学习如何使用函数近似(特别是神经网络)来处理大规模状态空间的强化学习问题,这是深度强化学习的核心。
章节列表¶
- 01-值函数近似
- 线性函数近似
- 特征工程
- 梯度下降方法
-
收敛性分析
- 经验回放(Experience Replay)
- 目标网络(Target Network)
- 网络架构设计
-
训练技巧
- Double DQN
- Dueling DQN
- Prioritized Experience Replay
- Noisy Networks
-
C51/Rainbow
- REINFORCE算法
- 基线(Baseline)
- Actor-Critic框架
-
A2C/A3C
- GAE(Generalized Advantage Estimation)
- 自然策略梯度
- TRPO简介
- PPO基础
🎯 学习目标¶
完成本阶段后,你将能够: - 理解函数近似的必要性和挑战 - 实现DQN及其改进版本 - 掌握策略梯度方法 - 理解Actor-Critic架构 - 能够解决复杂的连续控制问题
🔗 与前后阶段的联系¶
Text Only
前一阶段: 02-时序差分学习
├── TD(0)
├── SARSA
├── Q-Learning
└── 探索与利用
↓
本阶段: 03-函数近似与深度学习
├── 值函数近似
├── DQN
├── 策略梯度
└── Actor-Critic
↓
后一阶段: 04-高级算法
├── PPO
├── SAC
└── 分布式RL
💡 学习建议¶
- 先掌握基础:确保理解Tabular RL后再学函数近似
- 关注稳定性:函数近似带来不稳定性,注意理解原因
- 调试技巧:学会调试神经网络RL算法
- 计算资源:准备GPU环境进行实验
🛠️ 实践项目¶
- CartPole with DQN:用DQN解决倒立摆
- LunarLander:连续控制入门
- Atari Breakout:完整DQN实现
- REINFORCE on CartPole:策略梯度入门
📖 推荐资源¶
必读书籍¶
- Sutton & Barto《Reinforcement Learning: An Introduction》第9-13章
经典论文¶
- Mnih et al. (2015): Human-level control through deep reinforcement learning (DQN)
- Van Hasselt et al. (2016): Deep Reinforcement Learning with Double Q-learning
- Wang et al. (2016): Dueling Network Architectures for Deep Reinforcement Learning
- Schaul et al. (2016): Prioritized Experience Replay
- Mnih et al. (2016): Asynchronous Methods for Deep Reinforcement Learning (A3C)
准备好进入深度强化学习的世界了吗? 从值函数近似开始!