跳转至

阶段二:时序差分学习

学习时间: 2周 重要性: ⭐⭐⭐⭐⭐ 强化学习最核心的算法框架


📚 本阶段内容

本阶段深入学习时序差分(Temporal-Difference, TD)学习,这是强化学习中最重要、最实用的算法框架。

章节列表

  1. 01-时序差分学习基础
  2. TD(0)算法
  3. TD误差
  4. 与MC、DP的对比
  5. 收敛性分析

  6. 02-SARSA算法

  7. On-Policy TD控制
  8. SARSA(λ)
  9. 收敛性保证

  10. 03-Q-Learning算法

  11. Off-Policy TD控制
  12. 收敛性分析
  13. 与SARSA的对比

  14. 04-探索与利用

  15. ε-贪婪
  16. UCB算法
  17. 梯度Bandit
  18. Thompson采样

  19. 05-多步方法

  20. n-step TD
  21. TD(λ)
  22. 资格迹
  23. 前向/后向视角

🎯 学习目标

完成本阶段后,你将能够: - 掌握TD学习的核心思想和算法实现 - 实现SARSA和Q-Learning算法 - 理解探索与利用的权衡 - 掌握多步方法和TD(λ) - 能够解决实际的RL问题


🔗 与前后阶段的联系

Text Only
前一阶段: 01-强化学习基础
    ├── 贝尔曼方程
    ├── 动态规划
    └── 蒙特卡洛方法
本阶段: 02-时序差分学习
    ├── TD(0)预测
    ├── SARSA控制
    ├── Q-Learning控制
    └── 探索与利用
后一阶段: 03-函数近似与深度学习
    ├── 值函数近似
    ├── DQN
    └── 策略梯度

💡 学习建议

  1. 理论结合实践:每学完一个算法,立即用代码实现
  2. 对比学习:比较TD、SARSA、Q-Learning的异同
  3. 调参实验:尝试不同的学习率、探索率
  4. 可视化:画出学习曲线、值函数热图

🛠️ 实践项目

本阶段建议完成以下实践:

  1. Grid World导航:用SARSA和Q-Learning分别实现
  2. Windy Grid World: windy gridworld(有风环境)
  3. Cliff Walking:悬崖行走问题
  4. 算法对比实验:比较不同算法的性能

📖 推荐资源

必读书籍

  • Sutton & Barto《Reinforcement Learning: An Introduction》第6-7章

经典论文

  • Sutton (1988): Learning to predict by the methods of temporal differences
  • Watkins (1989): Learning from delayed rewards (Q-Learning)
  • Rummery & Niranjan (1994): On-line Q-learning using connectionist systems (SARSA)

准备好开始学习最核心的TD算法了吗?01-时序差分学习基础开始!