阶段二:时序差分学习¶
学习时间: 2周 重要性: ⭐⭐⭐⭐⭐ 强化学习最核心的算法框架
📚 本阶段内容¶
本阶段深入学习时序差分(Temporal-Difference, TD)学习,这是强化学习中最重要、最实用的算法框架。
章节列表¶
- 01-时序差分学习基础
- TD(0)算法
- TD误差
- 与MC、DP的对比
-
收敛性分析
- On-Policy TD控制
- SARSA(λ)
-
收敛性保证
- Off-Policy TD控制
- 收敛性分析
-
与SARSA的对比
- ε-贪婪
- UCB算法
- 梯度Bandit
-
Thompson采样
- n-step TD
- TD(λ)
- 资格迹
- 前向/后向视角
🎯 学习目标¶
完成本阶段后,你将能够: - 掌握TD学习的核心思想和算法实现 - 实现SARSA和Q-Learning算法 - 理解探索与利用的权衡 - 掌握多步方法和TD(λ) - 能够解决实际的RL问题
🔗 与前后阶段的联系¶
Text Only
前一阶段: 01-强化学习基础
├── 贝尔曼方程
├── 动态规划
└── 蒙特卡洛方法
↓
本阶段: 02-时序差分学习
├── TD(0)预测
├── SARSA控制
├── Q-Learning控制
└── 探索与利用
↓
后一阶段: 03-函数近似与深度学习
├── 值函数近似
├── DQN
└── 策略梯度
💡 学习建议¶
- 理论结合实践:每学完一个算法,立即用代码实现
- 对比学习:比较TD、SARSA、Q-Learning的异同
- 调参实验:尝试不同的学习率、探索率
- 可视化:画出学习曲线、值函数热图
🛠️ 实践项目¶
本阶段建议完成以下实践:
- Grid World导航:用SARSA和Q-Learning分别实现
- Windy Grid World: windy gridworld(有风环境)
- Cliff Walking:悬崖行走问题
- 算法对比实验:比较不同算法的性能
📖 推荐资源¶
必读书籍¶
- Sutton & Barto《Reinforcement Learning: An Introduction》第6-7章
经典论文¶
- Sutton (1988): Learning to predict by the methods of temporal differences
- Watkins (1989): Learning from delayed rewards (Q-Learning)
- Rummery & Niranjan (1994): On-line Q-learning using connectionist systems (SARSA)
准备好开始学习最核心的TD算法了吗? 从01-时序差分学习基础开始!