阶段二：时序差分学习¶

学习时间: 2周 重要性: ⭐⭐⭐⭐⭐ 强化学习最核心的算法框架

📚 本阶段内容¶

本阶段深入学习时序差分（Temporal-Difference, TD）学习，这是强化学习中最重要、最实用的算法框架。

章节列表¶

01-时序差分学习基础
TD(0)算法
TD误差
与MC、DP的对比
收敛性分析
02-SARSA算法
On-Policy TD控制
SARSA(λ)
收敛性保证
03-Q-Learning算法
Off-Policy TD控制
收敛性分析
与SARSA的对比
04-探索与利用
ε-贪婪
UCB算法
梯度Bandit
Thompson采样
05-多步方法
n-step TD
TD(λ)
资格迹
前向/后向视角

🎯 学习目标¶

完成本阶段后，你将能够： - 掌握TD学习的核心思想和算法实现 - 实现SARSA和Q-Learning算法 - 理解探索与利用的权衡 - 掌握多步方法和TD(λ) - 能够解决实际的RL问题

🔗 与前后阶段的联系¶

Text Only

前一阶段: 01-强化学习基础
    ├── 贝尔曼方程
    ├── 动态规划
    └── 蒙特卡洛方法
            ↓
本阶段: 02-时序差分学习
    ├── TD(0)预测
    ├── SARSA控制
    ├── Q-Learning控制
    └── 探索与利用
            ↓
后一阶段: 03-函数近似与深度学习
    ├── 值函数近似
    ├── DQN
    └── 策略梯度

💡 学习建议¶

理论结合实践：每学完一个算法，立即用代码实现
对比学习：比较TD、SARSA、Q-Learning的异同
调参实验：尝试不同的学习率、探索率
可视化：画出学习曲线、值函数热图

🛠️ 实践项目¶

本阶段建议完成以下实践：

Grid World导航：用SARSA和Q-Learning分别实现
Windy Grid World： windy gridworld（有风环境）
Cliff Walking：悬崖行走问题
算法对比实验：比较不同算法的性能

📖 推荐资源¶

必读书籍¶

Sutton & Barto《Reinforcement Learning: An Introduction》第6-7章

经典论文¶

Sutton (1988): Learning to predict by the methods of temporal differences
Watkins (1989): Learning from delayed rewards (Q-Learning)
Rummery & Niranjan (1994): On-line Q-learning using connectionist systems (SARSA)

准备好开始学习最核心的TD算法了吗？ 从01-时序差分学习基础开始！