跳转至

阶段四:高级算法

学习时间: 2周 重要性: ⭐⭐⭐⭐⭐ 当前最先进的RL算法


📚 本阶段内容

本阶段学习当前最先进、最实用的强化学习算法,包括PPO、SAC等工业界常用算法。

章节列表

  1. 01-PPO算法
  2. 策略梯度的问题
  3. 重要性采样比率裁剪
  4. 自适应KL惩罚
  5. 实现细节

  6. 02-SAC算法

  7. 最大熵RL框架
  8. 软Q学习
  9. 自动温度调节
  10. 双Q网络

  11. 03-TRPO算法

  12. 信任区域方法
  13. 自然策略梯度
  14. Fisher信息矩阵
  15. 共轭梯度法

  16. 04-模型基方法

  17. Dyna-Q
  18. 模型学习
  19. MBMF (Model-Based Value Expansion)
  20. 规划与学习的结合

  21. 05-分布式RL

  22. Ape-X
  23. IMPALA
  24. R2D2
  25. 并行化训练

  26. 06-分层与多目标强化学习 🆕

  27. Options框架与时间抽象
  28. Option-Critic端到端学习
  29. 目标条件RL与HER
  30. 多目标RL与帕累托优化
  31. 自博弈(Self-Play)

🎯 学习目标

完成本阶段后,你将能够: - 理解并实现PPO算法 - 掌握SAC的最大熵框架 - 理解模型基方法的优势 - 了解分布式训练的原理 - 能够解决复杂的连续控制任务


🔗 与前后阶段的联系

Text Only
前一阶段: 03-函数近似与深度学习
    ├── 值函数近似
    ├── DQN
    ├── 策略梯度
    └── Actor-Critic
本阶段: 04-高级算法
    ├── PPO
    ├── SAC
    ├── TRPO
    └── 分布式RL
后一阶段: 05-实战项目
    ├── 综合应用
    └── 复杂任务

💡 学习建议

  1. 理解原理:不仅要会用,更要理解为什么有效
  2. 阅读源码:查看Stable-Baselines3等库的实现
  3. 实验对比:在相同环境上对比不同算法
  4. 调参经验:积累超参数调节的经验

🛠️ 实践项目

  1. Mujoco连续控制:用PPO/SAC解决Walker、Hopper
  2. PyBullet机器人:低成本机器人仿真
  3. 自定义环境:将算法应用到自己的问题

📖 推荐资源

经典论文

  • Schulman et al. (2017): Proximal Policy Optimization Algorithms (PPO)
  • Haarnoja et al. (2018): Soft Actor-Critic (SAC)
  • Schulman et al. (2015): Trust Region Policy Optimization (TRPO)
  • Horgan et al. (2018): Distributed Prioritized Experience Replay (Ape-X)
  • Espeholt et al. (2018): IMPALA

开源实现

  • Stable-Baselines3
  • RLlib (Ray)
  • CleanRL

准备好掌握最先进的RL算法了吗? 从PPO开始!