阶段四:高级算法¶
学习时间: 2周 重要性: ⭐⭐⭐⭐⭐ 当前最先进的RL算法
📚 本阶段内容¶
本阶段学习当前最先进、最实用的强化学习算法,包括PPO、SAC等工业界常用算法。
章节列表¶
- 01-PPO算法
- 策略梯度的问题
- 重要性采样比率裁剪
- 自适应KL惩罚
-
实现细节
- 最大熵RL框架
- 软Q学习
- 自动温度调节
-
双Q网络
- 信任区域方法
- 自然策略梯度
- Fisher信息矩阵
-
共轭梯度法
- Dyna-Q
- 模型学习
- MBMF (Model-Based Value Expansion)
-
规划与学习的结合
- Ape-X
- IMPALA
- R2D2
-
并行化训练
- Options框架与时间抽象
- Option-Critic端到端学习
- 目标条件RL与HER
- 多目标RL与帕累托优化
- 自博弈(Self-Play)
🎯 学习目标¶
完成本阶段后,你将能够: - 理解并实现PPO算法 - 掌握SAC的最大熵框架 - 理解模型基方法的优势 - 了解分布式训练的原理 - 能够解决复杂的连续控制任务
🔗 与前后阶段的联系¶
Text Only
前一阶段: 03-函数近似与深度学习
├── 值函数近似
├── DQN
├── 策略梯度
└── Actor-Critic
↓
本阶段: 04-高级算法
├── PPO
├── SAC
├── TRPO
└── 分布式RL
↓
后一阶段: 05-实战项目
├── 综合应用
└── 复杂任务
💡 学习建议¶
- 理解原理:不仅要会用,更要理解为什么有效
- 阅读源码:查看Stable-Baselines3等库的实现
- 实验对比:在相同环境上对比不同算法
- 调参经验:积累超参数调节的经验
🛠️ 实践项目¶
- Mujoco连续控制:用PPO/SAC解决Walker、Hopper
- PyBullet机器人:低成本机器人仿真
- 自定义环境:将算法应用到自己的问题
📖 推荐资源¶
经典论文¶
- Schulman et al. (2017): Proximal Policy Optimization Algorithms (PPO)
- Haarnoja et al. (2018): Soft Actor-Critic (SAC)
- Schulman et al. (2015): Trust Region Policy Optimization (TRPO)
- Horgan et al. (2018): Distributed Prioritized Experience Replay (Ape-X)
- Espeholt et al. (2018): IMPALA
开源实现¶
- Stable-Baselines3
- RLlib (Ray)
- CleanRL
准备好掌握最先进的RL算法了吗? 从PPO开始!