强化学习基础¶ 本章内容¶ 什么是强化学习 马尔可夫决策过程 贝尔曼方程 动态规划 蒙特卡洛方法 理论基础统一框架 收敛性与复杂度理论 统计学习理论视角 ⚠️ 核验说明(2026-03-26):本页已纳入 2026-03-26 全站统一复核批次。若文中涉及外部模型、API、版本号、价格或第三方产品名称,请以官方文档和实际运行环境为准。 最后更新日期: 2026-03-26