附录A - 数学基础补充¶
说明:本附录为强化学习提供必要的数学基础,包括概率论、优化理论和泛函分析。建议根据需要有选择地学习。
1. 概率论基础¶
1.1 概率空间与随机变量¶
定义(概率空间):三元组 \((\Omega, \mathcal{F}, \mathbb{P})\),其中: - \(\Omega\):样本空间(所有可能结果) - \(\mathcal{F}\):事件域(\(\Omega\) 的子集族) - \(\mathbb{P}\):概率测度
定义(随机变量):映射 \(X: \Omega \to \mathbb{R}\),满足对任意 Borel 集 \(B\),\(X^{-1}(B) \in \mathcal{F}\)。
1.2 条件期望¶
定义(条件期望):设 \(X\) 是随机变量,\(\mathcal{G} \subseteq \mathcal{F}\) 是子 \(\sigma\)-代数。条件期望 \(\mathbb{E}[X|\mathcal{G}]\) 是满足以下条件的随机变量 \(Y\): 1. \(Y\) 是 \(\mathcal{G}\)-可测的 2. 对任意 \(A \in \mathcal{G}\),\(\int_A Y d\mathbb{P} = \int_A X d\mathbb{P}\)
重要性质: - 塔性质:\(\mathbb{E}[\mathbb{E}[X|\mathcal{G}_2]|\mathcal{G}_1] = \mathbb{E}[X|\mathcal{G}_1]\)(当 \(\mathcal{G}_1 \subseteq \mathcal{G}_2\)) - 全期望公式:\(\mathbb{E}[\mathbb{E}[X|Y]] = \mathbb{E}[X]\) - 线性性:\(\mathbb{E}[aX + bY|\mathcal{G}] = a\mathbb{E}[X|\mathcal{G}] + b\mathbb{E}[Y|\mathcal{G}]\)
1.3 鞅(Martingale)¶
定义(鞅):随机过程 \(\{M_n\}_{n \geq 0}\) 称为关于滤子 \(\{\mathcal{F}_n\}\) 的鞅,如果: 1. \(\mathbb{E}[|M_n|] < \infty\) 2. \(M_n\) 是 \(\mathcal{F}_n\)-可测的 3. \(\mathbb{E}[M_{n+1}|\mathcal{F}_n] = M_n\)
鞅收敛定理:
如果 \(\{M_n\}\) 是上鞅且 \(\sup_n \mathbb{E}[|M_n|] < \infty\),则 \(M_n\) 几乎必然收敛。
在RL中的应用: - 分析随机逼近算法的收敛性 - 证明TD学习的收敛性
1.4 大数定律与中心极限定理¶
强大数定律(SLLN): 设 \(X_1, X_2, ...\) 是 i.i.d. 随机变量,\(\mathbb{E}[|X_1|] < \infty\),则: $\(\frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{a.s.} \mathbb{E}[X_1]\)$
中心极限定理(CLT): 在上述条件下,若 \(\text{Var}(X_1) = \sigma^2 < \infty\),则: $\(\sqrt{n}\left(\frac{1}{n}\sum_{i=1}^n X_i - \mathbb{E}[X_1]\right) \xrightarrow{d} \mathcal{N}(0, \sigma^2)\)$
在MC方法中的应用: - MC估计的渐近正态性 - 置信区间构造
2. 优化理论基础¶
2.1 凸优化¶
定义(凸集):集合 \(C \subseteq \mathbb{R}^n\) 是凸集,如果对任意 \(x, y \in C\) 和 \(\lambda \in [0,1]\): $\(\lambda x + (1-\lambda)y \in C\)$
定义(凸函数):函数 \(f: C \to \mathbb{R}\) 是凸函数,如果: $\(f(\lambda x + (1-\lambda)y) \leq \lambda f(x) + (1-\lambda)f(y)\)$
凸优化问题: $\(\min_{x \in C} f(x)\)$ 其中 \(f\) 是凸函数,\(C\) 是凸集。
关键性质: - 局部最优 = 全局最优 - 一阶条件:\(\nabla f(x^*) = 0\) 是最优性的充分条件
2.2 梯度下降¶
算法: $\(x_{k+1} = x_k - \alpha_k \nabla f(x_k)\)$
收敛性定理: 设 \(f\) 是 \(L\)-光滑(梯度Lipschitz)且 \(\mu\)-强凸的,步长 \(\alpha_k = \frac{2}{\mu + L}\),则: $\(\|x_k - x^*\|^2 \leq \left(\frac{L-\mu}{L+\mu}\right)^k \|x_0 - x^*\|^2\)$
收敛速率:线性收敛,条件数 \(\kappa = L/\mu\) 决定收敛速度。
2.3 随机逼近(Stochastic Approximation)¶
Robbins-Monro算法: 求解方程 \(g(\theta) = 0\),其中只能观测到噪声版本: $\(\theta_{n+1} = \theta_n + \alpha_n (g(\theta_n) + \xi_n)\)$
收敛条件(Robbins-Monro条件): 1. \(\sum_{n=1}^\infty \alpha_n = \infty\)(步长足够大) 2. \(\sum_{n=1}^\infty \alpha_n^2 < \infty\)(步长足够小)
在RL中的应用: - Q-Learning的收敛性 - 策略梯度方法 - TD学习的收敛性
2.4 随机梯度下降(SGD)¶
算法: $\(\theta_{t+1} = \theta_t - \alpha_t \nabla f_{i_t}(\theta_t)\)$
其中 \(i_t\) 是随机采样的样本索引。
收敛性: - 对于凸函数:\(O(1/\sqrt{t})\) 收敛 - 对于强凸函数:\(O(1/t)\) 收敛
方差缩减方法: - SVRG(Stochastic Variance Reduced Gradient) - SAGA - 在RL中的应用:减少策略梯度的方差
3. 泛函分析基础¶
3.1 度量空间与完备性¶
定义(度量空间):集合 \(X\) 配备度量 \(d: X \times X \to \mathbb{R}_+\),满足: 1. \(d(x,y) = 0 \iff x = y\) 2. \(d(x,y) = d(y,x)\) 3. \(d(x,z) \leq d(x,y) + d(y,z)\)(三角不等式)
定义(柯西序列):序列 \(\{x_n\}\) 是柯西序列,如果: $\(\forall \epsilon > 0, \exists N, \forall m,n \geq N: d(x_m, x_n) < \epsilon\)$
定义(完备性):度量空间 \((X, d)\) 是完备的,如果所有柯西序列都收敛。
例子: - \((\mathbb{R}^n, \|\cdot\|_2)\) 是完备的 - 有理数集 \(\mathbb{Q}\) 不完备
3.2 赋范线性空间¶
定义(范数):映射 \(\|\cdot\|: X \to \mathbb{R}_+\),满足: 1. \(\|x\| = 0 \iff x = 0\) 2. \(\|\alpha x\| = |\alpha| \|x\|\) 3. \(\|x + y\| \leq \|x\| + \|y\|\)
巴拿赫空间(Banach Space):完备的赋范线性空间。
常见范数: - \(L_\infty\) 范数:\(\|f\|_\infty = \sup_x |f(x)|\) - \(L_2\) 范数:\(\|f\|_2 = \sqrt{\int |f(x)|^2 dx}\) - \(L_1\) 范数:\(\|f\|_1 = \int |f(x)| dx\)
3.3 压缩映射定理(详细)¶
定理(Banach不动点定理): 设 \((X, d)\) 是完备度量空间,\(T: X \to X\) 是压缩映射(压缩系数 \(\gamma \in [0,1)\)),则:
- 存在唯一性:\(T\) 有唯一不动点 \(x^*\)
- 收敛性:对任意 \(x_0 \in X\),迭代 \(x_{n+1} = T x_n\) 收敛到 \(x^*\)
- 误差估计:
- 先验估计:\(d(x_n, x^*) \leq \frac{\gamma^n}{1-\gamma} d(x_1, x_0)\)
- 后验估计:\(d(x_n, x^*) \leq \frac{\gamma}{1-\gamma} d(x_n, x_{n-1})\)
证明:
步骤1:证明 \(\{x_n\}\) 是柯西序列
对于 \(m > n\): \begin{align} d(x_n, x_m) &\leq \sum_{k=n}^{m-1} d(x_k, x_{k+1}) \ &\leq \sum_{k=n}^{m-1} \gamma^k d(x_0, x_1) \ &\leq \frac{\gamma^n}{1-\gamma} d(x_0, x_1) \to 0 \text{ as } n \to \infty \end{align}
步骤2:证明极限是不动点
设 \(x^* = \lim_{n \to \infty} x_n\),则: $\(d(Tx^*, x^*) \leq d(Tx^*, Tx_n) + d(Tx_n, x^*) \leq \gamma d(x^*, x_n) + d(x_{n+1}, x^*) \to 0\)$
步骤3:证明唯一性
设 \(x^*, y^*\) 都是不动点: $\(d(x^*, y^*) = d(Tx^*, Ty^*) \leq \gamma d(x^*, y^*)\)$
因此 \(d(x^*, y^*) = 0\),即 \(x^* = y^*\)。
证毕。
3.4 线性算子与谱理论¶
定义(线性算子):映射 \(T: X \to Y\) 是线性的,如果: $\(T(\alpha x + \beta y) = \alpha Tx + \beta Ty\)$
算子范数: $\(\|T\| = \sup_{\|x\|=1} \|Tx\|\)$
谱半径: $\(\rho(T) = \lim_{n \to \infty} \|T^n\|^{1/n}\)$
在RL中的应用: - 贝尔曼算子的谱分析 - 值迭代的收敛速率 - 函数近似的稳定性
4. 随机过程基础¶
4.1 马尔可夫链¶
定义(马尔可夫链):随机过程 \(\{X_n\}_{n \geq 0}\) 称为马尔可夫链,如果: $\(\mathbb{P}(X_{n+1} = j | X_n = i, X_{n-1}, ..., X_0) = \mathbb{P}(X_{n+1} = j | X_n = i)\)$
转移矩阵:\(P_{ij} = \mathbb{P}(X_{n+1} = j | X_n = i)\)
n步转移:\(P^{(n)} = P^n\)
4.2 遍历性与稳态分布¶
定义(不可约):马尔可夫链是不可约的,如果从任意状态可达任意其他状态。
定义(非周期):状态 \(i\) 是非周期的,如果 \(\gcd\{n: P^{(n)}_{ii} > 0\} = 1\)。
遍历定理: 对于不可约、非周期的有限马尔可夫链: 1. 存在唯一的稳态分布 \(\pi\),满足 \(\pi P = \pi\) 2. 对任意初始分布,\(P(X_n = j) \to \pi_j\) 3. 时间平均收敛:\(\frac{1}{n}\sum_{k=1}^n \mathbb{1}(X_k = j) \to \pi_j\)
在RL中的应用: - 策略评估的收敛性 - 平均奖励MDP - MC方法的样本效率
5. 信息论基础¶
5.1 熵与互信息¶
定义(熵):随机变量 \(X\) 的熵: $\(H(X) = -\sum_x p(x) \log p(x)\)$
定义(互信息): $\(I(X;Y) = H(X) - H(X|Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\)$
性质: - \(I(X;Y) \geq 0\) - \(I(X;Y) = 0 \iff X \perp Y\) - 数据处理不等式:\(I(X;Z) \leq I(X;Y)\)(如果 \(X \to Y \to Z\) 形成马尔可夫链)
5.2 KL散度¶
定义(KL散度): $\(D_{KL}(P \| Q) = \sum_x p(x) \log \frac{p(x)}{q(x)}\)$
性质: - \(D_{KL}(P \| Q) \geq 0\)(Gibbs不等式) - \(D_{KL}(P \| Q) = 0 \iff P = Q\) - 非对称:\(D_{KL}(P \| Q) \neq D_{KL}(Q \| P)\)
在RL中的应用: - TRPO中的信任区域约束 - 策略正则化(entropy regularization) - 变分推断
6. 常用不等式¶
6.1 基本不等式¶
Markov不等式: $\(\mathbb{P}(|X| \geq a) \leq \frac{\mathbb{E}[|X|]}{a}\)$
Chebyshev不等式: $\(\mathbb{P}(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}\)$
Chernoff界: 对于独立随机变量 \(X_i \in [0,1]\),\(\mu = \mathbb{E}[\sum X_i]\): $\(\mathbb{P}(\sum X_i \geq (1+\delta)\mu) \leq e^{-\mu \delta^2 / 3}\)$
6.2 集中不等式¶
Hoeffding不等式: 设 \(X_i\) 是独立有界随机变量,\(X_i \in [a_i, b_i]\),则: $\(\mathbb{P}\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq t\right) \leq 2\exp\left(-\frac{2n^2t^2}{\sum_{i=1}^n (b_i-a_i)^2}\right)\)$
Bernstein不等式: 在方差信息已知时,提供更紧的界。
在RL中的应用: - 样本复杂度分析 - 探索-利用权衡的理论分析 - 安全强化学习
7. 本章总结¶
数学工具图谱¶
强化学习的数学基础
├── 概率论
│ ├── 条件期望(塔性质)
│ ├── 鞅理论(收敛性)
│ └── 极限定理(LLN, CLT)
│
├── 优化理论
│ ├── 凸优化(全局最优)
│ ├── 梯度方法(收敛速率)
│ └── 随机逼近(Robbins-Monro)
│
├── 泛函分析
│ ├── 度量空间(完备性)
│ ├── 压缩映射(不动点)
│ └── 谱理论(收敛分析)
│
├── 随机过程
│ └── 马尔可夫链(遍历理论)
│
└── 信息论
├── 熵与互信息
└── KL散度(正则化)
关键定理回顾¶
- Banach不动点定理:压缩映射有唯一不动点
- Robbins-Monro条件:随机逼近收敛的步长条件
- 遍历定理:马尔可夫链的长期行为
- 集中不等式:随机变量的尾部界
📚 推荐教材¶
- 概率论:
- Durrett, Probability: Theory and Examples
-
Williams, Probability with Martingales
-
优化理论:
- Boyd & Vandenberghe, Convex Optimization
-
Bertsekas, Nonlinear Programming
-
泛函分析:
- Kreyszig, Introductory Functional Analysis
-
Conway, A Course in Functional Analysis
-
随机过程:
- Norris, Markov Chains
- Meyn & Tweedie, Markov Chains and Stochastic Stability
掌握这些数学工具后,你将能够深入理解强化学习的理论基础。