跳转至

附录A - 数学基础补充

说明:本附录为强化学习提供必要的数学基础,包括概率论、优化理论和泛函分析。建议根据需要有选择地学习。


1. 概率论基础

1.1 概率空间与随机变量

定义(概率空间):三元组 \((\Omega, \mathcal{F}, \mathbb{P})\),其中: - \(\Omega\):样本空间(所有可能结果) - \(\mathcal{F}\):事件域(\(\Omega\) 的子集族) - \(\mathbb{P}\):概率测度

定义(随机变量):映射 \(X: \Omega \to \mathbb{R}\),满足对任意 Borel 集 \(B\)\(X^{-1}(B) \in \mathcal{F}\)

1.2 条件期望

定义(条件期望):设 \(X\) 是随机变量,\(\mathcal{G} \subseteq \mathcal{F}\) 是子 \(\sigma\)-代数。条件期望 \(\mathbb{E}[X|\mathcal{G}]\) 是满足以下条件的随机变量 \(Y\): 1. \(Y\)\(\mathcal{G}\)-可测的 2. 对任意 \(A \in \mathcal{G}\)\(\int_A Y d\mathbb{P} = \int_A X d\mathbb{P}\)

重要性质: - 塔性质\(\mathbb{E}[\mathbb{E}[X|\mathcal{G}_2]|\mathcal{G}_1] = \mathbb{E}[X|\mathcal{G}_1]\)(当 \(\mathcal{G}_1 \subseteq \mathcal{G}_2\)) - 全期望公式\(\mathbb{E}[\mathbb{E}[X|Y]] = \mathbb{E}[X]\) - 线性性\(\mathbb{E}[aX + bY|\mathcal{G}] = a\mathbb{E}[X|\mathcal{G}] + b\mathbb{E}[Y|\mathcal{G}]\)

1.3 鞅(Martingale)

定义(鞅):随机过程 \(\{M_n\}_{n \geq 0}\) 称为关于滤子 \(\{\mathcal{F}_n\}\) 的鞅,如果: 1. \(\mathbb{E}[|M_n|] < \infty\) 2. \(M_n\)\(\mathcal{F}_n\)-可测的 3. \(\mathbb{E}[M_{n+1}|\mathcal{F}_n] = M_n\)

鞅收敛定理

如果 \(\{M_n\}\) 是上鞅且 \(\sup_n \mathbb{E}[|M_n|] < \infty\),则 \(M_n\) 几乎必然收敛。

在RL中的应用: - 分析随机逼近算法的收敛性 - 证明TD学习的收敛性

1.4 大数定律与中心极限定理

强大数定律(SLLN): 设 \(X_1, X_2, ...\) 是 i.i.d. 随机变量,\(\mathbb{E}[|X_1|] < \infty\),则: $\(\frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{a.s.} \mathbb{E}[X_1]\)$

中心极限定理(CLT): 在上述条件下,若 \(\text{Var}(X_1) = \sigma^2 < \infty\),则: $\(\sqrt{n}\left(\frac{1}{n}\sum_{i=1}^n X_i - \mathbb{E}[X_1]\right) \xrightarrow{d} \mathcal{N}(0, \sigma^2)\)$

在MC方法中的应用: - MC估计的渐近正态性 - 置信区间构造


2. 优化理论基础

2.1 凸优化

定义(凸集):集合 \(C \subseteq \mathbb{R}^n\) 是凸集,如果对任意 \(x, y \in C\)\(\lambda \in [0,1]\): $\(\lambda x + (1-\lambda)y \in C\)$

定义(凸函数):函数 \(f: C \to \mathbb{R}\) 是凸函数,如果: $\(f(\lambda x + (1-\lambda)y) \leq \lambda f(x) + (1-\lambda)f(y)\)$

凸优化问题: $\(\min_{x \in C} f(x)\)$ 其中 \(f\) 是凸函数,\(C\) 是凸集。

关键性质: - 局部最优 = 全局最优 - 一阶条件:\(\nabla f(x^*) = 0\) 是最优性的充分条件

2.2 梯度下降

算法: $\(x_{k+1} = x_k - \alpha_k \nabla f(x_k)\)$

收敛性定理: 设 \(f\)\(L\)-光滑(梯度Lipschitz)且 \(\mu\)-强凸的,步长 \(\alpha_k = \frac{2}{\mu + L}\),则: $\(\|x_k - x^*\|^2 \leq \left(\frac{L-\mu}{L+\mu}\right)^k \|x_0 - x^*\|^2\)$

收敛速率:线性收敛,条件数 \(\kappa = L/\mu\) 决定收敛速度。

2.3 随机逼近(Stochastic Approximation)

Robbins-Monro算法: 求解方程 \(g(\theta) = 0\),其中只能观测到噪声版本: $\(\theta_{n+1} = \theta_n + \alpha_n (g(\theta_n) + \xi_n)\)$

收敛条件(Robbins-Monro条件): 1. \(\sum_{n=1}^\infty \alpha_n = \infty\)(步长足够大) 2. \(\sum_{n=1}^\infty \alpha_n^2 < \infty\)(步长足够小)

在RL中的应用: - Q-Learning的收敛性 - 策略梯度方法 - TD学习的收敛性

2.4 随机梯度下降(SGD)

算法: $\(\theta_{t+1} = \theta_t - \alpha_t \nabla f_{i_t}(\theta_t)\)$

其中 \(i_t\) 是随机采样的样本索引。

收敛性: - 对于凸函数:\(O(1/\sqrt{t})\) 收敛 - 对于强凸函数:\(O(1/t)\) 收敛

方差缩减方法: - SVRG(Stochastic Variance Reduced Gradient) - SAGA - 在RL中的应用:减少策略梯度的方差


3. 泛函分析基础

3.1 度量空间与完备性

定义(度量空间):集合 \(X\) 配备度量 \(d: X \times X \to \mathbb{R}_+\),满足: 1. \(d(x,y) = 0 \iff x = y\) 2. \(d(x,y) = d(y,x)\) 3. \(d(x,z) \leq d(x,y) + d(y,z)\)(三角不等式)

定义(柯西序列):序列 \(\{x_n\}\) 是柯西序列,如果: $\(\forall \epsilon > 0, \exists N, \forall m,n \geq N: d(x_m, x_n) < \epsilon\)$

定义(完备性):度量空间 \((X, d)\) 是完备的,如果所有柯西序列都收敛。

例子: - \((\mathbb{R}^n, \|\cdot\|_2)\) 是完备的 - 有理数集 \(\mathbb{Q}\) 不完备

3.2 赋范线性空间

定义(范数):映射 \(\|\cdot\|: X \to \mathbb{R}_+\),满足: 1. \(\|x\| = 0 \iff x = 0\) 2. \(\|\alpha x\| = |\alpha| \|x\|\) 3. \(\|x + y\| \leq \|x\| + \|y\|\)

巴拿赫空间(Banach Space):完备的赋范线性空间。

常见范数: - \(L_\infty\) 范数:\(\|f\|_\infty = \sup_x |f(x)|\) - \(L_2\) 范数:\(\|f\|_2 = \sqrt{\int |f(x)|^2 dx}\) - \(L_1\) 范数:\(\|f\|_1 = \int |f(x)| dx\)

3.3 压缩映射定理(详细)

定理(Banach不动点定理): 设 \((X, d)\) 是完备度量空间,\(T: X \to X\) 是压缩映射(压缩系数 \(\gamma \in [0,1)\)),则:

  1. 存在唯一性\(T\) 有唯一不动点 \(x^*\)
  2. 收敛性:对任意 \(x_0 \in X\),迭代 \(x_{n+1} = T x_n\) 收敛到 \(x^*\)
  3. 误差估计
  4. 先验估计:\(d(x_n, x^*) \leq \frac{\gamma^n}{1-\gamma} d(x_1, x_0)\)
  5. 后验估计:\(d(x_n, x^*) \leq \frac{\gamma}{1-\gamma} d(x_n, x_{n-1})\)

证明

步骤1:证明 \(\{x_n\}\) 是柯西序列

对于 \(m > n\): \begin{align} d(x_n, x_m) &\leq \sum_{k=n}^{m-1} d(x_k, x_{k+1}) \ &\leq \sum_{k=n}^{m-1} \gamma^k d(x_0, x_1) \ &\leq \frac{\gamma^n}{1-\gamma} d(x_0, x_1) \to 0 \text{ as } n \to \infty \end{align}

步骤2:证明极限是不动点

\(x^* = \lim_{n \to \infty} x_n\),则: $\(d(Tx^*, x^*) \leq d(Tx^*, Tx_n) + d(Tx_n, x^*) \leq \gamma d(x^*, x_n) + d(x_{n+1}, x^*) \to 0\)$

步骤3:证明唯一性

\(x^*, y^*\) 都是不动点: $\(d(x^*, y^*) = d(Tx^*, Ty^*) \leq \gamma d(x^*, y^*)\)$

因此 \(d(x^*, y^*) = 0\),即 \(x^* = y^*\)

证毕。

3.4 线性算子与谱理论

定义(线性算子):映射 \(T: X \to Y\) 是线性的,如果: $\(T(\alpha x + \beta y) = \alpha Tx + \beta Ty\)$

算子范数: $\(\|T\| = \sup_{\|x\|=1} \|Tx\|\)$

谱半径: $\(\rho(T) = \lim_{n \to \infty} \|T^n\|^{1/n}\)$

在RL中的应用: - 贝尔曼算子的谱分析 - 值迭代的收敛速率 - 函数近似的稳定性


4. 随机过程基础

4.1 马尔可夫链

定义(马尔可夫链):随机过程 \(\{X_n\}_{n \geq 0}\) 称为马尔可夫链,如果: $\(\mathbb{P}(X_{n+1} = j | X_n = i, X_{n-1}, ..., X_0) = \mathbb{P}(X_{n+1} = j | X_n = i)\)$

转移矩阵\(P_{ij} = \mathbb{P}(X_{n+1} = j | X_n = i)\)

n步转移\(P^{(n)} = P^n\)

4.2 遍历性与稳态分布

定义(不可约):马尔可夫链是不可约的,如果从任意状态可达任意其他状态。

定义(非周期):状态 \(i\) 是非周期的,如果 \(\gcd\{n: P^{(n)}_{ii} > 0\} = 1\)

遍历定理: 对于不可约、非周期的有限马尔可夫链: 1. 存在唯一的稳态分布 \(\pi\),满足 \(\pi P = \pi\) 2. 对任意初始分布,\(P(X_n = j) \to \pi_j\) 3. 时间平均收敛:\(\frac{1}{n}\sum_{k=1}^n \mathbb{1}(X_k = j) \to \pi_j\)

在RL中的应用: - 策略评估的收敛性 - 平均奖励MDP - MC方法的样本效率


5. 信息论基础

5.1 熵与互信息

定义(熵):随机变量 \(X\) 的熵: $\(H(X) = -\sum_x p(x) \log p(x)\)$

定义(互信息): $\(I(X;Y) = H(X) - H(X|Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}\)$

性质: - \(I(X;Y) \geq 0\) - \(I(X;Y) = 0 \iff X \perp Y\) - 数据处理不等式:\(I(X;Z) \leq I(X;Y)\)(如果 \(X \to Y \to Z\) 形成马尔可夫链)

5.2 KL散度

定义(KL散度): $\(D_{KL}(P \| Q) = \sum_x p(x) \log \frac{p(x)}{q(x)}\)$

性质: - \(D_{KL}(P \| Q) \geq 0\)(Gibbs不等式) - \(D_{KL}(P \| Q) = 0 \iff P = Q\) - 非对称:\(D_{KL}(P \| Q) \neq D_{KL}(Q \| P)\)

在RL中的应用: - TRPO中的信任区域约束 - 策略正则化(entropy regularization) - 变分推断


6. 常用不等式

6.1 基本不等式

Markov不等式: $\(\mathbb{P}(|X| \geq a) \leq \frac{\mathbb{E}[|X|]}{a}\)$

Chebyshev不等式: $\(\mathbb{P}(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}\)$

Chernoff界: 对于独立随机变量 \(X_i \in [0,1]\)\(\mu = \mathbb{E}[\sum X_i]\): $\(\mathbb{P}(\sum X_i \geq (1+\delta)\mu) \leq e^{-\mu \delta^2 / 3}\)$

6.2 集中不等式

Hoeffding不等式: 设 \(X_i\) 是独立有界随机变量,\(X_i \in [a_i, b_i]\),则: $\(\mathbb{P}\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq t\right) \leq 2\exp\left(-\frac{2n^2t^2}{\sum_{i=1}^n (b_i-a_i)^2}\right)\)$

Bernstein不等式: 在方差信息已知时,提供更紧的界。

在RL中的应用: - 样本复杂度分析 - 探索-利用权衡的理论分析 - 安全强化学习


7. 本章总结

数学工具图谱

Text Only
强化学习的数学基础

├── 概率论
│   ├── 条件期望(塔性质)
│   ├── 鞅理论(收敛性)
│   └── 极限定理(LLN, CLT)
├── 优化理论
│   ├── 凸优化(全局最优)
│   ├── 梯度方法(收敛速率)
│   └── 随机逼近(Robbins-Monro)
├── 泛函分析
│   ├── 度量空间(完备性)
│   ├── 压缩映射(不动点)
│   └── 谱理论(收敛分析)
├── 随机过程
│   └── 马尔可夫链(遍历理论)
└── 信息论
    ├── 熵与互信息
    └── KL散度(正则化)

关键定理回顾

  1. Banach不动点定理:压缩映射有唯一不动点
  2. Robbins-Monro条件:随机逼近收敛的步长条件
  3. 遍历定理:马尔可夫链的长期行为
  4. 集中不等式:随机变量的尾部界

📚 推荐教材

  1. 概率论
  2. Durrett, Probability: Theory and Examples
  3. Williams, Probability with Martingales

  4. 优化理论

  5. Boyd & Vandenberghe, Convex Optimization
  6. Bertsekas, Nonlinear Programming

  7. 泛函分析

  8. Kreyszig, Introductory Functional Analysis
  9. Conway, A Course in Functional Analysis

  10. 随机过程

  11. Norris, Markov Chains
  12. Meyn & Tweedie, Markov Chains and Stochastic Stability

掌握这些数学工具后,你将能够深入理解强化学习的理论基础。