附录A - 数学基础补充¶

说明：本附录为强化学习提供必要的数学基础，包括概率论、优化理论和泛函分析。建议根据需要有选择地学习。

1. 概率论基础¶

1.1 概率空间与随机变量¶

定义（概率空间）：三元组 $(\Omega, \mathcal{F}, \mathbb{P})$，其中： - $\Omega$：样本空间（所有可能结果） - $\mathcal{F}$：事件域（$\Omega$ 的子集族） - $\mathbb{P}$：概率测度

定义（随机变量）：映射 $X: \Omega \to \mathbb{R}$，满足对任意 Borel 集 $B$，$X^{-1}(B) \in \mathcal{F}$。

1.2 条件期望¶

定义（条件期望）：设 $X$ 是随机变量，$\mathcal{G} \subseteq \mathcal{F}$ 是子 $\sigma$-代数。条件期望 $\mathbb{E}[X|\mathcal{G}]$ 是满足以下条件的随机变量 $Y$： 1. $Y$ 是 $\mathcal{G}$-可测的 2. 对任意 $A \in \mathcal{G}$，$\int_A Y d\mathbb{P} = \int_A X d\mathbb{P}$

重要性质： - 塔性质：$\mathbb{E}[\mathbb{E}[X|\mathcal{G}_2]|\mathcal{G}_1] = \mathbb{E}[X|\mathcal{G}_1]$（当 $\mathcal{G}_1 \subseteq \mathcal{G}_2$） - 全期望公式：$\mathbb{E}[\mathbb{E}[X|Y]] = \mathbb{E}[X]$ - 线性性：$\mathbb{E}[aX + bY|\mathcal{G}] = a\mathbb{E}[X|\mathcal{G}] + b\mathbb{E}[Y|\mathcal{G}]$

1.3 鞅（Martingale）¶

定义（鞅）：随机过程 $\{M_n\}_{n \geq 0}$ 称为关于滤子 $\{\mathcal{F}_n\}$ 的鞅，如果： 1. $\mathbb{E}[|M_n|] < \infty$ 2. $M_n$ 是 $\mathcal{F}_n$-可测的 3. $\mathbb{E}[M_{n+1}|\mathcal{F}_n] = M_n$

鞅收敛定理：

如果 $\{M_n\}$ 是上鞅且 $\sup_n \mathbb{E}[|M_n|] < \infty$，则 $M_n$ 几乎必然收敛。

在RL中的应用： - 分析随机逼近算法的收敛性 - 证明TD学习的收敛性

1.4 大数定律与中心极限定理¶

强大数定律（SLLN）：设 $X_1, X_2, ...$ 是 i.i.d. 随机变量，$\mathbb{E}[|X_1|] < \infty$，则： $$\frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{a.s.} \mathbb{E}[X_1]$$

中心极限定理（CLT）：在上述条件下，若 $\text{Var}(X_1) = \sigma^2 < \infty$，则： $$\sqrt{n}\left(\frac{1}{n}\sum_{i=1}^n X_i - \mathbb{E}[X_1]\right) \xrightarrow{d} \mathcal{N}(0, \sigma^2)$$

在MC方法中的应用： - MC估计的渐近正态性 - 置信区间构造

2. 优化理论基础¶

2.1 凸优化¶

定义（凸集）：集合 $C \subseteq \mathbb{R}^n$ 是凸集，如果对任意 $x, y \in C$ 和 $\lambda \in [0,1]$： $$\lambda x + (1-\lambda)y \in C$$

定义（凸函数）：函数 $f: C \to \mathbb{R}$ 是凸函数，如果： $$f(\lambda x + (1-\lambda)y) \leq \lambda f(x) + (1-\lambda)f(y)$$

凸优化问题： $$\min_{x \in C} f(x)$$ 其中 $f$ 是凸函数，$C$ 是凸集。

关键性质： - 局部最优 = 全局最优 - 一阶条件：$\nabla f(x^*) = 0$ 是最优性的充分条件

2.2 梯度下降¶

算法： $$x_{k+1} = x_k - \alpha_k \nabla f(x_k)$$

收敛性定理：设 $f$ 是 $L$-光滑（梯度Lipschitz）且 $\mu$-强凸的，步长 $\alpha_k = \frac{2}{\mu + L}$，则： $$\|x_k - x^*\|^2 \leq \left(\frac{L-\mu}{L+\mu}\right)^k \|x_0 - x^*\|^2$$

收敛速率：线性收敛，条件数 $\kappa = L/\mu$ 决定收敛速度。

2.3 随机逼近（Stochastic Approximation）¶

Robbins-Monro算法：求解方程 $g(\theta) = 0$，其中只能观测到噪声版本： $$\theta_{n+1} = \theta_n + \alpha_n (g(\theta_n) + \xi_n)$$

收敛条件（Robbins-Monro条件）： 1. $\sum_{n=1}^\infty \alpha_n = \infty$（步长足够大） 2. $\sum_{n=1}^\infty \alpha_n^2 < \infty$（步长足够小）

在RL中的应用： - Q-Learning的收敛性 - 策略梯度方法 - TD学习的收敛性

2.4 随机梯度下降（SGD）¶

算法： $$\theta_{t+1} = \theta_t - \alpha_t \nabla f_{i_t}(\theta_t)$$

其中 $i_t$ 是随机采样的样本索引。

收敛性： - 对于凸函数：$O(1/\sqrt{t})$ 收敛 - 对于强凸函数：$O(1/t)$ 收敛

方差缩减方法： - SVRG（Stochastic Variance Reduced Gradient） - SAGA - 在RL中的应用：减少策略梯度的方差

3. 泛函分析基础¶

3.1 度量空间与完备性¶

定义（度量空间）：集合 $X$ 配备度量 $d: X \times X \to \mathbb{R}_+$，满足： 1. $d(x,y) = 0 \iff x = y$ 2. $d(x,y) = d(y,x)$ 3. $d(x,z) \leq d(x,y) + d(y,z)$（三角不等式）

定义（柯西序列）：序列 $\{x_n\}$ 是柯西序列，如果： $$\forall \epsilon > 0, \exists N, \forall m,n \geq N: d(x_m, x_n) < \epsilon$$

定义（完备性）：度量空间 $(X, d)$ 是完备的，如果所有柯西序列都收敛。

例子： - $(\mathbb{R}^n, \|\cdot\|_2)$ 是完备的 - 有理数集 $\mathbb{Q}$ 不完备

3.2 赋范线性空间¶

定义（范数）：映射 $\|\cdot\|: X \to \mathbb{R}_+$，满足： 1. $\|x\| = 0 \iff x = 0$ 2. $\|\alpha x\| = |\alpha| \|x\|$ 3. $\|x + y\| \leq \|x\| + \|y\|$

巴拿赫空间（Banach Space）：完备的赋范线性空间。

常见范数： - $L_\infty$ 范数：$\|f\|_\infty = \sup_x |f(x)|$ - $L_2$ 范数：$\|f\|_2 = \sqrt{\int |f(x)|^2 dx}$ - $L_1$ 范数：$\|f\|_1 = \int |f(x)| dx$

3.3 压缩映射定理（详细）¶

定理（Banach不动点定理）：设 $(X, d)$ 是完备度量空间，$T: X \to X$ 是压缩映射（压缩系数 $\gamma \in [0,1)$），则：

存在唯一性：$T$ 有唯一不动点 $x^*$
收敛性：对任意 $x_0 \in X$，迭代 $x_{n+1} = T x_n$ 收敛到 $x^*$
误差估计：
先验估计：$d(x_n, x^*) \leq \frac{\gamma^n}{1-\gamma} d(x_1, x_0)$
后验估计：$d(x_n, x^*) \leq \frac{\gamma}{1-\gamma} d(x_n, x_{n-1})$

证明：

步骤1：证明 $\{x_n\}$ 是柯西序列

对于 $m > n$： \begin{align} d(x_n, x_m) &\leq \sum_{k=n}^{m-1} d(x_k, x_{k+1}) \ &\leq \sum_{k=n}^{m-1} \gamma^k d(x_0, x_1) \ &\leq \frac{\gamma^n}{1-\gamma} d(x_0, x_1) \to 0 \text{ as } n \to \infty \end{align}

步骤2：证明极限是不动点

设 $x^* = \lim_{n \to \infty} x_n$，则： $$d(Tx^*, x^*) \leq d(Tx^*, Tx_n) + d(Tx_n, x^*) \leq \gamma d(x^*, x_n) + d(x_{n+1}, x^*) \to 0$$

步骤3：证明唯一性

设 $x^*, y^*$ 都是不动点： $$d(x^*, y^*) = d(Tx^*, Ty^*) \leq \gamma d(x^*, y^*)$$

因此 $d(x^*, y^*) = 0$，即 $x^* = y^*$。

证毕。

3.4 线性算子与谱理论¶

定义（线性算子）：映射 $T: X \to Y$ 是线性的，如果： $$T(\alpha x + \beta y) = \alpha Tx + \beta Ty$$

算子范数： $$\|T\| = \sup_{\|x\|=1} \|Tx\|$$

谱半径： $$\rho(T) = \lim_{n \to \infty} \|T^n\|^{1/n}$$

在RL中的应用： - 贝尔曼算子的谱分析 - 值迭代的收敛速率 - 函数近似的稳定性

4. 随机过程基础¶

4.1 马尔可夫链¶

定义（马尔可夫链）：随机过程 $\{X_n\}_{n \geq 0}$ 称为马尔可夫链，如果： $$\mathbb{P}(X_{n+1} = j | X_n = i, X_{n-1}, ..., X_0) = \mathbb{P}(X_{n+1} = j | X_n = i)$$

转移矩阵：$P_{ij} = \mathbb{P}(X_{n+1} = j | X_n = i)$

n步转移：$P^{(n)} = P^n$

4.2 遍历性与稳态分布¶

定义（不可约）：马尔可夫链是不可约的，如果从任意状态可达任意其他状态。

定义（非周期）：状态 $i$ 是非周期的，如果 $\gcd\{n: P^{(n)}_{ii} > 0\} = 1$。

遍历定理：对于不可约、非周期的有限马尔可夫链： 1. 存在唯一的稳态分布 $\pi$，满足 $\pi P = \pi$ 2. 对任意初始分布，$P(X_n = j) \to \pi_j$ 3. 时间平均收敛：$\frac{1}{n}\sum_{k=1}^n \mathbb{1}(X_k = j) \to \pi_j$

在RL中的应用： - 策略评估的收敛性 - 平均奖励MDP - MC方法的样本效率

5. 信息论基础¶

5.1 熵与互信息¶

定义（熵）：随机变量 $X$ 的熵： $$H(X) = -\sum_x p(x) \log p(x)$$

定义（互信息）： $$I(X;Y) = H(X) - H(X|Y) = \sum_{x,y} p(x,y) \log \frac{p(x,y)}{p(x)p(y)}$$

性质： - $I(X;Y) \geq 0$ - $I(X;Y) = 0 \iff X \perp Y$ - 数据处理不等式：$I(X;Z) \leq I(X;Y)$（如果 $X \to Y \to Z$ 形成马尔可夫链）

5.2 KL散度¶

定义（KL散度）： $$D_{KL}(P \| Q) = \sum_x p(x) \log \frac{p(x)}{q(x)}$$

性质： - $D_{KL}(P \| Q) \geq 0$（Gibbs不等式） - $D_{KL}(P \| Q) = 0 \iff P = Q$ - 非对称：$D_{KL}(P \| Q) \neq D_{KL}(Q \| P)$

在RL中的应用： - TRPO中的信任区域约束 - 策略正则化（entropy regularization） - 变分推断

6. 常用不等式¶

6.1 基本不等式¶

Markov不等式： $$\mathbb{P}(|X| \geq a) \leq \frac{\mathbb{E}[|X|]}{a}$$

Chebyshev不等式： $$\mathbb{P}(|X - \mu| \geq k\sigma) \leq \frac{1}{k^2}$$

Chernoff界：对于独立随机变量 $X_i \in [0,1]$，$\mu = \mathbb{E}[\sum X_i]$： $$\mathbb{P}(\sum X_i \geq (1+\delta)\mu) \leq e^{-\mu \delta^2 / 3}$$

6.2 集中不等式¶

Hoeffding不等式：设 $X_i$ 是独立有界随机变量，$X_i \in [a_i, b_i]$，则： $$\mathbb{P}\left(\left|\frac{1}{n}\sum_{i=1}^n X_i - \mu\right| \geq t\right) \leq 2\exp\left(-\frac{2n^2t^2}{\sum_{i=1}^n (b_i-a_i)^2}\right)$$

Bernstein不等式：在方差信息已知时，提供更紧的界。

在RL中的应用： - 样本复杂度分析 - 探索-利用权衡的理论分析 - 安全强化学习

7. 本章总结¶

数学工具图谱¶

Text Only

强化学习的数学基础

├── 概率论
│   ├── 条件期望（塔性质）
│   ├── 鞅理论（收敛性）
│   └── 极限定理（LLN, CLT）
│
├── 优化理论
│   ├── 凸优化（全局最优）
│   ├── 梯度方法（收敛速率）
│   └── 随机逼近（Robbins-Monro）
│
├── 泛函分析
│   ├── 度量空间（完备性）
│   ├── 压缩映射（不动点）
│   └── 谱理论（收敛分析）
│
├── 随机过程
│   └── 马尔可夫链（遍历理论）
│
└── 信息论
    ├── 熵与互信息
    └── KL散度（正则化）

关键定理回顾¶

Banach不动点定理：压缩映射有唯一不动点
Robbins-Monro条件：随机逼近收敛的步长条件
遍历定理：马尔可夫链的长期行为
集中不等式：随机变量的尾部界

📚 推荐教材¶

概率论：
Durrett, Probability: Theory and Examples
Williams, Probability with Martingales
优化理论：
Boyd & Vandenberghe, Convex Optimization
Bertsekas, Nonlinear Programming
泛函分析：
Kreyszig, Introductory Functional Analysis
Conway, A Course in Functional Analysis
随机过程：
Norris, Markov Chains
Meyn & Tweedie, Markov Chains and Stochastic Stability

掌握这些数学工具后，你将能够深入理解强化学习的理论基础。