A - 常用术语表¶

📖 术语说明¶

本附录收录了扩散模型学习过程中常用的术语和概念，按字母顺序排列，便于快速查阅。

A¶

Alpha (α)¶

定义：扩散过程中的噪声保持系数。

说明： - $\alpha_t = 1 - \beta_t$ - 表示在第t步保留多少原始信号 - 值越大，保留的原始信息越多

相关术语：Beta, Alpha Bar

Alpha Bar (ᾱ)¶

定义：累积的alpha值，表示从原始图像到当前时间步的噪声保持系数。

公式： $$\bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i$$

说明： - 用于计算加噪后的图像 - 随着t增加，ᾱ_t逐渐减小

B¶

Beta (β)¶

定义：扩散过程中的噪声添加系数。

说明： - $\beta_t$ 表示在第t步添加多少噪声 - 通常从小的值逐渐增大 - 控制扩散过程的强度

相关术语：Alpha, 噪声调度

C¶

Classifier-Free Guidance (CFG)¶

定义：无分类器引导，一种不需要额外分类器的条件生成方法。

原理： - 同时训练条件模型和无条件模型 - 通过插值组合条件和无条件预测 - 提高条件生成的质量

公式： $$\epsilon^{CFG} = \epsilon_{uncond} + w \cdot (\epsilon_{cond} - \epsilon_{uncond})$$

优势： - 不需要训练额外的分类器 - 生成质量高 - 实现简单

Conditional Diffusion¶

定义：条件扩散模型，根据给定条件生成特定内容。

条件类型： - 类别标签（如CIFAR-10的10个类别） - 文本描述（如"一只可爱的猫"） - 参考图像（如图像修复） - 空间条件（如边缘图、深度图）

Cross-Attention¶

定义：交叉注意力，一种让模型关注条件信息的机制。

应用： - 文本到图像生成 - 图像编辑 - 多模态生成

D¶

DDIM (Denoising Diffusion Implicit Models)¶

定义：确定性扩散隐式模型，一种加速采样的方法。

特点： - 确定性采样（相同输入相同输出） - 可以大幅减少采样步数 - 质量接近DDPM

优势： - 采样速度快（10-20倍加速） - 适合实时应用 - 可以控制生成过程

DDPM (Denoising Diffusion Probabilistic Models)¶

定义：去噪扩散概率模型，最基础的扩散模型。

核心思想： - 前向过程：逐步添加噪声 - 反向过程：学习去噪

论文：Ho et al., 2020

E¶

EMA (Exponential Moving Average)¶

定义：指数移动平均，一种模型参数平均技术。

公式： $$\theta_{EMA}^{(t)} = \beta \cdot \theta_{EMA}^{(t-1)} + (1 - \beta) \cdot \theta^{(t)}$$

作用： - 改善生成质量 - 稳定训练过程 - 通常β设为0.9999

Embedding¶

定义：嵌入，将离散或连续的输入映射到连续的向量空间。

类型： - 文本嵌入（如CLIP） - 时间步嵌入 - 类别嵌入

F¶

FID (Fréchet Inception Distance)¶

定义：Fréchet Inception距离，评估生成图像质量的指标。

原理： - 使用Inception模型提取特征 - 计算真实图像和生成图像的统计距离 - 值越小，生成质量越好

范围：通常在0-100之间，越小越好

G¶

GAN (Generative Adversarial Network)¶

定义：生成对抗网络，另一种生成模型。

对比： - GAN：训练不稳定，但采样快 - Diffusion：训练稳定，但采样慢

I¶

Inception Score (IS)¶

定义：Inception分数，评估生成图像多样性和质量的指标。

原理： - 使用Inception模型分类生成图像 - 计算分类的熵和KL散度 - 值越大，生成质量越好

Inpainting¶

定义：图像修复，修复图像中的缺失或损坏区域。

方法： - 使用掩码定义需要修复的区域 - 在掩码区域进行扩散采样 - 在其他区域保持原始图像

L¶

LDM (Latent Diffusion Model)¶

定义：潜空间扩散模型，在压缩的潜空间中进行扩散。

架构：

Text Only

输入图像 → VAE编码器 → 潜空间 → 扩散模型 → 潜空间 → VAE解码器 → 输出图像

优势： - 大幅减少计算量 - 支持更高分辨率 - 更好的生成质量

Loss Function¶

定义：损失函数，衡量模型预测与真实值之间的差异。

DDPM损失： $$L = \mathbb{E}_{t, x_0, \epsilon} \left[ \|\epsilon - \epsilon_\theta(x_t, t)\|^2 \right]$$

类型： - MSE损失 - Huber损失 - 加权损失

M¶

Mask¶

定义：掩码，定义图像中需要处理（修复或编辑）的区域。

类型： - 中心掩码 - 随机掩码 - 自定义掩码

值： - 1：需要处理的区域 - 0：保持不变的区域

Markov Chain¶

定义：马尔可夫链，一种随机过程，当前状态只依赖于前一个状态。

在扩散模型中： - 前向过程：马尔可夫链 - 反向过程：学习逆向的马尔可夫链

Mixed Precision Training¶

定义：混合精度训练，同时使用FP16和FP32进行训练。

优势： - 加速训练（2-3倍） - 减少显存占用 - 保持数值稳定性

N¶

Noise Schedule¶

定义：噪声调度，控制每步添加的噪声量。

类型： - 线性调度：$\beta_t$ 线性增加 - 余弦调度：$\beta_t$ 按余弦曲线增加 - 改进调度：根据SNR调整

重要性： - 影响训练稳定性 - 影响生成质量 - 影响采样速度

Normal Distribution¶

定义：正态分布（高斯分布），扩散模型中使用的概率分布。

概率密度函数： $$p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$

在扩散模型中： - 添加的噪声服从高斯分布 - 去噪分布也是高斯分布

O¶

Optimization¶

定义：优化，调整模型参数以最小化损失函数的过程。

优化器： - SGD（随机梯度下降） - Adam - AdamW（带权重衰减的Adam）

P¶

Positional Encoding¶

定义：位置编码，将位置信息编码到向量中。

类型： - 正弦位置编码 - 学习的位置编码

在扩散模型中： - 用于编码时间步t - 让模型知道当前处于哪个时间步

R¶

Residual Block¶

定义：残差块，包含残差连接的网络层。

结构：

Text Only

输入 → 层1 → 激活 → 层2 → + → 输出
                              ↑
                            输入

优势： - 缓解梯度消失 - 加速训练 - 允许更深的网络

Reverse Process¶

定义：反向过程，从噪声逐步恢复图像的过程。

目标：学习 $p_\theta(x_{t-1} | x_t)$

采样：使用学习到的反向过程从纯噪声生成图像

S¶

Sampling¶

定义：采样，从训练好的扩散模型生成新图像的过程。

方法： - DDPM采样：标准马尔可夫链采样 - DDIM采样：确定性采样 - 其他加速采样方法

步数： - DDPM：通常1000步 - DDIM：可以减少到50-100步

Sinusoidal Position Embedding¶

定义：正弦位置编码，使用正弦和余弦函数编码位置。

公式： $$PE(pos, 2i) = \sin(pos / 10000^{2i/d})$$ $$PE(pos, 2i+1) = \cos(pos / 10000^{2i/d})$$

优势： - 可以编码任意长度的位置 - 具有平移不变性 - 在Transformer中广泛使用

Stable Diffusion¶

定义：稳定扩散，一个流行的开源文本到图像生成模型。

特点： - 使用LDM架构 - 支持文本到图像生成 - 支持图像编辑 - 开源可商用

T¶

Time Step¶

定义：时间步，扩散过程中的离散时间点。

范围： - 通常从0到T（如1000） - 0：原始图像 - T：纯噪声

编码： - 使用位置编码 - 让模型知道当前处于哪个时间步

Transformer¶

定义：Transformer，一种基于自注意力的神经网络架构。

在扩散模型中： - 用于编码文本 - 用于交叉注意力 - 用于UNet中的注意力层

U¶

UNet¶

定义：U形网络，一种用于图像生成的卷积神经网络架构。

结构：

Text Only

输入 → 下采样 → ... → 瓶颈 → 上采样 → ... → 输出
       ↘ 跳跃连接 ↙

特点： - 对称结构 - 跳跃连接 - 保留多尺度信息

V¶

VAE (Variational Autoencoder)¶

定义：变分自编码器，一种生成模型。

在LDM中： - 用于将图像编码到潜空间 - 用于将潜空间解码回图像 - 大幅减少计算量

Variance¶

定义：方差，衡量数据分散程度的统计量。

在高斯分布中： - $\sigma^2$ 表示方差 - $\sigma$ 表示标准差

在扩散模型中： - 用于控制噪声强度 - 用于计算后验分布

W¶

Weight Decay¶

定义：权重衰减，一种正则化技术。

作用： - 防止过拟合 - 鼓励模型学习更简单的表示

在AdamW中： - AdamW = Adam + Weight Decay

X¶

x₀¶

定义：原始图像，扩散过程的起点。

说明： - 清晰的原始图像 - 从x₀开始添加噪声

x_T¶

定义：最终噪声图像，扩散过程的终点。

说明： - 接近纯高斯噪声 - 从x_T开始去噪生成图像

x_t¶

定义：第t步的加噪图像。

公式： $$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon$$

说明： - 包含部分原始信息和部分噪声 - 随着t增加，噪声越多

希腊字母¶

α (Alpha)¶

参见 Alpha

β (Beta)¶

参见 Beta

ε (Epsilon)¶

定义：噪声符号。

在扩散模型中： - $\epsilon$：添加的高斯噪声 - $\epsilon_\theta$：模型预测的噪声

θ (Theta)¶

定义：模型参数符号。

说明： - $\theta$：模型的所有参数 - $\epsilon_\theta$：参数为θ的模型

数学符号¶

𝔼 (Expectation)¶

定义：期望，随机变量的平均值。

在损失函数中： $$L = \mathbb{E}[\text{loss}]$$

表示对所有可能的输入取平均。

∇ (Gradient)¶

定义：梯度，函数变化最快的方向。

在反向传播中： - $\nabla_\theta L$：损失对参数的梯度 - 用于更新模型参数

‖·‖ (Norm)¶

定义：范数，向量或矩阵的大小。

常用范数： - L2范数：$\|x\|_2 = \sqrt{\sum_i x_i^2}$ - L1范数：$\|x\|_1 = \sum_i |x_i|$

缩写对照表¶

缩写	全称	中文
DDPM	Denoising Diffusion Probabilistic Models	去噪扩散概率模型
DDIM	Denoising Diffusion Implicit Models	去噪扩散隐式模型
LDM	Latent Diffusion Model	潜空间扩散模型
CFG	Classifier-Free Guidance	无分类器引导
EMA	Exponential Moving Average	指数移动平均
FID	Fréchet Inception Distance	Fréchet Inception距离
IS	Inception Score	Inception分数
VAE	Variational Autoencoder	变分自编码器
UNet	U-shaped Network	U形网络
CLIP	Contrastive Language-Image Pre-training	对比语言-图像预训练

参考资料¶

DDPM论文: Ho et al., 2020
DDIM论文: Song et al., 2020
LDM论文: Rombach et al., 2022
Stable Diffusion: https://github.com/CompVis/stable-diffusion

附录结束