A - 常用术语表¶
📖 术语说明¶
本附录收录了扩散模型学习过程中常用的术语和概念,按字母顺序排列,便于快速查阅。
A¶
Alpha (α)¶
定义:扩散过程中的噪声保持系数。
说明: - \(\alpha_t = 1 - \beta_t\) - 表示在第t步保留多少原始信号 - 值越大,保留的原始信息越多
相关术语:Beta, Alpha Bar
Alpha Bar (ᾱ)¶
定义:累积的alpha值,表示从原始图像到当前时间步的噪声保持系数。
公式: $\(\bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i\)$
说明: - 用于计算加噪后的图像 - 随着t增加,ᾱ_t逐渐减小
B¶
Beta (β)¶
定义:扩散过程中的噪声添加系数。
说明: - \(\beta_t\) 表示在第t步添加多少噪声 - 通常从小的值逐渐增大 - 控制扩散过程的强度
相关术语:Alpha, 噪声调度
C¶
Classifier-Free Guidance (CFG)¶
定义:无分类器引导,一种不需要额外分类器的条件生成方法。
原理: - 同时训练条件模型和无条件模型 - 通过插值组合条件和无条件预测 - 提高条件生成的质量
公式: $\(\epsilon^{CFG} = \epsilon_{uncond} + w \cdot (\epsilon_{cond} - \epsilon_{uncond})\)$
优势: - 不需要训练额外的分类器 - 生成质量高 - 实现简单
Conditional Diffusion¶
定义:条件扩散模型,根据给定条件生成特定内容。
条件类型: - 类别标签(如CIFAR-10的10个类别) - 文本描述(如"一只可爱的猫") - 参考图像(如图像修复) - 空间条件(如边缘图、深度图)
Cross-Attention¶
定义:交叉注意力,一种让模型关注条件信息的机制。
应用: - 文本到图像生成 - 图像编辑 - 多模态生成
D¶
DDIM (Denoising Diffusion Implicit Models)¶
定义:确定性扩散隐式模型,一种加速采样的方法。
特点: - 确定性采样(相同输入相同输出) - 可以大幅减少采样步数 - 质量接近DDPM
优势: - 采样速度快(10-20倍加速) - 适合实时应用 - 可以控制生成过程
DDPM (Denoising Diffusion Probabilistic Models)¶
定义:去噪扩散概率模型,最基础的扩散模型。
核心思想: - 前向过程:逐步添加噪声 - 反向过程:学习去噪
论文:Ho et al., 2020
E¶
EMA (Exponential Moving Average)¶
定义:指数移动平均,一种模型参数平均技术。
公式: $\(\theta_{EMA}^{(t)} = \beta \cdot \theta_{EMA}^{(t-1)} + (1 - \beta) \cdot \theta^{(t)}\)$
作用: - 改善生成质量 - 稳定训练过程 - 通常β设为0.9999
Embedding¶
定义:嵌入,将离散或连续的输入映射到连续的向量空间。
类型: - 文本嵌入(如CLIP) - 时间步嵌入 - 类别嵌入
F¶
FID (Fréchet Inception Distance)¶
定义:Fréchet Inception距离,评估生成图像质量的指标。
原理: - 使用Inception模型提取特征 - 计算真实图像和生成图像的统计距离 - 值越小,生成质量越好
范围:通常在0-100之间,越小越好
G¶
GAN (Generative Adversarial Network)¶
定义:生成对抗网络,另一种生成模型。
对比: - GAN:训练不稳定,但采样快 - Diffusion:训练稳定,但采样慢
I¶
Inception Score (IS)¶
定义:Inception分数,评估生成图像多样性和质量的指标。
原理: - 使用Inception模型分类生成图像 - 计算分类的熵和KL散度 - 值越大,生成质量越好
Inpainting¶
定义:图像修复,修复图像中的缺失或损坏区域。
方法: - 使用掩码定义需要修复的区域 - 在掩码区域进行扩散采样 - 在其他区域保持原始图像
L¶
LDM (Latent Diffusion Model)¶
定义:潜空间扩散模型,在压缩的潜空间中进行扩散。
架构:
优势: - 大幅减少计算量 - 支持更高分辨率 - 更好的生成质量
Loss Function¶
定义:损失函数,衡量模型预测与真实值之间的差异。
DDPM损失: $\(L = \mathbb{E}_{t, x_0, \epsilon} \left[ \|\epsilon - \epsilon_\theta(x_t, t)\|^2 \right]\)$
类型: - MSE损失 - Huber损失 - 加权损失
M¶
Mask¶
定义:掩码,定义图像中需要处理(修复或编辑)的区域。
类型: - 中心掩码 - 随机掩码 - 自定义掩码
值: - 1:需要处理的区域 - 0:保持不变的区域
Markov Chain¶
定义:马尔可夫链,一种随机过程,当前状态只依赖于前一个状态。
在扩散模型中: - 前向过程:马尔可夫链 - 反向过程:学习逆向的马尔可夫链
Mixed Precision Training¶
定义:混合精度训练,同时使用FP16和FP32进行训练。
优势: - 加速训练(2-3倍) - 减少显存占用 - 保持数值稳定性
N¶
Noise Schedule¶
定义:噪声调度,控制每步添加的噪声量。
类型: - 线性调度:\(\beta_t\) 线性增加 - 余弦调度:\(\beta_t\) 按余弦曲线增加 - 改进调度:根据SNR调整
重要性: - 影响训练稳定性 - 影响生成质量 - 影响采样速度
Normal Distribution¶
定义:正态分布(高斯分布),扩散模型中使用的概率分布。
概率密度函数: $\(p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\)$
在扩散模型中: - 添加的噪声服从高斯分布 - 去噪分布也是高斯分布
O¶
Optimization¶
定义:优化,调整模型参数以最小化损失函数的过程。
优化器: - SGD(随机梯度下降) - Adam - AdamW(带权重衰减的Adam)
P¶
Positional Encoding¶
定义:位置编码,将位置信息编码到向量中。
类型: - 正弦位置编码 - 学习的位置编码
在扩散模型中: - 用于编码时间步t - 让模型知道当前处于哪个时间步
R¶
Residual Block¶
定义:残差块,包含残差连接的网络层。
结构:
优势: - 缓解梯度消失 - 加速训练 - 允许更深的网络
Reverse Process¶
定义:反向过程,从噪声逐步恢复图像的过程。
目标: 学习 \(p_\theta(x_{t-1} | x_t)\)
采样: 使用学习到的反向过程从纯噪声生成图像
S¶
Sampling¶
定义:采样,从训练好的扩散模型生成新图像的过程。
方法: - DDPM采样:标准马尔可夫链采样 - DDIM采样:确定性采样 - 其他加速采样方法
步数: - DDPM:通常1000步 - DDIM:可以减少到50-100步
Sinusoidal Position Embedding¶
定义:正弦位置编码,使用正弦和余弦函数编码位置。
公式: $\(PE(pos, 2i) = \sin(pos / 10000^{2i/d})\)$ $\(PE(pos, 2i+1) = \cos(pos / 10000^{2i/d})\)$
优势: - 可以编码任意长度的位置 - 具有平移不变性 - 在Transformer中广泛使用
Stable Diffusion¶
定义:稳定扩散,一个流行的开源文本到图像生成模型。
特点: - 使用LDM架构 - 支持文本到图像生成 - 支持图像编辑 - 开源可商用
T¶
Time Step¶
定义:时间步,扩散过程中的离散时间点。
范围: - 通常从0到T(如1000) - 0:原始图像 - T:纯噪声
编码: - 使用位置编码 - 让模型知道当前处于哪个时间步
Transformer¶
定义:Transformer,一种基于自注意力的神经网络架构。
在扩散模型中: - 用于编码文本 - 用于交叉注意力 - 用于UNet中的注意力层
U¶
UNet¶
定义:U形网络,一种用于图像生成的卷积神经网络架构。
结构:
特点: - 对称结构 - 跳跃连接 - 保留多尺度信息
V¶
VAE (Variational Autoencoder)¶
定义:变分自编码器,一种生成模型。
在LDM中: - 用于将图像编码到潜空间 - 用于将潜空间解码回图像 - 大幅减少计算量
Variance¶
定义:方差,衡量数据分散程度的统计量。
在高斯分布中: - \(\sigma^2\) 表示方差 - \(\sigma\) 表示标准差
在扩散模型中: - 用于控制噪声强度 - 用于计算后验分布
W¶
Weight Decay¶
定义:权重衰减,一种正则化技术。
作用: - 防止过拟合 - 鼓励模型学习更简单的表示
在AdamW中: - AdamW = Adam + Weight Decay
X¶
x₀¶
定义:原始图像,扩散过程的起点。
说明: - 清晰的原始图像 - 从x₀开始添加噪声
x_T¶
定义:最终噪声图像,扩散过程的终点。
说明: - 接近纯高斯噪声 - 从x_T开始去噪生成图像
x_t¶
定义:第t步的加噪图像。
公式: $\(x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon\)$
说明: - 包含部分原始信息和部分噪声 - 随着t增加,噪声越多
希腊字母¶
α (Alpha)¶
参见 Alpha
β (Beta)¶
参见 Beta
ε (Epsilon)¶
定义:噪声符号。
在扩散模型中: - \(\epsilon\):添加的高斯噪声 - \(\epsilon_\theta\):模型预测的噪声
θ (Theta)¶
定义:模型参数符号。
说明: - \(\theta\):模型的所有参数 - \(\epsilon_\theta\):参数为θ的模型
数学符号¶
𝔼 (Expectation)¶
定义:期望,随机变量的平均值。
在损失函数中: $\(L = \mathbb{E}[\text{loss}]\)$
表示对所有可能的输入取平均。
∇ (Gradient)¶
定义:梯度,函数变化最快的方向。
在反向传播中: - \(\nabla_\theta L\):损失对参数的梯度 - 用于更新模型参数
‖·‖ (Norm)¶
定义:范数,向量或矩阵的大小。
常用范数: - L2范数:\(\|x\|_2 = \sqrt{\sum_i x_i^2}\) - L1范数:\(\|x\|_1 = \sum_i |x_i|\)
缩写对照表¶
| 缩写 | 全称 | 中文 |
|---|---|---|
| DDPM | Denoising Diffusion Probabilistic Models | 去噪扩散概率模型 |
| DDIM | Denoising Diffusion Implicit Models | 去噪扩散隐式模型 |
| LDM | Latent Diffusion Model | 潜空间扩散模型 |
| CFG | Classifier-Free Guidance | 无分类器引导 |
| EMA | Exponential Moving Average | 指数移动平均 |
| FID | Fréchet Inception Distance | Fréchet Inception距离 |
| IS | Inception Score | Inception分数 |
| VAE | Variational Autoencoder | 变分自编码器 |
| UNet | U-shaped Network | U形网络 |
| CLIP | Contrastive Language-Image Pre-training | 对比语言-图像预训练 |
参考资料¶
- DDPM论文: Ho et al., 2020
- DDIM论文: Song et al., 2020
- LDM论文: Rombach et al., 2022
- Stable Diffusion: https://github.com/CompVis/stable-diffusion
附录结束