跳转至

A - 常用术语表


📖 术语说明

本附录收录了扩散模型学习过程中常用的术语和概念,按字母顺序排列,便于快速查阅。


A

Alpha (α)

定义:扩散过程中的噪声保持系数。

说明: - \(\alpha_t = 1 - \beta_t\) - 表示在第t步保留多少原始信号 - 值越大,保留的原始信息越多

相关术语:Beta, Alpha Bar


Alpha Bar (ᾱ)

定义:累积的alpha值,表示从原始图像到当前时间步的噪声保持系数。

公式: $\(\bar{\alpha}_t = \prod_{i=1}^{t} \alpha_i\)$

说明: - 用于计算加噪后的图像 - 随着t增加,ᾱ_t逐渐减小


B

Beta (β)

定义:扩散过程中的噪声添加系数。

说明: - \(\beta_t\) 表示在第t步添加多少噪声 - 通常从小的值逐渐增大 - 控制扩散过程的强度

相关术语:Alpha, 噪声调度


C

Classifier-Free Guidance (CFG)

定义:无分类器引导,一种不需要额外分类器的条件生成方法。

原理: - 同时训练条件模型和无条件模型 - 通过插值组合条件和无条件预测 - 提高条件生成的质量

公式: $\(\epsilon^{CFG} = \epsilon_{uncond} + w \cdot (\epsilon_{cond} - \epsilon_{uncond})\)$

优势: - 不需要训练额外的分类器 - 生成质量高 - 实现简单


Conditional Diffusion

定义:条件扩散模型,根据给定条件生成特定内容。

条件类型: - 类别标签(如CIFAR-10的10个类别) - 文本描述(如"一只可爱的猫") - 参考图像(如图像修复) - 空间条件(如边缘图、深度图)


Cross-Attention

定义:交叉注意力,一种让模型关注条件信息的机制。

应用: - 文本到图像生成 - 图像编辑 - 多模态生成


D

DDIM (Denoising Diffusion Implicit Models)

定义:确定性扩散隐式模型,一种加速采样的方法。

特点: - 确定性采样(相同输入相同输出) - 可以大幅减少采样步数 - 质量接近DDPM

优势: - 采样速度快(10-20倍加速) - 适合实时应用 - 可以控制生成过程


DDPM (Denoising Diffusion Probabilistic Models)

定义:去噪扩散概率模型,最基础的扩散模型。

核心思想: - 前向过程:逐步添加噪声 - 反向过程:学习去噪

论文:Ho et al., 2020


E

EMA (Exponential Moving Average)

定义:指数移动平均,一种模型参数平均技术。

公式: $\(\theta_{EMA}^{(t)} = \beta \cdot \theta_{EMA}^{(t-1)} + (1 - \beta) \cdot \theta^{(t)}\)$

作用: - 改善生成质量 - 稳定训练过程 - 通常β设为0.9999


Embedding

定义:嵌入,将离散或连续的输入映射到连续的向量空间。

类型: - 文本嵌入(如CLIP) - 时间步嵌入 - 类别嵌入


F

FID (Fréchet Inception Distance)

定义:Fréchet Inception距离,评估生成图像质量的指标。

原理: - 使用Inception模型提取特征 - 计算真实图像和生成图像的统计距离 - 值越小,生成质量越好

范围:通常在0-100之间,越小越好


G

GAN (Generative Adversarial Network)

定义:生成对抗网络,另一种生成模型。

对比: - GAN:训练不稳定,但采样快 - Diffusion:训练稳定,但采样慢


I

Inception Score (IS)

定义:Inception分数,评估生成图像多样性和质量的指标。

原理: - 使用Inception模型分类生成图像 - 计算分类的熵和KL散度 - 值越大,生成质量越好


Inpainting

定义:图像修复,修复图像中的缺失或损坏区域。

方法: - 使用掩码定义需要修复的区域 - 在掩码区域进行扩散采样 - 在其他区域保持原始图像


L

LDM (Latent Diffusion Model)

定义:潜空间扩散模型,在压缩的潜空间中进行扩散。

架构

Text Only
输入图像 → VAE编码器 → 潜空间 → 扩散模型 → 潜空间 → VAE解码器 → 输出图像

优势: - 大幅减少计算量 - 支持更高分辨率 - 更好的生成质量


Loss Function

定义:损失函数,衡量模型预测与真实值之间的差异。

DDPM损失: $\(L = \mathbb{E}_{t, x_0, \epsilon} \left[ \|\epsilon - \epsilon_\theta(x_t, t)\|^2 \right]\)$

类型: - MSE损失 - Huber损失 - 加权损失


M

Mask

定义:掩码,定义图像中需要处理(修复或编辑)的区域。

类型: - 中心掩码 - 随机掩码 - 自定义掩码

: - 1:需要处理的区域 - 0:保持不变的区域


Markov Chain

定义:马尔可夫链,一种随机过程,当前状态只依赖于前一个状态。

在扩散模型中: - 前向过程:马尔可夫链 - 反向过程:学习逆向的马尔可夫链


Mixed Precision Training

定义:混合精度训练,同时使用FP16和FP32进行训练。

优势: - 加速训练(2-3倍) - 减少显存占用 - 保持数值稳定性


N

Noise Schedule

定义:噪声调度,控制每步添加的噪声量。

类型: - 线性调度:\(\beta_t\) 线性增加 - 余弦调度:\(\beta_t\) 按余弦曲线增加 - 改进调度:根据SNR调整

重要性: - 影响训练稳定性 - 影响生成质量 - 影响采样速度


Normal Distribution

定义:正态分布(高斯分布),扩散模型中使用的概率分布。

概率密度函数: $\(p(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\)$

在扩散模型中: - 添加的噪声服从高斯分布 - 去噪分布也是高斯分布


O

Optimization

定义:优化,调整模型参数以最小化损失函数的过程。

优化器: - SGD(随机梯度下降) - Adam - AdamW(带权重衰减的Adam)


P

Positional Encoding

定义:位置编码,将位置信息编码到向量中。

类型: - 正弦位置编码 - 学习的位置编码

在扩散模型中: - 用于编码时间步t - 让模型知道当前处于哪个时间步


R

Residual Block

定义:残差块,包含残差连接的网络层。

结构

Text Only
输入 → 层1 → 激活 → 层2 → + → 输出
                            输入

优势: - 缓解梯度消失 - 加速训练 - 允许更深的网络


Reverse Process

定义:反向过程,从噪声逐步恢复图像的过程。

目标: 学习 \(p_\theta(x_{t-1} | x_t)\)

采样: 使用学习到的反向过程从纯噪声生成图像


S

Sampling

定义:采样,从训练好的扩散模型生成新图像的过程。

方法: - DDPM采样:标准马尔可夫链采样 - DDIM采样:确定性采样 - 其他加速采样方法

步数: - DDPM:通常1000步 - DDIM:可以减少到50-100步


Sinusoidal Position Embedding

定义:正弦位置编码,使用正弦和余弦函数编码位置。

公式: $\(PE(pos, 2i) = \sin(pos / 10000^{2i/d})\)$ $\(PE(pos, 2i+1) = \cos(pos / 10000^{2i/d})\)$

优势: - 可以编码任意长度的位置 - 具有平移不变性 - 在Transformer中广泛使用


Stable Diffusion

定义:稳定扩散,一个流行的开源文本到图像生成模型。

特点: - 使用LDM架构 - 支持文本到图像生成 - 支持图像编辑 - 开源可商用


T

Time Step

定义:时间步,扩散过程中的离散时间点。

范围: - 通常从0到T(如1000) - 0:原始图像 - T:纯噪声

编码: - 使用位置编码 - 让模型知道当前处于哪个时间步


Transformer

定义:Transformer,一种基于自注意力的神经网络架构。

在扩散模型中: - 用于编码文本 - 用于交叉注意力 - 用于UNet中的注意力层


U

UNet

定义:U形网络,一种用于图像生成的卷积神经网络架构。

结构

Text Only
输入 → 下采样 → ... → 瓶颈 → 上采样 → ... → 输出
       ↘ 跳跃连接 ↙

特点: - 对称结构 - 跳跃连接 - 保留多尺度信息


V

VAE (Variational Autoencoder)

定义:变分自编码器,一种生成模型。

在LDM中: - 用于将图像编码到潜空间 - 用于将潜空间解码回图像 - 大幅减少计算量


Variance

定义:方差,衡量数据分散程度的统计量。

在高斯分布中: - \(\sigma^2\) 表示方差 - \(\sigma\) 表示标准差

在扩散模型中: - 用于控制噪声强度 - 用于计算后验分布


W

Weight Decay

定义:权重衰减,一种正则化技术。

作用: - 防止过拟合 - 鼓励模型学习更简单的表示

在AdamW中: - AdamW = Adam + Weight Decay


X

x₀

定义:原始图像,扩散过程的起点。

说明: - 清晰的原始图像 - 从x₀开始添加噪声


x_T

定义:最终噪声图像,扩散过程的终点。

说明: - 接近纯高斯噪声 - 从x_T开始去噪生成图像


x_t

定义:第t步的加噪图像。

公式: $\(x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1 - \bar{\alpha}_t} \epsilon\)$

说明: - 包含部分原始信息和部分噪声 - 随着t增加,噪声越多


希腊字母

α (Alpha)

参见 Alpha

β (Beta)

参见 Beta

ε (Epsilon)

定义:噪声符号。

在扩散模型中: - \(\epsilon\):添加的高斯噪声 - \(\epsilon_\theta\):模型预测的噪声

θ (Theta)

定义:模型参数符号。

说明: - \(\theta\):模型的所有参数 - \(\epsilon_\theta\):参数为θ的模型


数学符号

𝔼 (Expectation)

定义:期望,随机变量的平均值。

在损失函数中: $\(L = \mathbb{E}[\text{loss}]\)$

表示对所有可能的输入取平均。


∇ (Gradient)

定义:梯度,函数变化最快的方向。

在反向传播中: - \(\nabla_\theta L\):损失对参数的梯度 - 用于更新模型参数


‖·‖ (Norm)

定义:范数,向量或矩阵的大小。

常用范数: - L2范数:\(\|x\|_2 = \sqrt{\sum_i x_i^2}\) - L1范数:\(\|x\|_1 = \sum_i |x_i|\)


缩写对照表

缩写 全称 中文
DDPM Denoising Diffusion Probabilistic Models 去噪扩散概率模型
DDIM Denoising Diffusion Implicit Models 去噪扩散隐式模型
LDM Latent Diffusion Model 潜空间扩散模型
CFG Classifier-Free Guidance 无分类器引导
EMA Exponential Moving Average 指数移动平均
FID Fréchet Inception Distance Fréchet Inception距离
IS Inception Score Inception分数
VAE Variational Autoencoder 变分自编码器
UNet U-shaped Network U形网络
CLIP Contrastive Language-Image Pre-training 对比语言-图像预训练

参考资料


附录结束