跳转至

B - 参考文献

⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。


📚 核心论文

1. 基础扩散模型

DDPM (2020)

论文: Denoising Diffusion Probabilistic Models 作者: Jonathan Ho, Ajay Jain, Pieter Abbeel 会议: NeurIPS 2020 链接: https://arxiv.org/abs/2006.11239

贡献: - 提出了DDPM框架 - 建立了扩散模型的数学基础 - 展示了扩散模型的生成能力

关键点: - 前向扩散过程 - 反向去噪过程 - 简化的训练目标


DDPM++ (2021)

论文: Improved Denoising Diffusion Probabilistic Models 作者: Alex Nichol, Prafulla Dhariwal 会议: ICLR 2022 链接: https://arxiv.org/abs/2102.09672

贡献: - 改进了DDPM的噪声调度 - 提出了新的采样方法 - 提高了生成质量

关键点: - 余弦噪声调度 - 改进的采样过程 - 更好的训练稳定性


2. 加速采样

DDIM (2020)

论文: Denoising Diffusion Implicit Models 作者: Jiaming Song, Stefano Ermon 会议: ICLR 2021 链接: https://arxiv.org/abs/2010.02502

贡献: - 提出了DDIM采样方法 - 实现了确定性采样 - 大幅减少了采样步数

关键点: - 非马尔可夫采样 - 确定性生成 - 快速采样


Progressive Distillation (2022)

论文: Progressive Distillation for Fast Sampling of Diffusion Models 作者: Tim Salimans, Jonathan Ho 会议: ICLR 2023 链接: https://arxiv.org/abs/2202.00512

贡献: - 提出了渐进式蒸馏方法 - 实现了极快的采样 - 保持了生成质量

关键点: - 知识蒸馏 - 渐进式训练 - 快速推理


3. 条件生成

Classifier-Free Guidance (2022)

论文: Classifier-Free Diffusion Guidance 作者: Jonathan Ho, Tim Salimans 会议: NeurIPS 2022 Workshop 链接: https://arxiv.org/abs/2207.12598

贡献: - 提出了无分类器引导方法 - 不需要额外的分类器 - 提高了条件生成质量

关键点: - 条件与无条件模型 - 引导插值 - 高质量生成


GLIDE (2022)

论文: GLIDE: Towards Photorealistic Image Synthesis and Editing with Text-Guided Diffusion Models 作者: Alex Nichol et al. 机构: OpenAI 链接: https://arxiv.org/abs/2112.10741

贡献: - 提出了文本引导的扩散模型 - 实现了高质量的文本到图像生成 - 支持图像编辑

关键点: - CLIP文本编码 - 分类器引导 - 高分辨率生成


4. 潜空间扩散

LDM (2022)

论文: High-Resolution Image Synthesis with Latent Diffusion Models 作者: Robin Rombach et al. 会议: CVPR 2022 链接: https://arxiv.org/abs/2112.10752

贡献: - 提出了潜空间扩散模型 - 大幅减少了计算量 - 支持高分辨率生成

关键点: - VAE编码/解码 - 潜空间扩散 - 高效训练和采样


Stable Diffusion (2022)

论文: High-Resolution Image Synthesis with Latent Diffusion Models 作者: Robin Rombach et al. 机构: Stability AI 链接: https://stability.ai/blog/stable-diffusion-public-release

贡献: - 开源的高质量文本到图像模型 - 支持多种应用 - 活跃的社区

关键点: - LDM架构 - 文本条件 - 开源可商用


5. 图像编辑

InstructPix2Pix (2023)

论文: InstructPix2Pix: Explaining Text-to-Image via Instruction Tuning 作者: Tim Brooks et al. 会议: CVPR 2023 链接: https://arxiv.org/abs/2211.09800

贡献: - 提出了指令调优方法 - 实现了图像编辑 - 支持自然语言指令

关键点: - 指令调优 - 图像编辑 - 自然语言控制


Blended Diffusion (2022)

论文: Blended Diffusion for Text-Based Editing of Natural Images 作者: Avinash Hindupur et al. 会议: ICCV 2023 链接: https://arxiv.org/abs/2211.09803

贡献: - 提出了混合扩散方法 - 实现了图像编辑 - 保持了原始图像结构

关键点: - 混合扩散 - 图像编辑 - 结构保持


📖 书籍和教程

深度学习基础

《深度学习》

作者: Ian Goodfellow, Yoshua Bengio, Aaron Courville 出版社: MIT Press 年份: 2016 链接: https://www.deeplearningbook.org/

内容: - 深度学习基础 - 神经网络架构 - 优化算法


《动手学深度学习》

作者: Aston Zhang, Zachary C. Lipton, Mu Li, Alexander J. Smola 出版社: 人民邮电出版社 年份: 2019 链接: https://zh.d2l.ai/

内容: - PyTorch实现 - 深度学习模型 - 实践项目


扩散模型专题

《Diffusion Models: A Comprehensive Survey》

作者: Yang Song, Stefano Ermon 年份: 2023 链接: https://arxiv.org/abs/2209.00796

内容: - 扩散模型综述 - 各种变体 - 应用场景


《扩散模型详解》

作者: 多位贡献者 年份: 2024 链接: [本学习材料]

内容: - 数学基础 - 核心原理 - 实战项目


🔧 代码库

官方实现

OpenAI Guided Diffusion

链接: https://github.com/openai/guided-diffusion 语言: Python 框架: PyTorch

特点: - 官方DDPM实现 - 分类器引导 - 高质量生成


NVIDIA Latent Diffusion

链接: https://github.com/NVIDIA/latent-diffusion 语言: Python 框架: PyTorch

特点: - LDM实现 - 高分辨率支持 - 高效训练


开源项目

Hugging Face Diffusers

链接: https://github.com/huggingface/diffusers 语言: Python 框架: PyTorch

特点: - 多种扩散模型 - 易于使用 - 活跃的社区


Stable Diffusion

链接: https://github.com/CompVis/stable-diffusion 语言: Python 框架: PyTorch

特点: - 开源LDM - 文本到图像 - 图像编辑


PyTorch Diffusion

链接: https://github.com/lucidrains/pytorch-diffusion 语言: Python 框架: PyTorch

特点: - 多种扩散模型 - 简洁的API - 持续更新


🌐 在线资源

课程

Fast.ai - Deep Learning for Coders

链接: https://course.fast.ai/ 内容: - 深度学习基础 - 实践项目 - 免费课程


Stanford CS231n

链接: http://cs231n.stanford.edu/ 内容: - 卷积神经网络 - 计算机视觉 - 课程视频


博客和教程

Lil'Log

链接: https://lilianweng.github.io/lil-log/ 内容: - 生成模型综述 - 扩散模型详解 - 技术博客


Jay Alammar

链接: https://jalammar.github.io/ 内容: - Transformer详解 - 注意力机制 - 可视化教程


Distill.pub

链接: https://distill.pub/ 内容: - 深度学习可视化 - 直观解释 - 高质量文章


数据集

CIFAR-10

链接: https://www.cs.toronto.edu/~kriz/cifar.html 大小: 60,000张32×32彩色图像 类别: 10个类别

用途: - 图像分类 - 生成模型训练 - 快速实验


ImageNet

链接: http://www.image-net.org/ 大小: 1.28M张224×224彩色图像 类别: 1000个类别

用途: - 大规模训练 - 高质量生成 - 基准测试


LAION-5B

链接: https://laion.ai/blog/laion-5b/ 大小: 50亿张图像 特点: 带文本描述

用途: - 文本到图像训练 - 大规模预训练 - 开源数据集


📊 评估指标

FID (Fréchet Inception Distance)

论文: GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium 作者: Martin Heusel et al. 会议: NeurIPS 2017 链接: https://arxiv.org/abs/1706.08500

说明: - 使用Inception模型提取特征 - 计算真实和生成图像的统计距离 - 值越小越好


IS (Inception Score)

论文: Improved Techniques for Training GANs 作者: Tim Salimans et al. 会议: NeurIPS 2016 链接: https://arxiv.org/abs/1606.03498

说明: - 使用Inception模型分类生成图像 - 计算分类的熵和KL散度 - 值越大越好


🔬 工具和框架

深度学习框架

PyTorch

链接: https://pytorch.org/ 特点: - 动态计算图 - 易于调试 - 广泛的社区支持

TensorFlow

链接: https://www.tensorflow.org/ 特点: - 静态计算图 - 生产部署 - 丰富的生态系统


训练工具

Weights & Biases

链接: https://wandb.ai/ 特点: - 实验跟踪 - 可视化工具 - 团队协作

TensorBoard

链接: https://www.tensorflow.org/tensorboard 特点: - 损失可视化 - 模型可视化 - 免费开源


模型部署

ONNX

链接: https://onnx.ai/ 特点: - 跨平台 - 高效推理 - 广泛支持

TensorRT

链接: https://developer.nvidia.com/tensorrt 特点: - GPU加速 - 高性能推理 - NVIDIA优化


📝 论文写作

会议

NeurIPS

链接: https://neurips.cc/ 主题: 神经信息处理系统

ICML

链接: https://icml.cc/ 主题: 机器学习国际会议

CVPR

链接: http://cvpr.thecvf.com/ 主题: 计算机视觉与模式识别

ICLR

链接: https://iclr.cc/ 主题: 学习表示国际会议


期刊

Journal of Machine Learning Research (JMLR)

链接: https://www.jmlr.org/ 主题: 机器学习研究

IEEE Transactions on Pattern Analysis and Machine Intelligence

链接: https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=34 主题: 模式分析与机器智能


🎓 学习路径

初学者

  1. 学习深度学习基础
  2. 理解概率论基础
  3. 学习DDPM原理
  4. 实现简单的扩散模型
  5. 在小数据集上训练

进阶

  1. 学习DDIM等加速方法
  2. 实现条件生成
  3. 学习LDM架构
  4. 尝试文本到图像生成
  5. 实现图像编辑功能

高级

  1. 阅读最新论文
  2. 实现新的变体
  3. 优化模型性能
  4. 部署到实际应用
  5. 参与开源项目

🔗 相关资源

社区

Reddit - r/MachineLearning

链接: https://www.reddit.com/r/MachineLearning/ 内容: 机器学习讨论

Hugging Face

链接: https://huggingface.co/ 内容: 模型和数据集

Papers with Code

链接: https://paperswithcode.com/ 内容: 带代码的论文


📌 快速查找

按主题查找

主题 论文 代码 教程
基础 DDPM OpenAI Guided Diffusion 本学习材料
加速 DDIM PyTorch Diffusion Lil'Log
条件 CFG Hugging Face Diffusers Jay Alammar
LDM LDM NVIDIA Latent Diffusion Stable Diffusion
编辑 InstructPix2Pix Stable Diffusion Blended Diffusion

按难度查找

难度 推荐资源
入门 DDPM论文, CIFAR-10数据集
中级 DDIM论文, LDM论文, PyTorch Diffusion
高级 最新论文, Stable Diffusion, 自定义实现

📅 时间线

2020年

  • DDPM论文发表
  • 建立了扩散模型基础

2021年

  • DDIM论文发表
  • DDPM++论文发表
  • 加速采样方法兴起

2022年

  • LDM论文发表
  • Stable Diffusion发布
  • 文本到图像生成突破

2023年

  • 图像编辑方法发展
  • 更快的采样方法
  • 更高质量模型

2024年

  • 更高效架构
  • 更好的条件控制
  • 更广泛的应用

💡 学习建议

  1. 从基础开始:先理解DDPM的数学原理
  2. 动手实现:亲自实现简单的扩散模型
  3. 阅读论文:理解最新的研究进展
  4. 使用现有代码:学习优秀的实现
  5. 参与社区:讨论和分享经验

📞 联系方式

如有问题或建议,欢迎通过以下方式联系:

  • GitHub Issues
  • 邮箱
  • 社区论坛

附录结束