B - 参考文献¶
⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。
📚 核心论文¶
1. 基础扩散模型¶
DDPM (2020)¶
论文: Denoising Diffusion Probabilistic Models 作者: Jonathan Ho, Ajay Jain, Pieter Abbeel 会议: NeurIPS 2020 链接: https://arxiv.org/abs/2006.11239
贡献: - 提出了DDPM框架 - 建立了扩散模型的数学基础 - 展示了扩散模型的生成能力
关键点: - 前向扩散过程 - 反向去噪过程 - 简化的训练目标
DDPM++ (2021)¶
论文: Improved Denoising Diffusion Probabilistic Models 作者: Alex Nichol, Prafulla Dhariwal 会议: ICLR 2022 链接: https://arxiv.org/abs/2102.09672
贡献: - 改进了DDPM的噪声调度 - 提出了新的采样方法 - 提高了生成质量
关键点: - 余弦噪声调度 - 改进的采样过程 - 更好的训练稳定性
2. 加速采样¶
DDIM (2020)¶
论文: Denoising Diffusion Implicit Models 作者: Jiaming Song, Stefano Ermon 会议: ICLR 2021 链接: https://arxiv.org/abs/2010.02502
贡献: - 提出了DDIM采样方法 - 实现了确定性采样 - 大幅减少了采样步数
关键点: - 非马尔可夫采样 - 确定性生成 - 快速采样
Progressive Distillation (2022)¶
论文: Progressive Distillation for Fast Sampling of Diffusion Models 作者: Tim Salimans, Jonathan Ho 会议: ICLR 2023 链接: https://arxiv.org/abs/2202.00512
贡献: - 提出了渐进式蒸馏方法 - 实现了极快的采样 - 保持了生成质量
关键点: - 知识蒸馏 - 渐进式训练 - 快速推理
3. 条件生成¶
Classifier-Free Guidance (2022)¶
论文: Classifier-Free Diffusion Guidance 作者: Jonathan Ho, Tim Salimans 会议: NeurIPS 2022 Workshop 链接: https://arxiv.org/abs/2207.12598
贡献: - 提出了无分类器引导方法 - 不需要额外的分类器 - 提高了条件生成质量
关键点: - 条件与无条件模型 - 引导插值 - 高质量生成
GLIDE (2022)¶
论文: GLIDE: Towards Photorealistic Image Synthesis and Editing with Text-Guided Diffusion Models 作者: Alex Nichol et al. 机构: OpenAI 链接: https://arxiv.org/abs/2112.10741
贡献: - 提出了文本引导的扩散模型 - 实现了高质量的文本到图像生成 - 支持图像编辑
关键点: - CLIP文本编码 - 分类器引导 - 高分辨率生成
4. 潜空间扩散¶
LDM (2022)¶
论文: High-Resolution Image Synthesis with Latent Diffusion Models 作者: Robin Rombach et al. 会议: CVPR 2022 链接: https://arxiv.org/abs/2112.10752
贡献: - 提出了潜空间扩散模型 - 大幅减少了计算量 - 支持高分辨率生成
关键点: - VAE编码/解码 - 潜空间扩散 - 高效训练和采样
Stable Diffusion (2022)¶
论文: High-Resolution Image Synthesis with Latent Diffusion Models 作者: Robin Rombach et al. 机构: Stability AI 链接: https://stability.ai/blog/stable-diffusion-public-release
贡献: - 开源的高质量文本到图像模型 - 支持多种应用 - 活跃的社区
关键点: - LDM架构 - 文本条件 - 开源可商用
5. 图像编辑¶
InstructPix2Pix (2023)¶
论文: InstructPix2Pix: Explaining Text-to-Image via Instruction Tuning 作者: Tim Brooks et al. 会议: CVPR 2023 链接: https://arxiv.org/abs/2211.09800
贡献: - 提出了指令调优方法 - 实现了图像编辑 - 支持自然语言指令
关键点: - 指令调优 - 图像编辑 - 自然语言控制
Blended Diffusion (2022)¶
论文: Blended Diffusion for Text-Based Editing of Natural Images 作者: Avinash Hindupur et al. 会议: ICCV 2023 链接: https://arxiv.org/abs/2211.09803
贡献: - 提出了混合扩散方法 - 实现了图像编辑 - 保持了原始图像结构
关键点: - 混合扩散 - 图像编辑 - 结构保持
📖 书籍和教程¶
深度学习基础¶
《深度学习》¶
作者: Ian Goodfellow, Yoshua Bengio, Aaron Courville 出版社: MIT Press 年份: 2016 链接: https://www.deeplearningbook.org/
内容: - 深度学习基础 - 神经网络架构 - 优化算法
《动手学深度学习》¶
作者: Aston Zhang, Zachary C. Lipton, Mu Li, Alexander J. Smola 出版社: 人民邮电出版社 年份: 2019 链接: https://zh.d2l.ai/
内容: - PyTorch实现 - 深度学习模型 - 实践项目
扩散模型专题¶
《Diffusion Models: A Comprehensive Survey》¶
作者: Yang Song, Stefano Ermon 年份: 2023 链接: https://arxiv.org/abs/2209.00796
内容: - 扩散模型综述 - 各种变体 - 应用场景
《扩散模型详解》¶
作者: 多位贡献者 年份: 2024 链接: [本学习材料]
内容: - 数学基础 - 核心原理 - 实战项目
🔧 代码库¶
官方实现¶
OpenAI Guided Diffusion¶
链接: https://github.com/openai/guided-diffusion 语言: Python 框架: PyTorch
特点: - 官方DDPM实现 - 分类器引导 - 高质量生成
NVIDIA Latent Diffusion¶
链接: https://github.com/NVIDIA/latent-diffusion 语言: Python 框架: PyTorch
特点: - LDM实现 - 高分辨率支持 - 高效训练
开源项目¶
Hugging Face Diffusers¶
链接: https://github.com/huggingface/diffusers 语言: Python 框架: PyTorch
特点: - 多种扩散模型 - 易于使用 - 活跃的社区
Stable Diffusion¶
链接: https://github.com/CompVis/stable-diffusion 语言: Python 框架: PyTorch
特点: - 开源LDM - 文本到图像 - 图像编辑
PyTorch Diffusion¶
链接: https://github.com/lucidrains/pytorch-diffusion 语言: Python 框架: PyTorch
特点: - 多种扩散模型 - 简洁的API - 持续更新
🌐 在线资源¶
课程¶
Fast.ai - Deep Learning for Coders¶
链接: https://course.fast.ai/ 内容: - 深度学习基础 - 实践项目 - 免费课程
Stanford CS231n¶
链接: http://cs231n.stanford.edu/ 内容: - 卷积神经网络 - 计算机视觉 - 课程视频
博客和教程¶
Lil'Log¶
链接: https://lilianweng.github.io/lil-log/ 内容: - 生成模型综述 - 扩散模型详解 - 技术博客
Jay Alammar¶
链接: https://jalammar.github.io/ 内容: - Transformer详解 - 注意力机制 - 可视化教程
Distill.pub¶
链接: https://distill.pub/ 内容: - 深度学习可视化 - 直观解释 - 高质量文章
数据集¶
CIFAR-10¶
链接: https://www.cs.toronto.edu/~kriz/cifar.html 大小: 60,000张32×32彩色图像 类别: 10个类别
用途: - 图像分类 - 生成模型训练 - 快速实验
ImageNet¶
链接: http://www.image-net.org/ 大小: 1.28M张224×224彩色图像 类别: 1000个类别
用途: - 大规模训练 - 高质量生成 - 基准测试
LAION-5B¶
链接: https://laion.ai/blog/laion-5b/ 大小: 50亿张图像 特点: 带文本描述
用途: - 文本到图像训练 - 大规模预训练 - 开源数据集
📊 评估指标¶
FID (Fréchet Inception Distance)¶
论文: GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium 作者: Martin Heusel et al. 会议: NeurIPS 2017 链接: https://arxiv.org/abs/1706.08500
说明: - 使用Inception模型提取特征 - 计算真实和生成图像的统计距离 - 值越小越好
IS (Inception Score)¶
论文: Improved Techniques for Training GANs 作者: Tim Salimans et al. 会议: NeurIPS 2016 链接: https://arxiv.org/abs/1606.03498
说明: - 使用Inception模型分类生成图像 - 计算分类的熵和KL散度 - 值越大越好
🔬 工具和框架¶
深度学习框架¶
PyTorch¶
链接: https://pytorch.org/ 特点: - 动态计算图 - 易于调试 - 广泛的社区支持
TensorFlow¶
链接: https://www.tensorflow.org/ 特点: - 静态计算图 - 生产部署 - 丰富的生态系统
训练工具¶
Weights & Biases¶
链接: https://wandb.ai/ 特点: - 实验跟踪 - 可视化工具 - 团队协作
TensorBoard¶
链接: https://www.tensorflow.org/tensorboard 特点: - 损失可视化 - 模型可视化 - 免费开源
模型部署¶
ONNX¶
链接: https://onnx.ai/ 特点: - 跨平台 - 高效推理 - 广泛支持
TensorRT¶
链接: https://developer.nvidia.com/tensorrt 特点: - GPU加速 - 高性能推理 - NVIDIA优化
📝 论文写作¶
会议¶
NeurIPS¶
链接: https://neurips.cc/ 主题: 神经信息处理系统
ICML¶
链接: https://icml.cc/ 主题: 机器学习国际会议
CVPR¶
链接: http://cvpr.thecvf.com/ 主题: 计算机视觉与模式识别
ICLR¶
链接: https://iclr.cc/ 主题: 学习表示国际会议
期刊¶
Journal of Machine Learning Research (JMLR)¶
链接: https://www.jmlr.org/ 主题: 机器学习研究
IEEE Transactions on Pattern Analysis and Machine Intelligence¶
链接: https://ieeexplore.ieee.org/xpl/RecentIssue.jsp?punumber=34 主题: 模式分析与机器智能
🎓 学习路径¶
初学者¶
- 学习深度学习基础
- 理解概率论基础
- 学习DDPM原理
- 实现简单的扩散模型
- 在小数据集上训练
进阶¶
- 学习DDIM等加速方法
- 实现条件生成
- 学习LDM架构
- 尝试文本到图像生成
- 实现图像编辑功能
高级¶
- 阅读最新论文
- 实现新的变体
- 优化模型性能
- 部署到实际应用
- 参与开源项目
🔗 相关资源¶
社区¶
Reddit - r/MachineLearning¶
链接: https://www.reddit.com/r/MachineLearning/ 内容: 机器学习讨论
Hugging Face¶
链接: https://huggingface.co/ 内容: 模型和数据集
Papers with Code¶
链接: https://paperswithcode.com/ 内容: 带代码的论文
📌 快速查找¶
按主题查找¶
| 主题 | 论文 | 代码 | 教程 |
|---|---|---|---|
| 基础 | DDPM | OpenAI Guided Diffusion | 本学习材料 |
| 加速 | DDIM | PyTorch Diffusion | Lil'Log |
| 条件 | CFG | Hugging Face Diffusers | Jay Alammar |
| LDM | LDM | NVIDIA Latent Diffusion | Stable Diffusion |
| 编辑 | InstructPix2Pix | Stable Diffusion | Blended Diffusion |
按难度查找¶
| 难度 | 推荐资源 |
|---|---|
| 入门 | DDPM论文, CIFAR-10数据集 |
| 中级 | DDIM论文, LDM论文, PyTorch Diffusion |
| 高级 | 最新论文, Stable Diffusion, 自定义实现 |
📅 时间线¶
2020年¶
- DDPM论文发表
- 建立了扩散模型基础
2021年¶
- DDIM论文发表
- DDPM++论文发表
- 加速采样方法兴起
2022年¶
- LDM论文发表
- Stable Diffusion发布
- 文本到图像生成突破
2023年¶
- 图像编辑方法发展
- 更快的采样方法
- 更高质量模型
2024年¶
- 更高效架构
- 更好的条件控制
- 更广泛的应用
💡 学习建议¶
- 从基础开始:先理解DDPM的数学原理
- 动手实现:亲自实现简单的扩散模型
- 阅读论文:理解最新的研究进展
- 使用现有代码:学习优秀的实现
- 参与社区:讨论和分享经验
📞 联系方式¶
如有问题或建议,欢迎通过以下方式联系:
- GitHub Issues
- 邮箱
- 社区论坛
附录结束