大模型（LLM）系统学习教程¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

写给曾经的"调包侠"：如果你也习惯了让AI写代码，离开AI就寸步难行——那么这份教程就是为你准备的。我们要做的不是"学会调用API"，而是真正理解大模型是如何工作的。 📌 定位说明：本教程专注于LLM的原理理解与核心技术，包含数学推导、手写实现和前沿研究。相关内容的应用实战： - 应用开发（Prompt工程/RAG/LangChain/微调部署实战）→ LLM应用 - Agent开发实战（手写Agent/MCP/多Agent系统/Context Engineering/Agentic RL）→ AI Agent开发实战 - 数学基础（线性代数/概率统计/优化理论）→ AI数学基础

🔗 Agent相关内容导航：本仓库Agent内容形成完整学习路径 → 本目录（理论）→ LLM应用（框架应用）→ AI Agent开发实战（深度实战）

📚 教程简介¶

这是一个从零开始、循序渐进的大模型学习教程。我们不追求面面俱到，而是专注于建立真正的理解和培养独立解决问题的能力。

学习理念¶

先思考，后验证 - 遇到问题先自己思考10分钟
手写代码 - 从空白文件开始，不复制粘贴
数学推导 - 关键公式自己推导一遍
实验验证 - 每个概念都用代码验证
教给别人 - 用自己的话解释概念

🗺️ 学习路线图¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                        大模型学习路线图                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  📖 第一阶段：基础巩固（2-3周）                                   │
│  ├── [01-Transformer深入理解](01-基础巩固/01-Transformer深入理解.md)  │
│  ├── [02-注意力机制详解](01-基础巩固/02-注意力机制详解.md)           │
│  ├── [03-手写Transformer完整实现](01-基础巩固/03-手写Transformer完整实现.md) │ ⭐ NEW
│  ├── [04-NLP基础与预训练语言模型](01-基础巩固/04-NLP基础与预训练语言模型.md) │ ⭐ NEW
│  │   └── NLP发展史、文本表示(Word2Vec→ELMo)、PLM三架构(BERT/GPT/T5) │
│  └── 🛠️ [实践-手写Transformer](01-基础巩固/实践-手写Transformer/)    │
│      └── 里程碑：从零实现完整Transformer（含Copy Task和Char LM）   │
│                                                                 │
│  🔧 第二阶段：大模型核心技术（3-4周）                              │
│  ├── [01-高效微调技术](02-大模型核心技术/01-高效微调技术.md)         │
│  │   └── LoRA, QLoRA, Prefix Tuning等                          │
│  ├── [02-推理优化技术](02-大模型核心技术/02-推理优化技术.md)         │
│  │   └── KV Cache, 量化, 连续批处理等                          │
│  ├── [03-大模型预训练](02-大模型核心技术/03-大模型预训练.md)         │
│  │   └── 预训练目标函数、数据工程、分布式训练                    │
│  ├── [04-模型评估与基准测试](02-大模型核心技术/04-模型评估与基准测试.md) │
│  │   └── 评估指标、MMLU、HumanEval、GSM8K                      │
│  ├── [05-知识蒸馏](02-大模型核心技术/05-知识蒸馏.md)                 │
│  │   └── 蒸馏原理、白盒/黑盒蒸馏、量化结合                      │
│  ├── [06-LoRA从零实现](02-大模型核心技术/06-LoRA从零实现.md)         │ ⭐ NEW
│  │   └── 完整手写LoRA、注入、冻结、合并、GPT-2微调               │
│  ├── [07-从零搭建小型LLM](02-大模型核心技术/07-从零搭建小型LLM.md)   │ ⭐ NEW
│  │   └── LLaMA架构实现(RMSNorm/RoPE/SwiGLU/GQA)、BPE Tokenizer、预训练 │
│  └── 🛠️ [实践-LoRA实现](02-大模型核心技术/实践-LoRA实现/)           │
│      └── 里程碑：实现LoRA并微调真实模型                          │
│                                                                 │
│  🚀 第三阶段：系统与工程（3-4周）                                 │
│  ├── [01-数据工程与预处理](03-系统与工程/01-数据工程与预处理.md)    │
│  │   └── 数据收集、清洗、去重、Tokenization                      │
│  ├── [02-训练基础设施](03-系统与工程/02-训练基础设施.md)            │
│  │   └── 混合精度、DeepSpeed、Megatron                          │
│  ├── [03-推理服务部署](03-系统与工程/03-推理服务部署.md)            │
│  │   └── vLLM、TGI、量化部署                                     │
│  ├── [04-对齐技术](03-系统与工程/04-对齐技术.md)                    │
│  │   └── RLHF、DPO、PPO实现                                      │
│  └── [05-LLM数据工程-SFT与对齐数据](03-系统与工程/05-LLM数据工程-SFT与对齐数据.md) │
│      └── SFT数据构建、合成数据、偏好标注                          │
│                                                                 │
│  🔬 第四阶段：前沿探索（持续）                                    │
│  ├── [01-多模态大模型](04-前沿探索/01-多模态大模型.md)              │
│  │   └── CLIP, LLaVA, GPT-4V架构详解                             │
│  ├── [02-智能体系统](04-前沿探索/02-智能体系统.md)                  │
│  │   └── ReAct, Tool Use, Multi-Agent                            │
│  ├── [03-RAG与长文本](04-前沿探索/03-RAG与长文本.md)                │
│  │   └── 检索增强生成, 长上下文建模                              │
│  ├── [04-模型架构创新](04-前沿探索/04-模型架构创新.md)              │
│  │   └── MoE, Mamba, 线性注意力                                  │
│  ├── [05-大模型安全与对齐](04-前沿探索/05-大模型安全与对齐.md)      │
│  │   └── RLHF, DPO, Constitutional AI                            │
│  ├── [06-大模型应用与产品化](04-前沿探索/06-大模型应用与产品化.md)  │
│  │   └── 部署架构, 推理优化, 产品化实践                          │
│  ├── [07-推理模型与思维链](04-前沿探索/07-推理模型与思维链.md)      │
│  │   └── DeepSeek R1, OpenAI o1/o3, Gemini Flash Thinking        │
│  ├── [08-新一代AI Agent](04-前沿探索/08-新一代AI-Agent.md)          │
│  │   └── Manus, Claude Code, OpenAI Operator                     │
│  ├── [09-MCP协议与工具生态](04-前沿探索/09-MCP协议与工具生态.md)    │
│  │   └── Model Context Protocol, 工具生态系统                     │
│  ├── [10-最新模型与Agent技术](04-前沿探索/10-最新模型与Agent技术.md) │
│  │   └── Claude 4, Codex, OpenClaw, Devin, 2025趋势              │
│  └── [11-DeepSeek稀疏注意力DSA](04-前沿探索/11-DeepSeek稀疏注意力DSA.md) │
│      └── 稀疏注意力设计、与FlashAttention协同、工程落地评估         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

📁 目录结构¶

Text Only

LLM学习/
├── README.md                          # 本文件
├── 00-学习指南.md                      # 详细的学习指南和建议
│
├── 01-基础巩固/                        # 第一阶段：打好基础
│   ├── 01-Transformer深入理解.md       # Transformer架构详解
│   ├── 02-注意力机制详解.md            # 注意力机制深入分析
│   ├── 03-手写Transformer完整实现.md   # ⭐ 从零手写完整Transformer
│   ├── 04-NLP基础与预训练语言模型.md   # ⭐ NLP发展史 + PLM三架构对比
│   └── 实践-手写Transformer/           # 实践项目：手写Transformer
│       ├── README.md                   # 项目说明
│       ├── transformer.py              # 模型实现（待完成）
│       ├── train.py                    # 训练脚本（待完成）
│       ├── data.py                     # 数据处理
│       ├── config.py                   # 配置文件
│       └── requirements.txt            # 依赖包
│
├── 02-大模型核心技术/                   # 第二阶段：核心技术
│   ├── 01-高效微调技术.md              # LoRA, QLoRA等PEFT方法
│   ├── 02-推理优化技术.md              # KV Cache, 量化等
│   ├── 03-大模型预训练.md              # 预训练目标函数、数据工程、分布式训练
│   ├── 04-模型评估与基准测试.md        # 评估指标、MMLU、HumanEval、GSM8K
│   ├── 05-知识蒸馏.md                  # 蒸馏原理、白盒/黑盒蒸馏、量化结合
│   ├── 06-LoRA从零实现.md              # ⭐ 完整手写LoRA、GPT-2微调
│   ├── 07-从零搭建小型LLM.md           # ⭐ LLaMA架构实现 + BPE Tokenizer + 预训练
│   └── 实践-LoRA实现/                  # 实践项目：实现LoRA
│       ├── README.md                   # 项目说明
│       ├── lora.py                     # LoRA实现（待完成）
│       ├── train_lora.py               # 训练脚本（待完成）
│       └── ...
│
├── 03-系统与工程/                      # 第三阶段：系统工程
│   ├── 01-数据工程与预处理.md           # 数据收集、清洗、去重、Tokenization
│   ├── 02-训练基础设施.md               # 混合精度、DeepSpeed、Megatron
│   ├── 03-推理服务部署.md               # vLLM、TGI、量化部署
│   ├── 04-对齐技术.md                   # RLHF、DPO、PPO实现
│   └── 05-LLM数据工程-SFT与对齐数据.md  # SFT数据构建、合成数据、偏好标注
│
├── 04-前沿探索/                        # 第四阶段：前沿方向
│   ├── 01-多模态大模型.md               # 多模态架构：CLIP, LLaVA, GPT-4V
│   ├── 02-智能体系统.md                 # Agent架构：ReAct, Tool Use, Multi-Agent
│   ├── 03-RAG与长文本.md                # RAG系统与长上下文建模
│   ├── 04-模型架构创新.md               # MoE, Mamba, 线性注意力
│   ├── 05-大模型安全与对齐.md           # RLHF, DPO, 安全训练
│   ├── 06-大模型应用与产品化.md         # 部署、优化、产品化
│   ├── 07-推理模型与思维链.md           # DeepSeek R1, OpenAI o1/o3, Gemini Flash Thinking
│   ├── 08-新一代AI-Agent.md             # Manus, Claude Code/Skills, OpenAI Operator
│   ├── 09-MCP协议与工具生态.md          # Model Context Protocol, 工具生态系统
│   ├── 10-最新模型与Agent技术.md        # Claude 4, Codex, OpenClaw, Devin, 2025趋势
│   └── 11-DeepSeek稀疏注意力DSA.md      # DSA专题：稀疏连边、复杂度分析、工程实践
│
├── 实战项目/                           # 实战项目
│   ├── 01-文本摘要系统.md               # 文本摘要系统
│   └── 02-代码生成系统.md               # 代码生成系统
│
└── 测试用例/                           # 测试用例
    └── 01-Transformer测试用例.md       # Transformer测试用例

🎯 学习路径建议¶

如果你时间有限（每天1-2小时）¶

第1-2周：完成第一阶段 - 阅读 01-Transformer深入理解.md - 阅读 02-注意力机制详解.md - 阅读 04-NLP基础与预训练语言模型.md（了解PLM演进） - 开始 实践-手写Transformer（至少完成MultiHeadAttention）

第3-4周：完成第二阶段 - 阅读 01-高效微调技术.md - 阅读 02-推理优化技术.md - 阅读 07-从零搭建小型LLM.md（动手实现Mini-LLaMA） - 开始 实践-LoRA实现

第5周以后：根据兴趣选择方向 - 想深入工程：第三阶段 - 想了解前沿：第四阶段

如果你有较多时间（每天3-4小时）¶

第1周： - 完成第一阶段所有理论 - 完成 实践-手写Transformer

第2-3周： - 完成第二阶段所有理论 - 完成 实践-LoRA实现

第4周以后： - 第三阶段：尝试部署一个本地大模型服务 - 第四阶段：选择感兴趣的方向深入研究

📖 必读论文¶

🛠️ 环境准备¶

基础环境¶

Bash

# Python 3.10+
python --version

# PyTorch 2.0+
pip install torch torchvision torchaudio

# Transformers库
pip install transformers

# 其他常用库
pip install numpy matplotlib seaborn tqdm jupyter

可选（用于高效微调）¶

Bash

# PEFT库
pip install peft

# 量化支持
pip install bitsandbytes

# 推理优化
pip install vllm

硬件建议¶

任务	最低配置	推荐配置
学习理论	CPU即可	-
手写Transformer	4GB显存	8GB显存
LoRA微调（7B模型）	16GB显存	24GB显存
QLoRA微调（7B模型）	8GB显存	12GB显存
全量微调（7B模型）	40GB显存	80GB显存

✅ 学习检查清单¶

第一阶段检查点¶

能手写Transformer的核心组件（MHA, FFN, LayerNorm）
能解释自注意力的计算过程（Q, K, V, softmax, 缩放）
能解释为什么需要位置编码
能解释Layer Norm和残差连接的作用
成功训练一个字符级语言模型
能独立调试模型训练中的问题

第二阶段检查点¶

理解LoRA的数学原理（低秩分解）
能实现LoRA的前向传播
能解释为什么LoRA节省显存
成功微调一个预训练模型（即使是很小的模型）
理解KV Cache的原理和实现
理解量化的基本原理
了解连续批处理和投机采样

第三阶段检查点¶

能独立搭建一个数据处理pipeline
能编写包含日志、检查点、恢复的训练脚本
能部署一个本地推理服务
理解RLHF和DPO的训练流程

第四阶段检查点¶

理解多模态模型的架构（CLIP, LLaVA）
能实现简单的ReAct Agent
理解RAG系统的完整流程
了解MoE和Mamba的基本原理
理解对齐技术（RLHF, DPO）的区别
能部署一个量化的大模型服务

🤔 常见问题¶

Q: 我没有GPU，可以学习吗？¶

A: 完全可以！ - 理论学习不需要GPU - 手写Transformer可以用小模型在CPU上运行 - 可以使用Google Colab的免费GPU - 可以使用QLoRA在消费级GPU上微调

Q: 数学基础不好，能学懂吗？¶

A: 可以！ - 本教程尽量避免复杂的数学推导 - 关键公式会提供直观解释 - 动手实现比数学证明更重要 - 遇到不懂的数学可以暂时跳过，先建立直觉

Q: 学习过程中遇到问题怎么办？¶

A: 1. 先自己思考10分钟 - 这是最重要的 2. 查阅官方文档 - PyTorch, Transformers文档 3. 搜索相关问题 - Stack Overflow, GitHub Issues 4. 打印调试 - 打印中间结果的shape和值 5. 简化问题 - 用最小可复现的例子测试 6. 最后才问AI - 记录你的思考过程，再与AI答案对比

Q: 需要多长时间才能掌握？¶

A: 取决于你的投入： - 每天1-2小时：2-3个月掌握基础 - 每天3-4小时：1-2个月掌握基础 - 全职学习：3-4周掌握基础

注意："掌握"意味着能独立实现和调试，不只是看懂。

📝 学习建议¶

1. 建立学习小组¶

找1-2个同样在学习大模型的伙伴： - 互相讨论不懂的概念 - 互相review代码 - 分享学习心得

2. 写学习笔记¶

每学完一个概念，用自己的话写下来： - 这个概念是什么？ - 为什么需要它？ - 它是如何工作的？ - 代码如何实现？

3. 做项目¶

理论学习后，一定要动手： - 第一阶段：手写Transformer - 第二阶段：实现LoRA - 第三阶段：部署服务 - 第四阶段：复现论文

4. 关注社区¶

Hugging Face - 模型和数据集
Papers With Code - 论文和代码
arXiv - 最新论文
Reddit r/MachineLearning - 讨论

🌟 进阶方向¶

完成本教程后，你可以选择以下方向深入：

研究方向¶

多模态大模型：CLIP, LLaVA, GPT-4V
长上下文：RAG, 位置编码外推
模型架构：Mamba, RWKV, RetNet
对齐技术：RLHF, DPO, 安全对齐

工程方向¶

推理优化：vLLM, TensorRT-LLM
分布式训练：Megatron, DeepSpeed
模型压缩：量化、剪枝、蒸馏
AI基础设施：K8s部署、服务化

应用方向¶

智能体（Agent）：ReAct, Tool Learning
代码生成：CodeLlama, StarCoder
科学计算：AlphaFold, 材料发现

📜 许可¶

本教程采用 MIT License 开源协议。

欢迎： - 自由使用和修改 - 提交Issue和PR - 分享给更多人

🙏 致谢¶

感谢以下优秀资源对本教程的启发：

🔗 相关章节¶

前置知识¶

AI数学基础 - 线性代数、概率统计、优化理论
深度学习 - 神经网络、Transformer架构
自然语言处理 - NLP基础、预训练语言模型

应用实战¶

LLM应用 - Prompt工程、RAG、LangChain、微调部署
AI Agent开发实战 - 手写Agent、MCP、多Agent系统

扩展阅读¶

推荐系统 - 推荐算法与LLM结合
强化学习 - RLHF、PPO原理

🚀 开始你的学习之旅¶

准备好了吗？让我们从 00-学习指南开始！

记住：每一个你亲手解决的bug，每一次你独立推导的公式，每一行你手写的代码，都在让你变得更强。

祝学习愉快！🎉

最后更新日期：2026-02-20 适用版本：LLM学习教程 v2026.06