大模型(LLM)系统学习教程¶
⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。
写给曾经的"调包侠":如果你也习惯了让AI写代码,离开AI就寸步难行——那么这份教程就是为你准备的。我们要做的不是"学会调用API",而是真正理解大模型是如何工作的。 📌 定位说明:本教程专注于LLM的原理理解与核心技术,包含数学推导、手写实现和前沿研究。相关内容的应用实战: - 应用开发(Prompt工程/RAG/LangChain/微调部署实战)→ LLM应用 - Agent开发实战(手写Agent/MCP/多Agent系统/Context Engineering/Agentic RL)→ AI Agent开发实战 - 数学基础(线性代数/概率统计/优化理论)→ AI数学基础
🔗 Agent相关内容导航:本仓库Agent内容形成完整学习路径 → 本目录(理论)→ LLM应用(框架应用)→ AI Agent开发实战(深度实战)
📚 教程简介¶
这是一个从零开始、循序渐进的大模型学习教程。我们不追求面面俱到,而是专注于建立真正的理解和培养独立解决问题的能力。
学习理念¶
- 先思考,后验证 - 遇到问题先自己思考10分钟
- 手写代码 - 从空白文件开始,不复制粘贴
- 数学推导 - 关键公式自己推导一遍
- 实验验证 - 每个概念都用代码验证
- 教给别人 - 用自己的话解释概念
🗺️ 学习路线图¶
┌─────────────────────────────────────────────────────────────────┐
│ 大模型学习路线图 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 📖 第一阶段:基础巩固(2-3周) │
│ ├── [01-Transformer深入理解](01-基础巩固/01-Transformer深入理解.md) │
│ ├── [02-注意力机制详解](01-基础巩固/02-注意力机制详解.md) │
│ ├── [03-手写Transformer完整实现](01-基础巩固/03-手写Transformer完整实现.md) │ ⭐ NEW
│ ├── [04-NLP基础与预训练语言模型](01-基础巩固/04-NLP基础与预训练语言模型.md) │ ⭐ NEW
│ │ └── NLP发展史、文本表示(Word2Vec→ELMo)、PLM三架构(BERT/GPT/T5) │
│ └── 🛠️ [实践-手写Transformer](01-基础巩固/实践-手写Transformer/) │
│ └── 里程碑:从零实现完整Transformer(含Copy Task和Char LM) │
│ │
│ 🔧 第二阶段:大模型核心技术(3-4周) │
│ ├── [01-高效微调技术](02-大模型核心技术/01-高效微调技术.md) │
│ │ └── LoRA, QLoRA, Prefix Tuning等 │
│ ├── [02-推理优化技术](02-大模型核心技术/02-推理优化技术.md) │
│ │ └── KV Cache, 量化, 连续批处理等 │
│ ├── [03-大模型预训练](02-大模型核心技术/03-大模型预训练.md) │
│ │ └── 预训练目标函数、数据工程、分布式训练 │
│ ├── [04-模型评估与基准测试](02-大模型核心技术/04-模型评估与基准测试.md) │
│ │ └── 评估指标、MMLU、HumanEval、GSM8K │
│ ├── [05-知识蒸馏](02-大模型核心技术/05-知识蒸馏.md) │
│ │ └── 蒸馏原理、白盒/黑盒蒸馏、量化结合 │
│ ├── [06-LoRA从零实现](02-大模型核心技术/06-LoRA从零实现.md) │ ⭐ NEW
│ │ └── 完整手写LoRA、注入、冻结、合并、GPT-2微调 │
│ ├── [07-从零搭建小型LLM](02-大模型核心技术/07-从零搭建小型LLM.md) │ ⭐ NEW
│ │ └── LLaMA架构实现(RMSNorm/RoPE/SwiGLU/GQA)、BPE Tokenizer、预训练 │
│ └── 🛠️ [实践-LoRA实现](02-大模型核心技术/实践-LoRA实现/) │
│ └── 里程碑:实现LoRA并微调真实模型 │
│ │
│ 🚀 第三阶段:系统与工程(3-4周) │
│ ├── [01-数据工程与预处理](03-系统与工程/01-数据工程与预处理.md) │
│ │ └── 数据收集、清洗、去重、Tokenization │
│ ├── [02-训练基础设施](03-系统与工程/02-训练基础设施.md) │
│ │ └── 混合精度、DeepSpeed、Megatron │
│ ├── [03-推理服务部署](03-系统与工程/03-推理服务部署.md) │
│ │ └── vLLM、TGI、量化部署 │
│ ├── [04-对齐技术](03-系统与工程/04-对齐技术.md) │
│ │ └── RLHF、DPO、PPO实现 │
│ └── [05-LLM数据工程-SFT与对齐数据](03-系统与工程/05-LLM数据工程-SFT与对齐数据.md) │
│ └── SFT数据构建、合成数据、偏好标注 │
│ │
│ 🔬 第四阶段:前沿探索(持续) │
│ ├── [01-多模态大模型](04-前沿探索/01-多模态大模型.md) │
│ │ └── CLIP, LLaVA, GPT-4V架构详解 │
│ ├── [02-智能体系统](04-前沿探索/02-智能体系统.md) │
│ │ └── ReAct, Tool Use, Multi-Agent │
│ ├── [03-RAG与长文本](04-前沿探索/03-RAG与长文本.md) │
│ │ └── 检索增强生成, 长上下文建模 │
│ ├── [04-模型架构创新](04-前沿探索/04-模型架构创新.md) │
│ │ └── MoE, Mamba, 线性注意力 │
│ ├── [05-大模型安全与对齐](04-前沿探索/05-大模型安全与对齐.md) │
│ │ └── RLHF, DPO, Constitutional AI │
│ ├── [06-大模型应用与产品化](04-前沿探索/06-大模型应用与产品化.md) │
│ │ └── 部署架构, 推理优化, 产品化实践 │
│ ├── [07-推理模型与思维链](04-前沿探索/07-推理模型与思维链.md) │
│ │ └── DeepSeek R1, OpenAI o1/o3, Gemini Flash Thinking │
│ ├── [08-新一代AI Agent](04-前沿探索/08-新一代AI-Agent.md) │
│ │ └── Manus, Claude Code, OpenAI Operator │
│ ├── [09-MCP协议与工具生态](04-前沿探索/09-MCP协议与工具生态.md) │
│ │ └── Model Context Protocol, 工具生态系统 │
│ ├── [10-最新模型与Agent技术](04-前沿探索/10-最新模型与Agent技术.md) │
│ │ └── Claude 4, Codex, OpenClaw, Devin, 2025趋势 │
│ └── [11-DeepSeek稀疏注意力DSA](04-前沿探索/11-DeepSeek稀疏注意力DSA.md) │
│ └── 稀疏注意力设计、与FlashAttention协同、工程落地评估 │
│ │
└─────────────────────────────────────────────────────────────────┘
📁 目录结构¶
LLM学习/
├── README.md # 本文件
├── 00-学习指南.md # 详细的学习指南和建议
│
├── 01-基础巩固/ # 第一阶段:打好基础
│ ├── 01-Transformer深入理解.md # Transformer架构详解
│ ├── 02-注意力机制详解.md # 注意力机制深入分析
│ ├── 03-手写Transformer完整实现.md # ⭐ 从零手写完整Transformer
│ ├── 04-NLP基础与预训练语言模型.md # ⭐ NLP发展史 + PLM三架构对比
│ └── 实践-手写Transformer/ # 实践项目:手写Transformer
│ ├── README.md # 项目说明
│ ├── transformer.py # 模型实现(待完成)
│ ├── train.py # 训练脚本(待完成)
│ ├── data.py # 数据处理
│ ├── config.py # 配置文件
│ └── requirements.txt # 依赖包
│
├── 02-大模型核心技术/ # 第二阶段:核心技术
│ ├── 01-高效微调技术.md # LoRA, QLoRA等PEFT方法
│ ├── 02-推理优化技术.md # KV Cache, 量化等
│ ├── 03-大模型预训练.md # 预训练目标函数、数据工程、分布式训练
│ ├── 04-模型评估与基准测试.md # 评估指标、MMLU、HumanEval、GSM8K
│ ├── 05-知识蒸馏.md # 蒸馏原理、白盒/黑盒蒸馏、量化结合
│ ├── 06-LoRA从零实现.md # ⭐ 完整手写LoRA、GPT-2微调
│ ├── 07-从零搭建小型LLM.md # ⭐ LLaMA架构实现 + BPE Tokenizer + 预训练
│ └── 实践-LoRA实现/ # 实践项目:实现LoRA
│ ├── README.md # 项目说明
│ ├── lora.py # LoRA实现(待完成)
│ ├── train_lora.py # 训练脚本(待完成)
│ └── ...
│
├── 03-系统与工程/ # 第三阶段:系统工程
│ ├── 01-数据工程与预处理.md # 数据收集、清洗、去重、Tokenization
│ ├── 02-训练基础设施.md # 混合精度、DeepSpeed、Megatron
│ ├── 03-推理服务部署.md # vLLM、TGI、量化部署
│ ├── 04-对齐技术.md # RLHF、DPO、PPO实现
│ └── 05-LLM数据工程-SFT与对齐数据.md # SFT数据构建、合成数据、偏好标注
│
├── 04-前沿探索/ # 第四阶段:前沿方向
│ ├── 01-多模态大模型.md # 多模态架构:CLIP, LLaVA, GPT-4V
│ ├── 02-智能体系统.md # Agent架构:ReAct, Tool Use, Multi-Agent
│ ├── 03-RAG与长文本.md # RAG系统与长上下文建模
│ ├── 04-模型架构创新.md # MoE, Mamba, 线性注意力
│ ├── 05-大模型安全与对齐.md # RLHF, DPO, 安全训练
│ ├── 06-大模型应用与产品化.md # 部署、优化、产品化
│ ├── 07-推理模型与思维链.md # DeepSeek R1, OpenAI o1/o3, Gemini Flash Thinking
│ ├── 08-新一代AI-Agent.md # Manus, Claude Code/Skills, OpenAI Operator
│ ├── 09-MCP协议与工具生态.md # Model Context Protocol, 工具生态系统
│ ├── 10-最新模型与Agent技术.md # Claude 4, Codex, OpenClaw, Devin, 2025趋势
│ └── 11-DeepSeek稀疏注意力DSA.md # DSA专题:稀疏连边、复杂度分析、工程实践
│
├── 实战项目/ # 实战项目
│ ├── 01-文本摘要系统.md # 文本摘要系统
│ └── 02-代码生成系统.md # 代码生成系统
│
└── 测试用例/ # 测试用例
└── 01-Transformer测试用例.md # Transformer测试用例
🎯 学习路径建议¶
如果你时间有限(每天1-2小时)¶
第1-2周:完成第一阶段 - 阅读 01-Transformer深入理解.md - 阅读 02-注意力机制详解.md - 阅读 04-NLP基础与预训练语言模型.md(了解PLM演进) - 开始 实践-手写Transformer(至少完成MultiHeadAttention)
第3-4周:完成第二阶段 - 阅读 01-高效微调技术.md - 阅读 02-推理优化技术.md - 阅读 07-从零搭建小型LLM.md(动手实现Mini-LLaMA) - 开始 实践-LoRA实现
第5周以后:根据兴趣选择方向 - 想深入工程:第三阶段 - 想了解前沿:第四阶段
如果你有较多时间(每天3-4小时)¶
第1周: - 完成第一阶段所有理论 - 完成 实践-手写Transformer
第2-3周: - 完成第二阶段所有理论 - 完成 实践-LoRA实现
第4周以后: - 第三阶段:尝试部署一个本地大模型服务 - 第四阶段:选择感兴趣的方向深入研究
📖 必读论文¶
基础¶
- Attention Is All You Need - Transformer开山之作 ⭐⭐⭐
- BERT: Pre-training of Deep Bidirectional Transformers ⭐⭐
- Language Models are Few-Shot Learners (GPT-3) ⭐⭐⭐
核心技术¶
- LoRA: Low-Rank Adaptation of Large Language Models ⭐⭐⭐
- QLoRA: Efficient Finetuning of Quantized LLMs ⭐⭐⭐
- FlashAttention: Fast and Memory-Efficient Exact Attention ⭐⭐
- vLLM: Easy, Fast, and Cheap LLM Serving ⭐⭐
对齐技术¶
- Training Language Models to Follow Instructions (InstructGPT) ⭐⭐⭐
- Direct Preference Optimization (DPO) ⭐⭐
🛠️ 环境准备¶
基础环境¶
# Python 3.10+
python --version
# PyTorch 2.0+
pip install torch torchvision torchaudio
# Transformers库
pip install transformers
# 其他常用库
pip install numpy matplotlib seaborn tqdm jupyter
可选(用于高效微调)¶
硬件建议¶
| 任务 | 最低配置 | 推荐配置 |
|---|---|---|
| 学习理论 | CPU即可 | - |
| 手写Transformer | 4GB显存 | 8GB显存 |
| LoRA微调(7B模型) | 16GB显存 | 24GB显存 |
| QLoRA微调(7B模型) | 8GB显存 | 12GB显存 |
| 全量微调(7B模型) | 40GB显存 | 80GB显存 |
✅ 学习检查清单¶
第一阶段检查点¶
- 能手写Transformer的核心组件(MHA, FFN, LayerNorm)
- 能解释自注意力的计算过程(Q, K, V, softmax, 缩放)
- 能解释为什么需要位置编码
- 能解释Layer Norm和残差连接的作用
- 成功训练一个字符级语言模型
- 能独立调试模型训练中的问题
第二阶段检查点¶
- 理解LoRA的数学原理(低秩分解)
- 能实现LoRA的前向传播
- 能解释为什么LoRA节省显存
- 成功微调一个预训练模型(即使是很小的模型)
- 理解KV Cache的原理和实现
- 理解量化的基本原理
- 了解连续批处理和投机采样
第三阶段检查点¶
- 能独立搭建一个数据处理pipeline
- 能编写包含日志、检查点、恢复的训练脚本
- 能部署一个本地推理服务
- 理解RLHF和DPO的训练流程
第四阶段检查点¶
- 理解多模态模型的架构(CLIP, LLaVA)
- 能实现简单的ReAct Agent
- 理解RAG系统的完整流程
- 了解MoE和Mamba的基本原理
- 理解对齐技术(RLHF, DPO)的区别
- 能部署一个量化的大模型服务
🤔 常见问题¶
Q: 我没有GPU,可以学习吗?¶
A: 完全可以! - 理论学习不需要GPU - 手写Transformer可以用小模型在CPU上运行 - 可以使用Google Colab的免费GPU - 可以使用QLoRA在消费级GPU上微调
Q: 数学基础不好,能学懂吗?¶
A: 可以! - 本教程尽量避免复杂的数学推导 - 关键公式会提供直观解释 - 动手实现比数学证明更重要 - 遇到不懂的数学可以暂时跳过,先建立直觉
Q: 学习过程中遇到问题怎么办?¶
A: 1. 先自己思考10分钟 - 这是最重要的 2. 查阅官方文档 - PyTorch, Transformers文档 3. 搜索相关问题 - Stack Overflow, GitHub Issues 4. 打印调试 - 打印中间结果的shape和值 5. 简化问题 - 用最小可复现的例子测试 6. 最后才问AI - 记录你的思考过程,再与AI答案对比
Q: 需要多长时间才能掌握?¶
A: 取决于你的投入: - 每天1-2小时:2-3个月掌握基础 - 每天3-4小时:1-2个月掌握基础 - 全职学习:3-4周掌握基础
注意:"掌握"意味着能独立实现和调试,不只是看懂。
📝 学习建议¶
1. 建立学习小组¶
找1-2个同样在学习大模型的伙伴: - 互相讨论不懂的概念 - 互相review代码 - 分享学习心得
2. 写学习笔记¶
每学完一个概念,用自己的话写下来: - 这个概念是什么? - 为什么需要它? - 它是如何工作的? - 代码如何实现?
3. 做项目¶
理论学习后,一定要动手: - 第一阶段:手写Transformer - 第二阶段:实现LoRA - 第三阶段:部署服务 - 第四阶段:复现论文
4. 关注社区¶
- Hugging Face - 模型和数据集
- Papers With Code - 论文和代码
- arXiv - 最新论文
- Reddit r/MachineLearning - 讨论
🌟 进阶方向¶
完成本教程后,你可以选择以下方向深入:
研究方向¶
- 多模态大模型:CLIP, LLaVA, GPT-4V
- 长上下文:RAG, 位置编码外推
- 模型架构:Mamba, RWKV, RetNet
- 对齐技术:RLHF, DPO, 安全对齐
工程方向¶
- 推理优化:vLLM, TensorRT-LLM
- 分布式训练:Megatron, DeepSpeed
- 模型压缩:量化、剪枝、蒸馏
- AI基础设施:K8s部署、服务化
应用方向¶
- 智能体(Agent):ReAct, Tool Learning
- 代码生成:CodeLlama, StarCoder
- 科学计算:AlphaFold, 材料发现
📜 许可¶
本教程采用 MIT License 开源协议。
欢迎: - 自由使用和修改 - 提交Issue和PR - 分享给更多人
🙏 致谢¶
感谢以下优秀资源对本教程的启发:
- The Annotated Transformer - Harvard
- Andrej Karpathy's Neural Networks: Zero to Hero
- Hugging Face NLP Course
- Stanford CS224N
🔗 相关章节¶
前置知识¶
应用实战¶
- LLM应用 - Prompt工程、RAG、LangChain、微调部署
- AI Agent开发实战 - 手写Agent、MCP、多Agent系统
相关技术¶
- 模型优化 - 推理优化、量化部署
- MLOps与AI工程化 - 模型部署与运维
扩展阅读¶
🚀 开始你的学习之旅¶
准备好了吗?让我们从 00-学习指南 开始!
记住:每一个你亲手解决的bug,每一次你独立推导的公式,每一行你手写的代码,都在让你变得更强。
祝学习愉快!🎉
最后更新日期:2026-02-20 适用版本:LLM学习教程 v2026.06