跳转至

大模型(LLM)系统学习教程

⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。

写给曾经的"调包侠":如果你也习惯了让AI写代码,离开AI就寸步难行——那么这份教程就是为你准备的。我们要做的不是"学会调用API",而是真正理解大模型是如何工作的。 📌 定位说明:本教程专注于LLM的原理理解与核心技术,包含数学推导、手写实现和前沿研究。相关内容的应用实战: - 应用开发(Prompt工程/RAG/LangChain/微调部署实战)→ LLM应用 - Agent开发实战(手写Agent/MCP/多Agent系统/Context Engineering/Agentic RL)→ AI Agent开发实战 - 数学基础(线性代数/概率统计/优化理论)→ AI数学基础

🔗 Agent相关内容导航:本仓库Agent内容形成完整学习路径 → 本目录(理论)→ LLM应用(框架应用)→ AI Agent开发实战(深度实战)


📚 教程简介

这是一个从零开始、循序渐进的大模型学习教程。我们不追求面面俱到,而是专注于建立真正的理解培养独立解决问题的能力

学习理念

  1. 先思考,后验证 - 遇到问题先自己思考10分钟
  2. 手写代码 - 从空白文件开始,不复制粘贴
  3. 数学推导 - 关键公式自己推导一遍
  4. 实验验证 - 每个概念都用代码验证
  5. 教给别人 - 用自己的话解释概念

🗺️ 学习路线图

Text Only
┌─────────────────────────────────────────────────────────────────┐
│                        大模型学习路线图                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  📖 第一阶段:基础巩固(2-3周)                                   │
│  ├── [01-Transformer深入理解](01-基础巩固/01-Transformer深入理解.md)  │
│  ├── [02-注意力机制详解](01-基础巩固/02-注意力机制详解.md)           │
│  ├── [03-手写Transformer完整实现](01-基础巩固/03-手写Transformer完整实现.md) │ ⭐ NEW
│  ├── [04-NLP基础与预训练语言模型](01-基础巩固/04-NLP基础与预训练语言模型.md) │ ⭐ NEW
│  │   └── NLP发展史、文本表示(Word2Vec→ELMo)、PLM三架构(BERT/GPT/T5) │
│  └── 🛠️ [实践-手写Transformer](01-基础巩固/实践-手写Transformer/)    │
│      └── 里程碑:从零实现完整Transformer(含Copy Task和Char LM)   │
│                                                                 │
│  🔧 第二阶段:大模型核心技术(3-4周)                              │
│  ├── [01-高效微调技术](02-大模型核心技术/01-高效微调技术.md)         │
│  │   └── LoRA, QLoRA, Prefix Tuning等                          │
│  ├── [02-推理优化技术](02-大模型核心技术/02-推理优化技术.md)         │
│  │   └── KV Cache, 量化, 连续批处理等                          │
│  ├── [03-大模型预训练](02-大模型核心技术/03-大模型预训练.md)         │
│  │   └── 预训练目标函数、数据工程、分布式训练                    │
│  ├── [04-模型评估与基准测试](02-大模型核心技术/04-模型评估与基准测试.md) │
│  │   └── 评估指标、MMLU、HumanEval、GSM8K                      │
│  ├── [05-知识蒸馏](02-大模型核心技术/05-知识蒸馏.md)                 │
│  │   └── 蒸馏原理、白盒/黑盒蒸馏、量化结合                      │
│  ├── [06-LoRA从零实现](02-大模型核心技术/06-LoRA从零实现.md)         │ ⭐ NEW
│  │   └── 完整手写LoRA、注入、冻结、合并、GPT-2微调               │
│  ├── [07-从零搭建小型LLM](02-大模型核心技术/07-从零搭建小型LLM.md)   │ ⭐ NEW
│  │   └── LLaMA架构实现(RMSNorm/RoPE/SwiGLU/GQA)、BPE Tokenizer、预训练 │
│  └── 🛠️ [实践-LoRA实现](02-大模型核心技术/实践-LoRA实现/)           │
│      └── 里程碑:实现LoRA并微调真实模型                          │
│                                                                 │
│  🚀 第三阶段:系统与工程(3-4周)                                 │
│  ├── [01-数据工程与预处理](03-系统与工程/01-数据工程与预处理.md)    │
│  │   └── 数据收集、清洗、去重、Tokenization                      │
│  ├── [02-训练基础设施](03-系统与工程/02-训练基础设施.md)            │
│  │   └── 混合精度、DeepSpeed、Megatron                          │
│  ├── [03-推理服务部署](03-系统与工程/03-推理服务部署.md)            │
│  │   └── vLLM、TGI、量化部署                                     │
│  ├── [04-对齐技术](03-系统与工程/04-对齐技术.md)                    │
│  │   └── RLHF、DPO、PPO实现                                      │
│  └── [05-LLM数据工程-SFT与对齐数据](03-系统与工程/05-LLM数据工程-SFT与对齐数据.md) │
│      └── SFT数据构建、合成数据、偏好标注                          │
│                                                                 │
│  🔬 第四阶段:前沿探索(持续)                                    │
│  ├── [01-多模态大模型](04-前沿探索/01-多模态大模型.md)              │
│  │   └── CLIP, LLaVA, GPT-4V架构详解                             │
│  ├── [02-智能体系统](04-前沿探索/02-智能体系统.md)                  │
│  │   └── ReAct, Tool Use, Multi-Agent                            │
│  ├── [03-RAG与长文本](04-前沿探索/03-RAG与长文本.md)                │
│  │   └── 检索增强生成, 长上下文建模                              │
│  ├── [04-模型架构创新](04-前沿探索/04-模型架构创新.md)              │
│  │   └── MoE, Mamba, 线性注意力                                  │
│  ├── [05-大模型安全与对齐](04-前沿探索/05-大模型安全与对齐.md)      │
│  │   └── RLHF, DPO, Constitutional AI                            │
│  ├── [06-大模型应用与产品化](04-前沿探索/06-大模型应用与产品化.md)  │
│  │   └── 部署架构, 推理优化, 产品化实践                          │
│  ├── [07-推理模型与思维链](04-前沿探索/07-推理模型与思维链.md)      │
│  │   └── DeepSeek R1, OpenAI o1/o3, Gemini Flash Thinking        │
│  ├── [08-新一代AI Agent](04-前沿探索/08-新一代AI-Agent.md)          │
│  │   └── Manus, Claude Code, OpenAI Operator                     │
│  ├── [09-MCP协议与工具生态](04-前沿探索/09-MCP协议与工具生态.md)    │
│  │   └── Model Context Protocol, 工具生态系统                     │
│  ├── [10-最新模型与Agent技术](04-前沿探索/10-最新模型与Agent技术.md) │
│  │   └── Claude 4, Codex, OpenClaw, Devin, 2025趋势              │
│  └── [11-DeepSeek稀疏注意力DSA](04-前沿探索/11-DeepSeek稀疏注意力DSA.md) │
│      └── 稀疏注意力设计、与FlashAttention协同、工程落地评估         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

📁 目录结构

Text Only
LLM学习/
├── README.md                          # 本文件
├── 00-学习指南.md                      # 详细的学习指南和建议
├── 01-基础巩固/                        # 第一阶段:打好基础
│   ├── 01-Transformer深入理解.md       # Transformer架构详解
│   ├── 02-注意力机制详解.md            # 注意力机制深入分析
│   ├── 03-手写Transformer完整实现.md   # ⭐ 从零手写完整Transformer
│   ├── 04-NLP基础与预训练语言模型.md   # ⭐ NLP发展史 + PLM三架构对比
│   └── 实践-手写Transformer/           # 实践项目:手写Transformer
│       ├── README.md                   # 项目说明
│       ├── transformer.py              # 模型实现(待完成)
│       ├── train.py                    # 训练脚本(待完成)
│       ├── data.py                     # 数据处理
│       ├── config.py                   # 配置文件
│       └── requirements.txt            # 依赖包
├── 02-大模型核心技术/                   # 第二阶段:核心技术
│   ├── 01-高效微调技术.md              # LoRA, QLoRA等PEFT方法
│   ├── 02-推理优化技术.md              # KV Cache, 量化等
│   ├── 03-大模型预训练.md              # 预训练目标函数、数据工程、分布式训练
│   ├── 04-模型评估与基准测试.md        # 评估指标、MMLU、HumanEval、GSM8K
│   ├── 05-知识蒸馏.md                  # 蒸馏原理、白盒/黑盒蒸馏、量化结合
│   ├── 06-LoRA从零实现.md              # ⭐ 完整手写LoRA、GPT-2微调
│   ├── 07-从零搭建小型LLM.md           # ⭐ LLaMA架构实现 + BPE Tokenizer + 预训练
│   └── 实践-LoRA实现/                  # 实践项目:实现LoRA
│       ├── README.md                   # 项目说明
│       ├── lora.py                     # LoRA实现(待完成)
│       ├── train_lora.py               # 训练脚本(待完成)
│       └── ...
├── 03-系统与工程/                      # 第三阶段:系统工程
│   ├── 01-数据工程与预处理.md           # 数据收集、清洗、去重、Tokenization
│   ├── 02-训练基础设施.md               # 混合精度、DeepSpeed、Megatron
│   ├── 03-推理服务部署.md               # vLLM、TGI、量化部署
│   ├── 04-对齐技术.md                   # RLHF、DPO、PPO实现
│   └── 05-LLM数据工程-SFT与对齐数据.md  # SFT数据构建、合成数据、偏好标注
├── 04-前沿探索/                        # 第四阶段:前沿方向
│   ├── 01-多模态大模型.md               # 多模态架构:CLIP, LLaVA, GPT-4V
│   ├── 02-智能体系统.md                 # Agent架构:ReAct, Tool Use, Multi-Agent
│   ├── 03-RAG与长文本.md                # RAG系统与长上下文建模
│   ├── 04-模型架构创新.md               # MoE, Mamba, 线性注意力
│   ├── 05-大模型安全与对齐.md           # RLHF, DPO, 安全训练
│   ├── 06-大模型应用与产品化.md         # 部署、优化、产品化
│   ├── 07-推理模型与思维链.md           # DeepSeek R1, OpenAI o1/o3, Gemini Flash Thinking
│   ├── 08-新一代AI-Agent.md             # Manus, Claude Code/Skills, OpenAI Operator
│   ├── 09-MCP协议与工具生态.md          # Model Context Protocol, 工具生态系统
│   ├── 10-最新模型与Agent技术.md        # Claude 4, Codex, OpenClaw, Devin, 2025趋势
│   └── 11-DeepSeek稀疏注意力DSA.md      # DSA专题:稀疏连边、复杂度分析、工程实践
├── 实战项目/                           # 实战项目
│   ├── 01-文本摘要系统.md               # 文本摘要系统
│   └── 02-代码生成系统.md               # 代码生成系统
└── 测试用例/                           # 测试用例
    └── 01-Transformer测试用例.md       # Transformer测试用例

🎯 学习路径建议

如果你时间有限(每天1-2小时)

第1-2周:完成第一阶段 - 阅读 01-Transformer深入理解.md - 阅读 02-注意力机制详解.md - 阅读 04-NLP基础与预训练语言模型.md(了解PLM演进) - 开始 实践-手写Transformer(至少完成MultiHeadAttention)

第3-4周:完成第二阶段 - 阅读 01-高效微调技术.md - 阅读 02-推理优化技术.md - 阅读 07-从零搭建小型LLM.md(动手实现Mini-LLaMA) - 开始 实践-LoRA实现

第5周以后:根据兴趣选择方向 - 想深入工程:第三阶段 - 想了解前沿:第四阶段

如果你有较多时间(每天3-4小时)

第1周: - 完成第一阶段所有理论 - 完成 实践-手写Transformer

第2-3周: - 完成第二阶段所有理论 - 完成 实践-LoRA实现

第4周以后: - 第三阶段:尝试部署一个本地大模型服务 - 第四阶段:选择感兴趣的方向深入研究


📖 必读论文

基础

  1. Attention Is All You Need - Transformer开山之作 ⭐⭐⭐
  2. BERT: Pre-training of Deep Bidirectional Transformers ⭐⭐
  3. Language Models are Few-Shot Learners (GPT-3) ⭐⭐⭐

核心技术

  1. LoRA: Low-Rank Adaptation of Large Language Models ⭐⭐⭐
  2. QLoRA: Efficient Finetuning of Quantized LLMs ⭐⭐⭐
  3. FlashAttention: Fast and Memory-Efficient Exact Attention ⭐⭐
  4. vLLM: Easy, Fast, and Cheap LLM Serving ⭐⭐

对齐技术

  1. Training Language Models to Follow Instructions (InstructGPT) ⭐⭐⭐
  2. Direct Preference Optimization (DPO) ⭐⭐

🛠️ 环境准备

基础环境

Bash
# Python 3.10+
python --version

# PyTorch 2.0+
pip install torch torchvision torchaudio

# Transformers库
pip install transformers

# 其他常用库
pip install numpy matplotlib seaborn tqdm jupyter

可选(用于高效微调)

Bash
# PEFT库
pip install peft

# 量化支持
pip install bitsandbytes

# 推理优化
pip install vllm

硬件建议

任务 最低配置 推荐配置
学习理论 CPU即可 -
手写Transformer 4GB显存 8GB显存
LoRA微调(7B模型) 16GB显存 24GB显存
QLoRA微调(7B模型) 8GB显存 12GB显存
全量微调(7B模型) 40GB显存 80GB显存

✅ 学习检查清单

第一阶段检查点

  • 能手写Transformer的核心组件(MHA, FFN, LayerNorm)
  • 能解释自注意力的计算过程(Q, K, V, softmax, 缩放)
  • 能解释为什么需要位置编码
  • 能解释Layer Norm和残差连接的作用
  • 成功训练一个字符级语言模型
  • 能独立调试模型训练中的问题

第二阶段检查点

  • 理解LoRA的数学原理(低秩分解)
  • 能实现LoRA的前向传播
  • 能解释为什么LoRA节省显存
  • 成功微调一个预训练模型(即使是很小的模型)
  • 理解KV Cache的原理和实现
  • 理解量化的基本原理
  • 了解连续批处理和投机采样

第三阶段检查点

  • 能独立搭建一个数据处理pipeline
  • 能编写包含日志、检查点、恢复的训练脚本
  • 能部署一个本地推理服务
  • 理解RLHF和DPO的训练流程

第四阶段检查点

  • 理解多模态模型的架构(CLIP, LLaVA)
  • 能实现简单的ReAct Agent
  • 理解RAG系统的完整流程
  • 了解MoE和Mamba的基本原理
  • 理解对齐技术(RLHF, DPO)的区别
  • 能部署一个量化的大模型服务

🤔 常见问题

Q: 我没有GPU,可以学习吗?

A: 完全可以! - 理论学习不需要GPU - 手写Transformer可以用小模型在CPU上运行 - 可以使用Google Colab的免费GPU - 可以使用QLoRA在消费级GPU上微调

Q: 数学基础不好,能学懂吗?

A: 可以! - 本教程尽量避免复杂的数学推导 - 关键公式会提供直观解释 - 动手实现比数学证明更重要 - 遇到不懂的数学可以暂时跳过,先建立直觉

Q: 学习过程中遇到问题怎么办?

A: 1. 先自己思考10分钟 - 这是最重要的 2. 查阅官方文档 - PyTorch, Transformers文档 3. 搜索相关问题 - Stack Overflow, GitHub Issues 4. 打印调试 - 打印中间结果的shape和值 5. 简化问题 - 用最小可复现的例子测试 6. 最后才问AI - 记录你的思考过程,再与AI答案对比

Q: 需要多长时间才能掌握?

A: 取决于你的投入: - 每天1-2小时:2-3个月掌握基础 - 每天3-4小时:1-2个月掌握基础 - 全职学习:3-4周掌握基础

注意:"掌握"意味着能独立实现和调试,不只是看懂。


📝 学习建议

1. 建立学习小组

找1-2个同样在学习大模型的伙伴: - 互相讨论不懂的概念 - 互相review代码 - 分享学习心得

2. 写学习笔记

每学完一个概念,用自己的话写下来: - 这个概念是什么? - 为什么需要它? - 它是如何工作的? - 代码如何实现?

3. 做项目

理论学习后,一定要动手: - 第一阶段:手写Transformer - 第二阶段:实现LoRA - 第三阶段:部署服务 - 第四阶段:复现论文

4. 关注社区


🌟 进阶方向

完成本教程后,你可以选择以下方向深入:

研究方向

  • 多模态大模型:CLIP, LLaVA, GPT-4V
  • 长上下文:RAG, 位置编码外推
  • 模型架构:Mamba, RWKV, RetNet
  • 对齐技术:RLHF, DPO, 安全对齐

工程方向

  • 推理优化:vLLM, TensorRT-LLM
  • 分布式训练:Megatron, DeepSpeed
  • 模型压缩:量化、剪枝、蒸馏
  • AI基础设施:K8s部署、服务化

应用方向

  • 智能体(Agent):ReAct, Tool Learning
  • 代码生成:CodeLlama, StarCoder
  • 科学计算:AlphaFold, 材料发现

📜 许可

本教程采用 MIT License 开源协议。

欢迎: - 自由使用和修改 - 提交Issue和PR - 分享给更多人


🙏 致谢

感谢以下优秀资源对本教程的启发:


🔗 相关章节

前置知识

应用实战

相关技术

扩展阅读


🚀 开始你的学习之旅

准备好了吗?让我们从 00-学习指南 开始!

记住:每一个你亲手解决的bug,每一次你独立推导的公式,每一行你手写的代码,都在让你变得更强。

祝学习愉快!🎉


最后更新日期:2026-02-20 适用版本:LLM学习教程 v2026.06