大模型（LLM）系统学习指南¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

写给曾经的"调包侠"：如果你也和我一样，习惯了让AI写代码，离开AI就寸步难行——那么这份指南就是为你准备的。我们要做的不是"学会调用API"，而是真正理解大模型是如何工作的。

为什么要学习大模型？¶

大语言模型（Large Language Model, LLM）是近年来AI领域最重要的突破。从ChatGPT到Claude，从开源的Llama到国内的ChatGLM，这些模型正在改变我们与计算机交互的方式。

但更重要的是：理解大模型，是理解现代AI的必经之路。

学习前的自我检查¶

你需要具备的基础¶

✅ 必须掌握（如果你已经学过ML/DL，这些应该都有）： - Python编程基础 - PyTorch或TensorFlow基础使用 - 深度学习基础（神经网络、反向传播、优化器） - 基本的线性代数和概率论

⚠️ 建议掌握（如果没有，学习过程中会补充）： - Transformer架构的基本概念 - 注意力机制的原理 - 基本的Linux命令

心态准备¶

学习大模型不是一件容易的事。你会遇到： - 复杂的数学公式 - 需要大量计算资源的实验 - 看似永远无法调通的bug

但请记住：每一次亲手解决问题的经历，都会让你离"独立开发者"更近一步。

学习路线图¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                        大模型学习路线图                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一阶段：基础巩固（2-3周）                                      │
│  ├── Transformer架构深入理解                                     │
│  ├── 自注意力机制数学推导                                        │
│  ├── 位置编码与变体                                              │
│  └── 🎯 里程碑：手写完整Transformer（不依赖模板！）               │
│                                                                 │
│  第二阶段：大模型核心技术（3-4周）                                │
│  ├── 模型并行与分布式训练                                        │
│  ├── 高效微调技术（LoRA、QLoRA）                                 │
│  ├── 推理优化（KV Cache、量化）                                  │
│  ├── 长上下文处理技术                                            │
│  └── 🎯 里程碑：实现LoRA并微调一个真实模型                       │
│                                                                 │
│  第三阶段：系统与工程（3-4周）                                    │
│  ├── 数据工程与预处理                                            │
│  ├── 训练基础设施（混合精度、梯度累积）                          │
│  ├── 推理服务部署（vLLM、TGI）                                   │
│  ├── 对齐技术（RLHF、DPO）                                       │
│  └── 🎯 里程碑：部署本地大模型API服务                            │
│                                                                 │
│  第四阶段：前沿探索（持续）                                       │
│  ├── 多模态大模型                                                │
│  ├── 智能体（Agent）系统                                         │
│  ├── RAG与长文本处理                                             │
│  └── 模型架构创新（Mamba、RWKV）                                 │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

核心学习原则¶

1. 先思考，后验证¶

遇到问题时，先自己思考至少10分钟，写下你的想法和可能的解决方案，然后再去查资料或问AI。

为什么？ 这个过程会强迫你的大脑建立神经连接。直接问AI得到答案，你的大脑什么都没做。

2. 手写代码，拒绝复制粘贴¶

这是最重要的一点。

当你学习一个算法时： - ❌ 不要：打开AI助手，说"帮我实现Transformer" - ✅ 要：打开一个空白文件，从import torch开始，一行一行自己写

你会写得很慢，会出错，会调试很久——但这正是学习的过程。

3. 数学推导，不要只看¶

看到公式时，拿起笔和纸，自己推导一遍。例如： - 注意力分数的计算 - 反向传播的梯度推导 - 损失函数的数学形式

4. 实验验证每个概念¶

每个理论概念都要有对应的代码实验。例如： - 学了位置编码？画个图看看不同位置的编码是什么样的 - 学了注意力？可视化一下注意力权重矩阵 - 学了量化？对比一下FP32和INT8的精度差异

5. 教给别人¶

尝试用自己的话解释概念。可以： - 写学习笔记 - 在论坛回答问题 - 给同学/朋友讲解

如果你不能简单解释清楚，说明你还没真正理解。

每个阶段的学习方法¶

第一阶段：基础巩固¶

目标：建立对Transformer的深入理解

学习方法： 1. 阅读论文《Attention Is All You Need》（先读摘要、结论，再读方法） 2. 跟着教程理解每个组件 3. 关键：关闭所有AI助手，手写一个Transformer 4. 训练一个字符级语言模型（生成莎士比亚风格的文本）

检验标准： - 能手写出Transformer的核心代码（不查资料） - 能解释清楚为什么需要位置编码 - 能画出注意力权重的热力图

第二阶段：核心技术¶

目标：理解现代大模型的关键技术

学习方法： 1. 学习LoRA论文，理解低秩适配的原理 2. 动手实现LoRA（从空白文件开始） 3. 在一个小数据集上微调BERT 4. 学习推理优化技术，对比不同方法的性能

检验标准： - 能解释LoRA为什么能减少显存占用 - 能实现LoRA的前向和反向传播 - 能部署一个优化后的推理服务

第三阶段：系统与工程¶

目标：理解大模型作为一个系统的全貌

学习方法： 1. 学习数据工程的最佳实践 2. 写一个完整的训练脚本（包含日志、检查点、恢复） 3. 学习vLLM等推理框架的原理 4. 理解RLHF的训练流程

检验标准： - 能独立搭建一个训练pipeline - 能部署一个高并发推理服务 - 能理解DPO和PPO的区别

第四阶段：前沿探索¶

目标：了解当前研究前沿，找到自己的兴趣点

学习方法： 1. 阅读最新的论文（arXiv每日更新） 2. 复现感兴趣的论文 3. 参与开源项目 4. 尝试自己的改进想法

推荐UP主（在B站搜索其名称即可找到）： - 李沐 - 「动手学深度学习」系列、论文精读（Transformer、GPT、BERT等） - 跟李沐学AI - 大模型相关论文逐段精读 - 3Blue1Brown - 神经网络和数学直觉可视化 - 同济子豪兄 - 深度学习和大模型入门讲解

推荐搜索关键词： - "Transformer 架构详解"、"Attention 机制原理" - "LoRA 微调教程"、"RLHF DPO 对齐" - "vLLM 部署教程"、"大模型推理优化"

国内MOOC平台¶

💡 以下为推荐平台，请在平台内搜索相关课程名称，获取最新开课信息。

中国大学MOOC - 搜索"自然语言处理"、"深度学习"
学堂在线 - 搜索"深度学习"、"人工智能"
网易公开课 - 搜索"机器学习"、"大模型"

英文视频教程¶

YouTube优质频道¶

Andrej Karpathy - 从零开始实现GPT
3Blue1Brown - 神经网络可视化理解
StatQuest with Josh Starmer - 机器学习概念直观解释
Hugging Face - NLP和大模型官方教程
Yannic Kilcher - 论文解读和前沿技术

💻 在线练习平台¶

LLM学习实践平台¶

Hugging Face Course - NLP和Transformers实践课程，LLM学习必备
Papers with Code - LLM相关论文代码实现和SOTA对比
Google Colab - 免费GPU环境，适合Transformer实验
Kaggle - NLP竞赛和LLM相关数据集

LLM相关课程¶

Fast.ai - 实用导向的深度学习和NLP课程
Coursera - 搜索"Natural Language Processing Specialization"等课程
Udacity - NLP和Transformer纳米学位项目
edX - Stanford CS224n等NLP免费课程

实践项目建议¶

项目1：手写Transformer（第一阶段）¶

目标：从零实现一个Transformer模型

要求： - 不使用任何预定义的Transformer模块 - 自己实现多头注意力 - 自己实现位置编码 - 训练一个字符级语言模型

参考输出：能生成莎士比亚风格的文本

项目2：LoRA微调（第二阶段）¶

目标：实现LoRA并应用到真实模型

要求： - 自己实现LoRA层 - 在GLUE数据集上微调BERT - 对比全量微调和LoRA的效果

项目3：本地推理服务（第三阶段）¶

目标：部署一个本地大模型API服务

要求： - 支持并发请求 - 实现流式输出 - 支持量化推理 - 有简单的Web界面

常见陷阱与如何避免¶

陷阱1：追求大模型，忽视基础¶

表现：一上来就想训练7B参数的模型

解决：先在小模型上验证你的想法，再扩大规模

陷阱2：只看不动手¶

表现：看了很多论文和教程，但一行代码都没写

解决：每学一个概念，就写代码验证

陷阱3：过度依赖AI助手¶

表现：一遇到问题就问AI，从不自己思考

解决：设定"思考时间"，强制自己先想10分钟

陷阱4：贪多求全¶

表现：同时学多个方向，结果都不深入

解决：一个阶段专注于一个主题，彻底搞懂再往下

陷阱5：忽视工程能力¶

表现：只关注算法，不关注代码质量和系统设计

解决：学习软件工程最佳实践，写好文档和测试

学习进度检查表¶

第一阶段检查点¶

能手写Transformer的核心组件
能解释自注意力的计算过程
能画出位置编码的图像
训练了一个能用的字符级语言模型
能独立调试模型训练中的问题

第二阶段检查点¶

实现了LoRA的前向和反向传播
能解释为什么LoRA节省显存
成功微调了一个预训练模型
实现了KV Cache优化
对比了不同量化方法的性能

第三阶段检查点¶

搭建了完整的数据处理pipeline
写了包含日志和检查点的训练脚本
部署了本地推理服务
理解了RLHF的训练流程
能优化模型的推理性能

写在最后¶

学习大模型是一段漫长的旅程。你会遇到挫折，会有想要放弃的时刻，会有"为什么我就是不懂"的沮丧。

但请记住：每一个你亲手解决的bug，每一次你独立推导的公式，每一行你手写的代码，都在让你变得更强。

大模型时代，真正的竞争力不是"会用AI写代码"，而是"理解代码背后的原理"。

让我们一起，从"调包侠"成长为真正的工程师。

下一步：开始第一阶段：基础巩固

📚 参考文献¶

核心论文¶

基础架构¶

Attention Is All You Need - Vaswani et al., 2017
Transformer开山之作，奠定了现代大模型的基础
BERT: Pre-training of Deep Bidirectional Transformers - Devlin et al., 2018
双向预训练模型，NLP领域的里程碑
Improving Language Understanding by Generative Pre-Training - Radford et al., 2018
GPT-1，生成式预训练的开端
Language Models are Few-Shot Learners - Brown et al., 2020
GPT-3，展示了大规模语言模型的强大能力
Training Compute-Optimal Large Language Models - Hoffmann et al., 2022
Chinchilla论文，提出了计算优化的缩放定律

微调技术¶

LoRA: Low-Rank Adaptation of Large Language Models - Hu et al., 2021
低秩适配技术，高效微调的核心方法
QLoRA: Efficient Finetuning of Quantized LLMs - Dettmers et al., 2023
量化感知的LoRA，进一步降低显存需求
Training Language Models to Follow Instructions with Human Feedback - Ouyang et al., 2022
InstructGPT，RLHF对齐技术的奠基之作
Direct Preference Optimization: Your Language Model is Secretly a Reward Model - Rafailov et al., 2023
DPO，简化RLHF流程的新方法

推理优化¶

vLLM: Easy, Fast, and Cheap LLM Serving - Kwon et al., 2023
- PagedAttention机制，高效推理服务框架
FlashAttention: Fast and Memory-Efficient Exact Attention - Dao et al., 2022
- FlashAttention，加速注意力计算的核心技术
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning - Dao, 2023
- FlashAttention-2，进一步优化并行性
Efficient Large Language Model Serving on GPUs - Liu et al., 2023
- Orca框架，GPU上的高效LLM服务

长上下文¶

Longformer: The Long-Document Transformer - Beltagy et al., 2020
- 处理长文档的Transformer变体
Scaling Laws for Neural Language Models - Kaplan et al., 2020
- 神经语言模型的缩放定律

技术博客¶

中文博客¶

Hugging Face 中文博客 - Hugging Face官方中文博客
李沐：动手学深度学习 - 深度学习系统教程
Jay Alammar的博客 - 可视化理解Transformer和NLP概念
Lilian Weng的博客 - 强化学习、NLP等深度学习主题
Sebastian Ruder的博客 - NLP和深度学习研究总结

英文博客¶

The Gradient - AI研究社区博客
OpenAI Research - OpenAI官方研究博客
Google AI Blog - Google AI研究博客
DeepMind Blog - DeepMind研究博客
Distill.pub - 可视化机器学习研究

开源项目¶

模型训练与微调¶

Hugging Face Transformers - 最流行的Transformer库
PEFT (Parameter-Efficient Fine-Tuning) - 参数高效微调库
bitsandbytes - 量化和优化工具
DeepSpeed - 分布式训练框架
Megatron-LM - NVIDIA的大规模训练框架

推理与服务¶

vLLM - 高效LLM推理服务
Text Generation Inference (TGI) - Hugging Face的推理服务
llama.cpp - CPU推理优化
AutoGPTQ - GPTQ量化工具
AWQ (Activation-aware Weight Quantization) - 激活感知量化

应用开发¶

LangChain - LLM应用开发框架
LlamaIndex - 数据框架，构建LLM应用
AutoGPT - 自主AI智能体
Semantic Kernel - 微软的LLM应用开发SDK

参考书籍¶

中文书籍¶

《深度学习》- Ian Goodfellow、Yoshua Bengio、Aaron Courville 著，人民邮电出版社
深度学习领域的"圣经"，系统全面
《动手学深度学习》- 李沐、阿斯顿·张著，人民邮电出版社
实践导向，配有PyTorch代码
《自然语言处理综论》- Daniel Jurafsky、James H. Martin 著，电子工业出版社
NLP领域的经典教材
《统计学习方法》- 李航著，清华大学出版社
机器学习基础理论的权威教材
《机器学习》- 周志华著，清华大学出版社
"西瓜书"，国内机器学习经典教材
《强化学习》- Richard S. Sutton、Andrew G. Barto 著，电子工业出版社
强化学习领域的奠基之作
《Python深度学习》- François Chollet 著，人民邮电出版社
Keras作者撰写的深度学习实践指南
《图解深度学习》- [日] 斋藤康毅著，人民邮电出版社
图文并茂，适合入门

英文书籍¶

"Deep Learning" - Ian Goodfellow, Yoshua Bengio, Aaron Courville
MIT Press，深度学习领域的权威教材
"Speech and Language Processing" - Daniel Jurafsky, James H. Martin
Stanford，NLP领域的经典教材
"Neural Networks and Deep Learning" - Michael Nielsen
免费在线教材，通俗易懂
"Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" - Aurélien Géron
O'Reilly，实践导向的机器学习指南
"Natural Language Processing with Transformers" - Lewis Tunstall, Leandro von Werra, Thomas Wolf
O'Reilly，Transformer实战指南
"Reinforcement Learning: An Introduction" - Richard S. Sutton, Andrew G. Barto
MIT Press，强化学习奠基之作
"Python Machine Learning" - Sebastian Raschka, Vahid Mirjalili
Packt，Python机器学习实践
"Designing Machine Learning Systems" - Chip Huyen
O'Reilly，机器学习系统设计

在线课程¶

中文课程¶

李沐：动手学深度学习 - 系统的深度学习教程（含配套B站视频，搜索"李沐动手学深度学习"）
Andrej Karpathy: Neural Networks: Zero to Hero - 从零实现GPT（B站搜索"Karpathy"可找到中文字幕版）
吴恩达机器学习/深度学习课程 - B站搜索"吴恩达机器学习"或"吴恩达深度学习"

英文课程¶

Stanford CS224N: NLP with Deep Learning - 斯坦福NLP课程
Stanford CS324: Large Language Models - 斯坦福大模型课程
Princeton COS597G: Understanding Large Language Models - 普林斯顿LLM课程
Fast.ai Practical Deep Learning for Coders - 实用深度学习
Deep Learning Specialization (Coursera) - 吴恩达深度学习专项

社区资源¶

中文社区¶

知乎深度学习话题 - 深度学习讨论
机器之心 - AI行业媒体
量子位 - AI前沿资讯
Datawhale - 开源学习社区
Hugging Face 中文社区 - 模型和数据集分享

英文社区¶

Papers with Code - 论文与代码实现
arXiv.org - 最新AI论文
Machine Learning Subreddit - 机器学习讨论
Hugging Face - 模型和数据集平台
Weights & Biases - 实验追踪和可视化

论坛与问答¶

Stack Overflow AI/ML标签 - 技术问答
PyTorch Forum - PyTorch官方论坛
Hugging Face Forum - Hugging Face讨论区
Reddit r/MachineLearning - 机器学习讨论

邮件列表与Slack¶

Distill.pub - 可视化研究
OpenAI Community - OpenAI社区
LangChain Discord - LangChain社区

最后更新日期：2026-02-12 适用版本：LLM学习教程 v2026