跳转至

大模型(LLM)系统学习指南

⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。

LLM学习路线总览图

写给曾经的"调包侠":如果你也和我一样,习惯了让AI写代码,离开AI就寸步难行——那么这份指南就是为你准备的。我们要做的不是"学会调用API",而是真正理解大模型是如何工作的。


为什么要学习大模型?

大语言模型(Large Language Model, LLM)是近年来AI领域最重要的突破。从ChatGPT到Claude,从开源的Llama到国内的ChatGLM,这些模型正在改变我们与计算机交互的方式。

但更重要的是:理解大模型,是理解现代AI的必经之路


学习前的自我检查

你需要具备的基础

必须掌握(如果你已经学过ML/DL,这些应该都有): - Python编程基础 - PyTorch或TensorFlow基础使用 - 深度学习基础(神经网络、反向传播、优化器) - 基本的线性代数和概率论

⚠️ 建议掌握(如果没有,学习过程中会补充): - Transformer架构的基本概念 - 注意力机制的原理 - 基本的Linux命令

心态准备

学习大模型不是一件容易的事。你会遇到: - 复杂的数学公式 - 需要大量计算资源的实验 - 看似永远无法调通的bug

但请记住:每一次亲手解决问题的经历,都会让你离"独立开发者"更近一步。


学习路线图

Text Only
┌─────────────────────────────────────────────────────────────────┐
│                        大模型学习路线图                          │
├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一阶段:基础巩固(2-3周)                                      │
│  ├── Transformer架构深入理解                                     │
│  ├── 自注意力机制数学推导                                        │
│  ├── 位置编码与变体                                              │
│  └── 🎯 里程碑:手写完整Transformer(不依赖模板!)               │
│                                                                 │
│  第二阶段:大模型核心技术(3-4周)                                │
│  ├── 模型并行与分布式训练                                        │
│  ├── 高效微调技术(LoRA、QLoRA)                                 │
│  ├── 推理优化(KV Cache、量化)                                  │
│  ├── 长上下文处理技术                                            │
│  └── 🎯 里程碑:实现LoRA并微调一个真实模型                       │
│                                                                 │
│  第三阶段:系统与工程(3-4周)                                    │
│  ├── 数据工程与预处理                                            │
│  ├── 训练基础设施(混合精度、梯度累积)                          │
│  ├── 推理服务部署(vLLM、TGI)                                   │
│  ├── 对齐技术(RLHF、DPO)                                       │
│  └── 🎯 里程碑:部署本地大模型API服务                            │
│                                                                 │
│  第四阶段:前沿探索(持续)                                       │
│  ├── 多模态大模型                                                │
│  ├── 智能体(Agent)系统                                         │
│  ├── RAG与长文本处理                                             │
│  └── 模型架构创新(Mamba、RWKV)                                 │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

核心学习原则

1. 先思考,后验证

遇到问题时,先自己思考至少10分钟,写下你的想法和可能的解决方案,然后再去查资料或问AI。

为什么? 这个过程会强迫你的大脑建立神经连接。直接问AI得到答案,你的大脑什么都没做。

2. 手写代码,拒绝复制粘贴

这是最重要的一点

当你学习一个算法时: - ❌ 不要:打开AI助手,说"帮我实现Transformer" - ✅ 要:打开一个空白文件,从import torch开始,一行一行自己写

你会写得很慢,会出错,会调试很久——但这正是学习的过程。

3. 数学推导,不要只看

看到公式时,拿起笔和纸,自己推导一遍。例如: - 注意力分数的计算 - 反向传播的梯度推导 - 损失函数的数学形式

4. 实验验证每个概念

每个理论概念都要有对应的代码实验。例如: - 学了位置编码?画个图看看不同位置的编码是什么样的 - 学了注意力?可视化一下注意力权重矩阵 - 学了量化?对比一下FP32和INT8的精度差异

5. 教给别人

尝试用自己的话解释概念。可以: - 写学习笔记 - 在论坛回答问题 - 给同学/朋友讲解

如果你不能简单解释清楚,说明你还没真正理解。


每个阶段的学习方法

第一阶段:基础巩固

目标:建立对Transformer的深入理解

学习方法: 1. 阅读论文《Attention Is All You Need》(先读摘要、结论,再读方法) 2. 跟着教程理解每个组件 3. 关键:关闭所有AI助手,手写一个Transformer 4. 训练一个字符级语言模型(生成莎士比亚风格的文本)

检验标准: - 能手写出Transformer的核心代码(不查资料) - 能解释清楚为什么需要位置编码 - 能画出注意力权重的热力图

第二阶段:核心技术

目标:理解现代大模型的关键技术

学习方法: 1. 学习LoRA论文,理解低秩适配的原理 2. 动手实现LoRA(从空白文件开始) 3. 在一个小数据集上微调BERT 4. 学习推理优化技术,对比不同方法的性能

检验标准: - 能解释LoRA为什么能减少显存占用 - 能实现LoRA的前向和反向传播 - 能部署一个优化后的推理服务

第三阶段:系统与工程

目标:理解大模型作为一个系统的全貌

学习方法: 1. 学习数据工程的最佳实践 2. 写一个完整的训练脚本(包含日志、检查点、恢复) 3. 学习vLLM等推理框架的原理 4. 理解RLHF的训练流程

检验标准: - 能独立搭建一个训练pipeline - 能部署一个高并发推理服务 - 能理解DPO和PPO的区别

第四阶段:前沿探索

目标:了解当前研究前沿,找到自己的兴趣点

学习方法: 1. 阅读最新的论文(arXiv每日更新) 2. 复现感兴趣的论文 3. 参与开源项目 4. 尝试自己的改进想法


推荐学习资源

必读论文

基础: 1. Attention Is All You Need - Transformer开山之作 2. BERT: Pre-training of Deep Bidirectional Transformers 3. Language Models are Few-Shot Learners - GPT-3

核心技术: 4. LoRA: Low-Rank Adaptation of Large Language Models 5. Training Language Models to Follow Instructions - InstructGPT 6. Direct Preference Optimization - DPO

推理优化: 7. vLLM: Easy, Fast, and Cheap LLM Serving 8. FlashAttention: Fast and Memory-Efficient Exact Attention

推荐课程

  • Stanford CS224N: Natural Language Processing with Deep Learning
  • Stanford CS324: Large Language Models
  • Princeton COS597G: Understanding Large Language Models

推荐博客和教程


🎥 视频教程链接

中文视频教程

B站推荐

💡 以下为推荐的UP主和搜索关键词,请在B站直接搜索获取最新内容。

推荐UP主(在B站搜索其名称即可找到): - 李沐 - 「动手学深度学习」系列、论文精读(Transformer、GPT、BERT等) - 跟李沐学AI - 大模型相关论文逐段精读 - 3Blue1Brown - 神经网络和数学直觉可视化 - 同济子豪兄 - 深度学习和大模型入门讲解

推荐搜索关键词: - "Transformer 架构 详解"、"Attention 机制 原理" - "LoRA 微调 教程"、"RLHF DPO 对齐" - "vLLM 部署 教程"、"大模型推理优化"

国内MOOC平台

💡 以下为推荐平台,请在平台内搜索相关课程名称,获取最新开课信息。

英文视频教程

YouTube优质频道

Coursera课程

Udemy课程

edX课程


💻 在线练习平台

LLM学习实践平台

LLM相关课程

  • Fast.ai - 实用导向的深度学习和NLP课程
  • Coursera - 搜索"Natural Language Processing Specialization"等课程
  • Udacity - NLP和Transformer纳米学位项目
  • edX - Stanford CS224n等NLP免费课程

实践项目建议

项目1:手写Transformer(第一阶段)

目标:从零实现一个Transformer模型

要求: - 不使用任何预定义的Transformer模块 - 自己实现多头注意力 - 自己实现位置编码 - 训练一个字符级语言模型

参考输出:能生成莎士比亚风格的文本

项目2:LoRA微调(第二阶段)

目标:实现LoRA并应用到真实模型

要求: - 自己实现LoRA层 - 在GLUE数据集上微调BERT - 对比全量微调和LoRA的效果

项目3:本地推理服务(第三阶段)

目标:部署一个本地大模型API服务

要求: - 支持并发请求 - 实现流式输出 - 支持量化推理 - 有简单的Web界面


常见陷阱与如何避免

陷阱1:追求大模型,忽视基础

表现:一上来就想训练7B参数的模型

解决:先在小模型上验证你的想法,再扩大规模

陷阱2:只看不动手

表现:看了很多论文和教程,但一行代码都没写

解决:每学一个概念,就写代码验证

陷阱3:过度依赖AI助手

表现:一遇到问题就问AI,从不自己思考

解决:设定"思考时间",强制自己先想10分钟

陷阱4:贪多求全

表现:同时学多个方向,结果都不深入

解决:一个阶段专注于一个主题,彻底搞懂再往下

陷阱5:忽视工程能力

表现:只关注算法,不关注代码质量和系统设计

解决:学习软件工程最佳实践,写好文档和测试


学习进度检查表

第一阶段检查点

  • 能手写Transformer的核心组件
  • 能解释自注意力的计算过程
  • 能画出位置编码的图像
  • 训练了一个能用的字符级语言模型
  • 能独立调试模型训练中的问题

第二阶段检查点

  • 实现了LoRA的前向和反向传播
  • 能解释为什么LoRA节省显存
  • 成功微调了一个预训练模型
  • 实现了KV Cache优化
  • 对比了不同量化方法的性能

第三阶段检查点

  • 搭建了完整的数据处理pipeline
  • 写了包含日志和检查点的训练脚本
  • 部署了本地推理服务
  • 理解了RLHF的训练流程
  • 能优化模型的推理性能

写在最后

学习大模型是一段漫长的旅程。你会遇到挫折,会有想要放弃的时刻,会有"为什么我就是不懂"的沮丧。

但请记住:每一个你亲手解决的bug,每一次你独立推导的公式,每一行你手写的代码,都在让你变得更强

大模型时代,真正的竞争力不是"会用AI写代码",而是"理解代码背后的原理"。

让我们一起,从"调包侠"成长为真正的工程师。


下一步:开始第一阶段:基础巩固


📚 参考文献

核心论文

基础架构

  1. Attention Is All You Need - Vaswani et al., 2017
  2. Transformer开山之作,奠定了现代大模型的基础

  3. BERT: Pre-training of Deep Bidirectional Transformers - Devlin et al., 2018

  4. 双向预训练模型,NLP领域的里程碑

  5. Improving Language Understanding by Generative Pre-Training - Radford et al., 2018

  6. GPT-1,生成式预训练的开端

  7. Language Models are Few-Shot Learners - Brown et al., 2020

  8. GPT-3,展示了大规模语言模型的强大能力

  9. Training Compute-Optimal Large Language Models - Hoffmann et al., 2022

  10. Chinchilla论文,提出了计算优化的缩放定律

微调技术

  1. LoRA: Low-Rank Adaptation of Large Language Models - Hu et al., 2021
  2. 低秩适配技术,高效微调的核心方法

  3. QLoRA: Efficient Finetuning of Quantized LLMs - Dettmers et al., 2023

  4. 量化感知的LoRA,进一步降低显存需求

  5. Training Language Models to Follow Instructions with Human Feedback - Ouyang et al., 2022

  6. InstructGPT,RLHF对齐技术的奠基之作

  7. Direct Preference Optimization: Your Language Model is Secretly a Reward Model - Rafailov et al., 2023

  8. DPO,简化RLHF流程的新方法

推理优化

  1. vLLM: Easy, Fast, and Cheap LLM Serving - Kwon et al., 2023

    • PagedAttention机制,高效推理服务框架
  2. FlashAttention: Fast and Memory-Efficient Exact Attention - Dao et al., 2022

    • FlashAttention,加速注意力计算的核心技术
  3. FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning - Dao, 2023

    • FlashAttention-2,进一步优化并行性
  4. Efficient Large Language Model Serving on GPUs - Liu et al., 2023

    • Orca框架,GPU上的高效LLM服务

长上下文

  1. Longformer: The Long-Document Transformer - Beltagy et al., 2020

    • 处理长文档的Transformer变体
  2. Scaling Laws for Neural Language Models - Kaplan et al., 2020

    • 神经语言模型的缩放定律

技术博客

中文博客

英文博客

开源项目

模型训练与微调

推理与服务

应用开发

参考书籍

中文书籍

  1. 《深度学习》- Ian Goodfellow、Yoshua Bengio、Aaron Courville 著,人民邮电出版社
  2. 深度学习领域的"圣经",系统全面

  3. 《动手学深度学习》- 李沐、阿斯顿·张 著,人民邮电出版社

  4. 实践导向,配有PyTorch代码

  5. 《自然语言处理综论》- Daniel Jurafsky、James H. Martin 著,电子工业出版社

  6. NLP领域的经典教材

  7. 《统计学习方法》- 李航 著,清华大学出版社

  8. 机器学习基础理论的权威教材

  9. 《机器学习》- 周志华 著,清华大学出版社

  10. "西瓜书",国内机器学习经典教材

  11. 《强化学习》- Richard S. Sutton、Andrew G. Barto 著,电子工业出版社

  12. 强化学习领域的奠基之作

  13. 《Python深度学习》- François Chollet 著,人民邮电出版社

  14. Keras作者撰写的深度学习实践指南

  15. 《图解深度学习》- [日] 斋藤康毅 著,人民邮电出版社

  16. 图文并茂,适合入门

英文书籍

  1. "Deep Learning" - Ian Goodfellow, Yoshua Bengio, Aaron Courville
  2. MIT Press,深度学习领域的权威教材

  3. "Speech and Language Processing" - Daniel Jurafsky, James H. Martin

  4. Stanford,NLP领域的经典教材

  5. "Neural Networks and Deep Learning" - Michael Nielsen

  6. 免费在线教材,通俗易懂

  7. "Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" - Aurélien Géron

  8. O'Reilly,实践导向的机器学习指南

  9. "Natural Language Processing with Transformers" - Lewis Tunstall, Leandro von Werra, Thomas Wolf

  10. O'Reilly,Transformer实战指南

  11. "Reinforcement Learning: An Introduction" - Richard S. Sutton, Andrew G. Barto

  12. MIT Press,强化学习奠基之作

  13. "Python Machine Learning" - Sebastian Raschka, Vahid Mirjalili

  14. Packt,Python机器学习实践

  15. "Designing Machine Learning Systems" - Chip Huyen

  16. O'Reilly,机器学习系统设计

在线课程

中文课程

英文课程

社区资源

中文社区

英文社区

论坛与问答

邮件列表与Slack


最后更新日期:2026-02-12 适用版本:LLM学习教程 v2026