大模型(LLM)系统学习指南¶
⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。
写给曾经的"调包侠":如果你也和我一样,习惯了让AI写代码,离开AI就寸步难行——那么这份指南就是为你准备的。我们要做的不是"学会调用API",而是真正理解大模型是如何工作的。
为什么要学习大模型?¶
大语言模型(Large Language Model, LLM)是近年来AI领域最重要的突破。从ChatGPT到Claude,从开源的Llama到国内的ChatGLM,这些模型正在改变我们与计算机交互的方式。
但更重要的是:理解大模型,是理解现代AI的必经之路。
学习前的自我检查¶
你需要具备的基础¶
✅ 必须掌握(如果你已经学过ML/DL,这些应该都有): - Python编程基础 - PyTorch或TensorFlow基础使用 - 深度学习基础(神经网络、反向传播、优化器) - 基本的线性代数和概率论
⚠️ 建议掌握(如果没有,学习过程中会补充): - Transformer架构的基本概念 - 注意力机制的原理 - 基本的Linux命令
心态准备¶
学习大模型不是一件容易的事。你会遇到: - 复杂的数学公式 - 需要大量计算资源的实验 - 看似永远无法调通的bug
但请记住:每一次亲手解决问题的经历,都会让你离"独立开发者"更近一步。
学习路线图¶
┌─────────────────────────────────────────────────────────────────┐
│ 大模型学习路线图 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 第一阶段:基础巩固(2-3周) │
│ ├── Transformer架构深入理解 │
│ ├── 自注意力机制数学推导 │
│ ├── 位置编码与变体 │
│ └── 🎯 里程碑:手写完整Transformer(不依赖模板!) │
│ │
│ 第二阶段:大模型核心技术(3-4周) │
│ ├── 模型并行与分布式训练 │
│ ├── 高效微调技术(LoRA、QLoRA) │
│ ├── 推理优化(KV Cache、量化) │
│ ├── 长上下文处理技术 │
│ └── 🎯 里程碑:实现LoRA并微调一个真实模型 │
│ │
│ 第三阶段:系统与工程(3-4周) │
│ ├── 数据工程与预处理 │
│ ├── 训练基础设施(混合精度、梯度累积) │
│ ├── 推理服务部署(vLLM、TGI) │
│ ├── 对齐技术(RLHF、DPO) │
│ └── 🎯 里程碑:部署本地大模型API服务 │
│ │
│ 第四阶段:前沿探索(持续) │
│ ├── 多模态大模型 │
│ ├── 智能体(Agent)系统 │
│ ├── RAG与长文本处理 │
│ └── 模型架构创新(Mamba、RWKV) │
│ │
└─────────────────────────────────────────────────────────────────┘
核心学习原则¶
1. 先思考,后验证¶
遇到问题时,先自己思考至少10分钟,写下你的想法和可能的解决方案,然后再去查资料或问AI。
为什么? 这个过程会强迫你的大脑建立神经连接。直接问AI得到答案,你的大脑什么都没做。
2. 手写代码,拒绝复制粘贴¶
这是最重要的一点。
当你学习一个算法时: - ❌ 不要:打开AI助手,说"帮我实现Transformer" - ✅ 要:打开一个空白文件,从import torch开始,一行一行自己写
你会写得很慢,会出错,会调试很久——但这正是学习的过程。
3. 数学推导,不要只看¶
看到公式时,拿起笔和纸,自己推导一遍。例如: - 注意力分数的计算 - 反向传播的梯度推导 - 损失函数的数学形式
4. 实验验证每个概念¶
每个理论概念都要有对应的代码实验。例如: - 学了位置编码?画个图看看不同位置的编码是什么样的 - 学了注意力?可视化一下注意力权重矩阵 - 学了量化?对比一下FP32和INT8的精度差异
5. 教给别人¶
尝试用自己的话解释概念。可以: - 写学习笔记 - 在论坛回答问题 - 给同学/朋友讲解
如果你不能简单解释清楚,说明你还没真正理解。
每个阶段的学习方法¶
第一阶段:基础巩固¶
目标:建立对Transformer的深入理解
学习方法: 1. 阅读论文《Attention Is All You Need》(先读摘要、结论,再读方法) 2. 跟着教程理解每个组件 3. 关键:关闭所有AI助手,手写一个Transformer 4. 训练一个字符级语言模型(生成莎士比亚风格的文本)
检验标准: - 能手写出Transformer的核心代码(不查资料) - 能解释清楚为什么需要位置编码 - 能画出注意力权重的热力图
第二阶段:核心技术¶
目标:理解现代大模型的关键技术
学习方法: 1. 学习LoRA论文,理解低秩适配的原理 2. 动手实现LoRA(从空白文件开始) 3. 在一个小数据集上微调BERT 4. 学习推理优化技术,对比不同方法的性能
检验标准: - 能解释LoRA为什么能减少显存占用 - 能实现LoRA的前向和反向传播 - 能部署一个优化后的推理服务
第三阶段:系统与工程¶
目标:理解大模型作为一个系统的全貌
学习方法: 1. 学习数据工程的最佳实践 2. 写一个完整的训练脚本(包含日志、检查点、恢复) 3. 学习vLLM等推理框架的原理 4. 理解RLHF的训练流程
检验标准: - 能独立搭建一个训练pipeline - 能部署一个高并发推理服务 - 能理解DPO和PPO的区别
第四阶段:前沿探索¶
目标:了解当前研究前沿,找到自己的兴趣点
学习方法: 1. 阅读最新的论文(arXiv每日更新) 2. 复现感兴趣的论文 3. 参与开源项目 4. 尝试自己的改进想法
推荐学习资源¶
必读论文¶
基础: 1. Attention Is All You Need - Transformer开山之作 2. BERT: Pre-training of Deep Bidirectional Transformers 3. Language Models are Few-Shot Learners - GPT-3
核心技术: 4. LoRA: Low-Rank Adaptation of Large Language Models 5. Training Language Models to Follow Instructions - InstructGPT 6. Direct Preference Optimization - DPO
推理优化: 7. vLLM: Easy, Fast, and Cheap LLM Serving 8. FlashAttention: Fast and Memory-Efficient Exact Attention
推荐课程¶
- Stanford CS224N: Natural Language Processing with Deep Learning
- Stanford CS324: Large Language Models
- Princeton COS597G: Understanding Large Language Models
推荐博客和教程¶
- The Illustrated Transformer - 可视化理解Transformer
- Andrej Karpathy的神经网络教程 - 从零开始实现神经网络
- Hugging Face NLP Course - 实践导向的NLP课程
🎥 视频教程链接¶
中文视频教程¶
B站推荐¶
💡 以下为推荐的UP主和搜索关键词,请在B站直接搜索获取最新内容。
推荐UP主(在B站搜索其名称即可找到): - 李沐 - 「动手学深度学习」系列、论文精读(Transformer、GPT、BERT等) - 跟李沐学AI - 大模型相关论文逐段精读 - 3Blue1Brown - 神经网络和数学直觉可视化 - 同济子豪兄 - 深度学习和大模型入门讲解
推荐搜索关键词: - "Transformer 架构 详解"、"Attention 机制 原理" - "LoRA 微调 教程"、"RLHF DPO 对齐" - "vLLM 部署 教程"、"大模型推理优化"
国内MOOC平台¶
💡 以下为推荐平台,请在平台内搜索相关课程名称,获取最新开课信息。
英文视频教程¶
YouTube优质频道¶
- Andrej Karpathy - 从零开始实现GPT
- 3Blue1Brown - 神经网络可视化理解
- StatQuest with Josh Starmer - 机器学习概念直观解释
- Hugging Face - NLP和大模型官方教程
- Yannic Kilcher - 论文解读和前沿技术
Coursera课程¶
- Deep Learning Specialization - 吴恩达深度学习专项课程
- Natural Language Processing Specialization - NLP专项课程
- Machine Learning Specialization - 机器学习专项课程
Udemy课程¶
- Complete Guide to LLMs - 大模型完整指南
- LangChain for LLM Application Development - LangChain应用开发
- PyTorch for Deep Learning - PyTorch深度学习
edX课程¶
- CS224N: NLP with Deep Learning - 斯坦福NLP课程
- MIT 6.S191: Introduction to Deep Learning - MIT深度学习入门
💻 在线练习平台¶
LLM学习实践平台¶
- Hugging Face Course - NLP和Transformers实践课程,LLM学习必备
- Papers with Code - LLM相关论文代码实现和SOTA对比
- Google Colab - 免费GPU环境,适合Transformer实验
- Kaggle - NLP竞赛和LLM相关数据集
LLM相关课程¶
- Fast.ai - 实用导向的深度学习和NLP课程
- Coursera - 搜索"Natural Language Processing Specialization"等课程
- Udacity - NLP和Transformer纳米学位项目
- edX - Stanford CS224n等NLP免费课程
实践项目建议¶
项目1:手写Transformer(第一阶段)¶
目标:从零实现一个Transformer模型
要求: - 不使用任何预定义的Transformer模块 - 自己实现多头注意力 - 自己实现位置编码 - 训练一个字符级语言模型
参考输出:能生成莎士比亚风格的文本
项目2:LoRA微调(第二阶段)¶
目标:实现LoRA并应用到真实模型
要求: - 自己实现LoRA层 - 在GLUE数据集上微调BERT - 对比全量微调和LoRA的效果
项目3:本地推理服务(第三阶段)¶
目标:部署一个本地大模型API服务
要求: - 支持并发请求 - 实现流式输出 - 支持量化推理 - 有简单的Web界面
常见陷阱与如何避免¶
陷阱1:追求大模型,忽视基础¶
表现:一上来就想训练7B参数的模型
解决:先在小模型上验证你的想法,再扩大规模
陷阱2:只看不动手¶
表现:看了很多论文和教程,但一行代码都没写
解决:每学一个概念,就写代码验证
陷阱3:过度依赖AI助手¶
表现:一遇到问题就问AI,从不自己思考
解决:设定"思考时间",强制自己先想10分钟
陷阱4:贪多求全¶
表现:同时学多个方向,结果都不深入
解决:一个阶段专注于一个主题,彻底搞懂再往下
陷阱5:忽视工程能力¶
表现:只关注算法,不关注代码质量和系统设计
解决:学习软件工程最佳实践,写好文档和测试
学习进度检查表¶
第一阶段检查点¶
- 能手写Transformer的核心组件
- 能解释自注意力的计算过程
- 能画出位置编码的图像
- 训练了一个能用的字符级语言模型
- 能独立调试模型训练中的问题
第二阶段检查点¶
- 实现了LoRA的前向和反向传播
- 能解释为什么LoRA节省显存
- 成功微调了一个预训练模型
- 实现了KV Cache优化
- 对比了不同量化方法的性能
第三阶段检查点¶
- 搭建了完整的数据处理pipeline
- 写了包含日志和检查点的训练脚本
- 部署了本地推理服务
- 理解了RLHF的训练流程
- 能优化模型的推理性能
写在最后¶
学习大模型是一段漫长的旅程。你会遇到挫折,会有想要放弃的时刻,会有"为什么我就是不懂"的沮丧。
但请记住:每一个你亲手解决的bug,每一次你独立推导的公式,每一行你手写的代码,都在让你变得更强。
大模型时代,真正的竞争力不是"会用AI写代码",而是"理解代码背后的原理"。
让我们一起,从"调包侠"成长为真正的工程师。
下一步:开始第一阶段:基础巩固
📚 参考文献¶
核心论文¶
基础架构¶
- Attention Is All You Need - Vaswani et al., 2017
-
Transformer开山之作,奠定了现代大模型的基础
-
BERT: Pre-training of Deep Bidirectional Transformers - Devlin et al., 2018
-
双向预训练模型,NLP领域的里程碑
-
Improving Language Understanding by Generative Pre-Training - Radford et al., 2018
-
GPT-1,生成式预训练的开端
-
Language Models are Few-Shot Learners - Brown et al., 2020
-
GPT-3,展示了大规模语言模型的强大能力
-
Training Compute-Optimal Large Language Models - Hoffmann et al., 2022
- Chinchilla论文,提出了计算优化的缩放定律
微调技术¶
- LoRA: Low-Rank Adaptation of Large Language Models - Hu et al., 2021
-
低秩适配技术,高效微调的核心方法
-
QLoRA: Efficient Finetuning of Quantized LLMs - Dettmers et al., 2023
-
量化感知的LoRA,进一步降低显存需求
-
Training Language Models to Follow Instructions with Human Feedback - Ouyang et al., 2022
-
InstructGPT,RLHF对齐技术的奠基之作
-
Direct Preference Optimization: Your Language Model is Secretly a Reward Model - Rafailov et al., 2023
- DPO,简化RLHF流程的新方法
推理优化¶
-
vLLM: Easy, Fast, and Cheap LLM Serving - Kwon et al., 2023
- PagedAttention机制,高效推理服务框架
-
FlashAttention: Fast and Memory-Efficient Exact Attention - Dao et al., 2022
- FlashAttention,加速注意力计算的核心技术
-
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning - Dao, 2023
- FlashAttention-2,进一步优化并行性
-
Efficient Large Language Model Serving on GPUs - Liu et al., 2023
- Orca框架,GPU上的高效LLM服务
长上下文¶
-
Longformer: The Long-Document Transformer - Beltagy et al., 2020
- 处理长文档的Transformer变体
-
Scaling Laws for Neural Language Models - Kaplan et al., 2020
- 神经语言模型的缩放定律
技术博客¶
中文博客¶
- Hugging Face 中文博客 - Hugging Face官方中文博客
- 李沐:动手学深度学习 - 深度学习系统教程
- Jay Alammar的博客 - 可视化理解Transformer和NLP概念
- Lilian Weng的博客 - 强化学习、NLP等深度学习主题
- Sebastian Ruder的博客 - NLP和深度学习研究总结
英文博客¶
- The Gradient - AI研究社区博客
- OpenAI Research - OpenAI官方研究博客
- Google AI Blog - Google AI研究博客
- DeepMind Blog - DeepMind研究博客
- Distill.pub - 可视化机器学习研究
开源项目¶
模型训练与微调¶
- Hugging Face Transformers - 最流行的Transformer库
- PEFT (Parameter-Efficient Fine-Tuning) - 参数高效微调库
- bitsandbytes - 量化和优化工具
- DeepSpeed - 分布式训练框架
- Megatron-LM - NVIDIA的大规模训练框架
推理与服务¶
- vLLM - 高效LLM推理服务
- Text Generation Inference (TGI) - Hugging Face的推理服务
- llama.cpp - CPU推理优化
- AutoGPTQ - GPTQ量化工具
- AWQ (Activation-aware Weight Quantization) - 激活感知量化
应用开发¶
- LangChain - LLM应用开发框架
- LlamaIndex - 数据框架,构建LLM应用
- AutoGPT - 自主AI智能体
- Semantic Kernel - 微软的LLM应用开发SDK
参考书籍¶
中文书籍¶
- 《深度学习》- Ian Goodfellow、Yoshua Bengio、Aaron Courville 著,人民邮电出版社
-
深度学习领域的"圣经",系统全面
-
《动手学深度学习》- 李沐、阿斯顿·张 著,人民邮电出版社
-
实践导向,配有PyTorch代码
-
《自然语言处理综论》- Daniel Jurafsky、James H. Martin 著,电子工业出版社
-
NLP领域的经典教材
-
《统计学习方法》- 李航 著,清华大学出版社
-
机器学习基础理论的权威教材
-
《机器学习》- 周志华 著,清华大学出版社
-
"西瓜书",国内机器学习经典教材
-
《强化学习》- Richard S. Sutton、Andrew G. Barto 著,电子工业出版社
-
强化学习领域的奠基之作
-
《Python深度学习》- François Chollet 著,人民邮电出版社
-
Keras作者撰写的深度学习实践指南
-
《图解深度学习》- [日] 斋藤康毅 著,人民邮电出版社
- 图文并茂,适合入门
英文书籍¶
- "Deep Learning" - Ian Goodfellow, Yoshua Bengio, Aaron Courville
-
MIT Press,深度学习领域的权威教材
-
"Speech and Language Processing" - Daniel Jurafsky, James H. Martin
-
Stanford,NLP领域的经典教材
-
"Neural Networks and Deep Learning" - Michael Nielsen
-
免费在线教材,通俗易懂
-
"Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow" - Aurélien Géron
-
O'Reilly,实践导向的机器学习指南
-
"Natural Language Processing with Transformers" - Lewis Tunstall, Leandro von Werra, Thomas Wolf
-
O'Reilly,Transformer实战指南
-
"Reinforcement Learning: An Introduction" - Richard S. Sutton, Andrew G. Barto
-
MIT Press,强化学习奠基之作
-
"Python Machine Learning" - Sebastian Raschka, Vahid Mirjalili
-
Packt,Python机器学习实践
-
"Designing Machine Learning Systems" - Chip Huyen
- O'Reilly,机器学习系统设计
在线课程¶
中文课程¶
- 李沐:动手学深度学习 - 系统的深度学习教程(含配套B站视频,搜索"李沐 动手学深度学习")
- Andrej Karpathy: Neural Networks: Zero to Hero - 从零实现GPT(B站搜索"Karpathy"可找到中文字幕版)
- 吴恩达机器学习/深度学习课程 - B站搜索"吴恩达 机器学习"或"吴恩达 深度学习"
英文课程¶
- Stanford CS224N: NLP with Deep Learning - 斯坦福NLP课程
- Stanford CS324: Large Language Models - 斯坦福大模型课程
- Princeton COS597G: Understanding Large Language Models - 普林斯顿LLM课程
- Fast.ai Practical Deep Learning for Coders - 实用深度学习
- Deep Learning Specialization (Coursera) - 吴恩达深度学习专项
社区资源¶
中文社区¶
- 知乎深度学习话题 - 深度学习讨论
- 机器之心 - AI行业媒体
- 量子位 - AI前沿资讯
- Datawhale - 开源学习社区
- Hugging Face 中文社区 - 模型和数据集分享
英文社区¶
- Papers with Code - 论文与代码实现
- arXiv.org - 最新AI论文
- Machine Learning Subreddit - 机器学习讨论
- Hugging Face - 模型和数据集平台
- Weights & Biases - 实验追踪和可视化
论坛与问答¶
- Stack Overflow AI/ML标签 - 技术问答
- PyTorch Forum - PyTorch官方论坛
- Hugging Face Forum - Hugging Face讨论区
- Reddit r/MachineLearning - 机器学习讨论
邮件列表与Slack¶
- Distill.pub - 可视化研究
- OpenAI Community - OpenAI社区
- LangChain Discord - LangChain社区
最后更新日期:2026-02-12 适用版本:LLM学习教程 v2026