12. 大模型迭代演进与能力提升¶
⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。
核心问题:为什么大模型每次迭代都会更强?是架构更新、数据规模、还是训练方法的改进?
目录¶
1. 大模型能力提升的四大支柱¶
1.1 核心公式¶
大模型的最终能力可以抽象为:
模型能力 = f(架构, 数据, 计算量, 训练方法, 对齐)
其中:
- 架构:Transformer变体、MoE、注意力机制创新
- 数据:质量 > 数量、多样性、合成数据
- 计算量:遵循Scaling Law,但效率在提升
- 训练方法:预训练目标、课程学习、多阶段训练
- 对齐:RLHF、DPO、Constitutional AI
1.2 各因素贡献度分析¶
┌─────────────────────────────────────────────────────────────────┐
│ 大模型能力提升贡献度(2023-2026) │├─────────────────────────────────────────────────────────────────┤
│ │
│ 数据质量提升 ████████████████████ 35%│ 架构创新 ████████████████ 25%
│ 训练方法改进 ████████████ 20%
│ 对齐技术进步 ████████ 12%
│ 计算规模扩展 ████ 8%
│ │
│ 关键洞察: │
│ • 2024年后,数据质量成为最大增量来源 │
│ • 架构创新(MoE/长上下文/推理模型)贡献显著 │
│ • 单纯堆计算量的边际效益递减 │
│ │
└─────────────────────────────────────────────────────────────────┘
1.3 为什么"每次迭代都更强"?¶
实际上,模型迭代变强是多个因素叠加的结果:
┌────────────────────────────────────────────────────────────────┐
│ 模型迭代变强的原因 │
├────────────────────────────────────────────────────────────────┤
│ │
│ 1. 数据层面(贡献 ~35%) │
│ ├── 数据质量:过滤算法、去重、质量评分 │
│ ├── 数据多样性:多语言、多领域、多任务 │
│ ├── 合成数据:用强模型生成高质量训练数据 │
│ └── 课程学习:从简单到难的数据组织 │
│ │
│ 2. 架构层面(贡献 ~25%) │
│ ├── MoE:稀疏激活,容量↑计算↓│
│ ├── 长上下文:RoPE改进、KV Cache优化、注意力稀疏化 │
│ ├── 推理架构:思维链、慢思考系统 │
│ └── 多模态融合:统一架构处理多种模态 │
│ │
│ 3. 训练方法(贡献 ~20%) │
│ ├── 预训练目标:MLM → CLM → 多任务预训练 │
│ ├── 训练稳定性:Loss尖峰抑制、梯度裁剪改进 │
│ ├── 分布式训练:3D并行、ZeRO优化 │
│ └── 后训练:SFT → RLHF → DPO → 强化推理 │
│ │
│ 4. 对齐技术(贡献 ~12%) │
│ ├── RLHF:人类反馈强化学习 │
│ ├── DPO:直接偏好优化(更稳定) │
│ ├── Constitutional AI:宪法AI(自我修正) │
│ └── 安全对齐:红队测试、对抗训练 │
│ │
│ 5. 计算规模(贡献 ~8%) │
│ ├── Scaling Law:规模↑能力↑ │
│ ├── 但边际效益递减:7B→70B提升大,70B→700B提升小 │
│ └── 效率优化:让同样算力训练更大模型 │
│ │
└────────────────────────────────────────────────────────────────┘
2. 架构演进时间线¶
2.1 Transformer架构演进¶
2017: 原始Transformer(Attention Is All You Need)
└── 多头注意力、位置编码、残差连接
2018-2019: 预训练语言模型
├── BERT:双向编码器,MLM预训练
├── GPT:自回归解码器,CLM预训练
└── T5:编码器-解码器,文本到文本框架
2020-2022: 规模化时代
├── GPT-3:175B参数,Few-shot能力涌现
├── PaLM:540B,思维链能力
└── Chinchilla:计算最优缩放定律
2023: 架构创新爆发
├── LLaMA:开源标杆,RoPE、SwiGLU、RMSNorm
├── Mistral:滑动窗口注意力
└── GPT-4:MoE架构(推测)
2024: 效率与能力双提升
├── DeepSeek-V2/V3:MLA(多头潜在注意力)、DeepSeekMoE
├── LLaMA 3:大规模训练、高质量数据
├── Qwen2:长上下文、多语言
└── Mixtral:开源MoE
2025-2026: 推理与 Agent 工程化时代
├── DeepSeek-R1 / DeepSeek-V3.2:强化学习推理路线与 agent 取向
├── OpenAI o1/o3 / GPT-5.4:可控推理深度与 agent workflow
├── Claude 4.6:1M context,Opus 以 adaptive thinking 为主,Sonnet 支持 extended thinking
├── Gemini 2.5 Pro:Preview,多模态复杂任务与 1M 输入上下文
└── Qwen 3.5:围绕 agent 与工具使用场景持续演进
2.2 核心架构创新详解¶
2.2.1 注意力机制演进¶
class AttentionEvolution:
"""注意力机制演进时间线"""
timeline = {
"2017-Standard": {
"name": "标准多头注意力",
"complexity": "O(n²)",
"memory": "O(n²)",
"特点": "全连接注意力,所有token两两交互"
},
"2020-Longformer": {
"name": "稀疏注意力",
"complexity": "O(n)",
"特点": "局部窗口 + 全局token,牺牲部分交互"
},
"2021-FlashAttention": {
"name": "IO感知注意力",
"complexity": "O(n²)计算,但IO优化",
"特点": "分块计算,减少HBM访问,训练加速2-4x"
},
"2022-GQA/MQA": {
"name": "分组查询注意力",
"complexity": "KV Cache减少",
"特点": "多组共享KV,推理加速,质量损失小"
},
"2024-MLA": {
"name": "多头潜在注意力(DeepSeek)",
"complexity": "KV Cache压缩90%+",
"特点": "将KV压缩到低维潜在空间,大幅降低显存"
},
"2024-DSA": {
"name": "DeepSeek稀疏注意力",
"complexity": "O(n·k), k << n",
"特点": "结构化+动态稀疏,与FlashAttention兼容"
},
"2025-NSA": {
"name": "Native Sparse Attention",
"complexity": "O(n·k)",
"特点": "可学习的稀疏模式,端到端训练"
}
}
2.2.2 MoE架构演进¶
┌─────────────────────────────────────────────────────────────────┐
│ MoE架构演进 │├─────────────────────────────────────────────────────────────────┤
│ │
│ 第一代:Switch Transformer (2021) │
│ ├── 简单Top-1路由 │
│ ├── 负载均衡问题 │
│ └── 训练不稳定 │
│ │
│ 第二代:GShard/GPT-4 MoE (2022-2023) │
│ ├── Top-2路由 + 负载均衡损失 │
│ ├── 专家容量限制 │
│ └── 更稳定的训练 │
│ │
│ 第三代:Mixtral/DeepSeekMoE (2024) │
│ ├── 细粒度专家(更多小专家) │
│ ├── 共享专家(always active) │
│ └── 更好的专家专业化 │
│ │
│ 关键洞察: │
│ • MoE实现"容量↑计算↓" │
│ • 总参数量大,但每个token只激活部分参数 │
│ • DeepSeek-V3:671B总参数,37B激活参数 │
│ │
└─────────────────────────────────────────────────────────────────┘
2.2.4 DeepSeek-V3 推理特性详解(2024-2025)¶
┌─────────────────────────────────────────────────────────────────┐
│ DeepSeek-V3 核心推理优化技术 │├─────────────────────────────────────────────────────────────────┤
│ │
│ 一、Multi-Head Latent Attention(MLA) │
│ ├── 核心创新:低秩联合压缩KV Cache │
│ ├── 技术原理: │
│ │ • 将高维KV矩阵压缩到低维潜在空间 │
│ │ • 压缩后维度 d_c << d_h × n_h │
│ │ • 仅需缓存压缩潜在向量,而非完整KV矩阵 │
│ ├── 优化效果: │
│ │ • KV Cache压缩率约93.3% │
│ │ • 显著降低推理显存占用 │
│ │ • 支持更大Batch Size和更长序列 │
│ ├── 解耦RoPE策略: │
│ │ • Q和K分别携带部分位置信息 │
│ │ • 通过矩阵乘法自然融入位置编码 │
│ │ • 避免压缩后位置信息丢失问题 │
│ │
│ 二、DeepSeekMoE 架构 │
│ ├── 架构组成: │
│ │ • 1个共享专家(always active,处理通用知识) │
│ │ • 256个路由专家(动态激活,处理特定任务) │
│ ├── 细粒度专家划分: │
│ │ • 相比粗粒度划分,组合自由度提升823倍 │
│ │ • 专家专业化程度更高 │
│ ├── 无辅助损失负载均衡: │
│ │ • 动态调整专家偏置项 │
│ │ • 避免辅助损失对模型性能的干扰 │
│ │ • 提升训练稳定性 │
│ │
│ 三、FP8 推理优化 │
│ ├── FP8量化策略: │
│ │ • 原生FP8权重开源 │
│ │ • 采用E4M3格式(4位指数+3位尾数) │
│ │ • 平衡精度与动态范围 │
│ ├── 权重量化(Block-wise): │
│ │ • 块大小128×128 │
│ │ • 每块独立量化参数(缩放因子s + 零点z) │
│ │ • 离线预计算,减少推理计算开销 │
│ ├── 激活量化(Per-token-group): │
│ │ • 动态在线量化 │
│ │ • 每token每组独立量化参数 │
│ ├── 框架支持: │
│ │ • SGLang:原生FP8推理支持 │
│ │ • LMDeploy:原生FP8推理支持 │
│ │ • TensorRT-LLM:BF16推理 │
│ │
│ 四、多Token预测(MTP) │
│ ├── 训练目标:同时预测多个未来token │
│ ├── 效果: │
│ │ • 推理速度从前代20 TPS提升至60 TPS(3倍) │
│ │ • 增强上下文连贯性 │
│ │ • 缩短20%-30%训练时间 │
│ │
│ 五、推理部署配置 │
│ ├── Prefill阶段: │
│ │ • 路由专家EP32,MLA和共享专家DP32 │
│ │ • 部署单元:4节点,32冗余路由专家 │
│ │ • 每卡:9个路由专家 + 1个共享专家 │
│ ├── Decode阶段: │
│ │ • 路由专家EP144,MLA和共享专家DP144 │
│ │ • 部署单元:18节点,32冗余路由专家 │
│ │ • 每卡:2个路由专家 + 1个共享专家 │
│ ├── 计算通信重叠: │
│ │ • 双batch重叠策略 │
│ │ • Prefill:计算与通信交错进行 │
│ │ • Decode:掩盖通信开销,提高吞吐 │
│ │
└─────────────────────────────────────────────────────────────────┘
DeepSeek-V3 技术演进时间线(2024-2026)
2024年12月:DeepSeek-V3 首发
├── 671B参数,37B激活
├── MLA + DeepSeekMoE
├── FP8混合精度训练
└── 推理速度20 TPS
2025年3月:DeepSeek-V3-0324 更新
├── 推理任务表现提升(超越GPT-4.5)
├── 前端开发能力增强
├── 中文写作优化
├── MIT开源协议
└── 推理速度达60 TPS
2025年12月:DeepSeek-V3.2 发布
├── 融入思考推理,强化Agent能力
├── 达到GPT-5水平
└── 输出长度大幅降低(相比Kimi-K2-Thinking)
2026年:持续优化
├── 更多框架支持
└── 生产级部署成熟
2.2.3 位置编码演进¶
class PositionalEncodingEvolution:
"""位置编码演进"""
def sinusoidal(self, seq_len, d_model):
"""2017: 正弦位置编码(原始Transformer)"""
# 固定编码,不可学习
# 外推能力差
pass
def learned_positional(self, seq_len, d_model):
"""2018: 可学习位置编码(BERT/GPT-2)"""
# 可学习,但有最大长度限制
# 无法外推到训练长度之外
pass
def rope(self, seq_len, d_model):
"""2021: RoPE旋转位置编码(LLaMA)"""
# 通过旋转矩阵编码相对位置
# 有一定的外推能力
# 成为2023-2024主流方案
pass
def rope_scaling(self, seq_len, d_model, scaling_factor):
"""2023: RoPE缩放(长上下文扩展)"""
# NTK-aware scaling
# YaRN (Yet another RoPE extension)
# 支持128K+上下文
pass
def m_rope(self, seq_len, d_model):
"""2024: M-RoPE(Qwen2-VL多模态)"""
# 3D位置编码:时间、高度、宽度
# 支持视频、高分辨率图像
pass
3. 数据工程的演进¶
3.1 数据质量 > 数据数量¶
┌─────────────────────────────────────────────────────────────────┐
│ 数据工程演进 │├─────────────────────────────────────────────────────────────────┤
│ │
│ 2020-2021:规模至上 │
│ ├── GPT-3:300B tokens │
│ ├── 简单过滤:去重、去HTML │
│ └── 信条:更多数据 = 更强模型 │
│ │
│ 2022-2023:质量觉醒 │
│ ├── Chinchilla:计算最优 = 数据质量×规模平衡 │
│ ├── LLaMA:经过严格清洗的1.4T tokens │
│ └── 发现:高质量1T > 低质量10T │
│ │
│ 2024:精细化数据工程 │
│ ├── Phi系列:教科书质量数据,小模型大能力 │
│ ├── LLaMA 3:15T+ tokens,多阶段质量提升 │
│ ├── 数据质量评分模型 │
│ └── 课程学习:从简单到难 │
│ │
│ 2025:合成数据时代 │
│ ├── 用强模型生成训练数据 │
│ ├── 推理链数据合成(DeepSeek-R1) │
│ ├── 代码数据合成 │
│ └── 合成+真实混合 │
│ │
└─────────────────────────────────────────────────────────────────┘
3.2 数据配比的艺术¶
class DataMixingStrategy:
"""数据配比策略"""
# LLaMA 3的数据配比(推测)
llama3_mix = {
"通用网页": "50%", # CommonCrawl高质量子集
"代码": "20%", # GitHub、代码教程
"数学/推理": "10%", # 数学教材、推理数据
"学术文献": "10%", # arXiv、论文
"百科/知识": "5%", # Wikipedia、知识库
"对话/指令": "5%" # 高质量对话数据
}
# 代码能力专项配比
code_optimized_mix = {
"代码": "50%", # 大幅提升代码比例
"代码+自然语言": "20%", # 代码解释、文档
"通用网页": "15%",
"数学/推理": "10%",
"其他": "5%"
}
# 推理能力专项配比
reasoning_optimized_mix = {
"数学": "25%", # 数学推理
"科学文献": "20%", # 科学推理
"逻辑谜题": "15%", # 逻辑推理
"代码": "15%", # 程序推理
"通用": "25%"
}
3.3 合成数据的崛起¶
为什么合成数据越来越重要?
1. 高质量真实数据枯竭
├── 互联网高质量文本已被大量使用
├── 特定领域(医疗、法律)数据稀缺
└── 标注成本高昂
2. 合成数据的优势
├── 可控性:按需生成特定类型数据
├── 质量:用GPT-4生成数据质量接近人工
├── 多样性:可生成各种边缘案例
└── 成本:比人工标注便宜100x+
3. 合成数据应用
├── SFT数据:用强模型生成指令-回复对
├── 推理链:生成带思维链的问答
├── 代码数据:生成代码+解释+测试用例
└── 偏好数据:生成对比样本用于DPO
4. 风险与挑战
├── 模型坍缩:合成数据训练的模型可能退化
├── 偏见放大:合成数据可能放大数据偏见
└── 解决方案:合成+真实混合,质量过滤
4. 训练方法的革新¶
4.1 预训练目标演进¶
┌─────────────────────────────────────────────────────────────────┐
│ 预训练目标演进 │├─────────────────────────────────────────────────────────────────┤
│ │
│ 第一代:自编码(BERT) │
│ ├── MLM(Masked Language Modeling) │
│ ├── 缺点:不适合生成任务 │
│ └── 适用:理解任务(分类、抽取) │
│ │
│ 第二代:自回归(GPT系列) │
│ ├── CLM(Causal Language Modeling) │
│ ├── 优点:天然适合生成 │
│ └── 成为主流选择 │
│ │
│ 第三代:多任务预训练(T5/FLAN) │
│ ├── 统一的文本到文本框架 │
│ ├── 混合多种任务 │
│ └── 提升泛化能力 │
│ │
│ 第四代:代码+文本联合预训练 │
│ ├── 代码数据增强推理能力 │
│ ├── LLaMA 2/3、DeepSeek都采用 │
│ └── 发现:代码训练提升整体能力 │
│ │
│ 第五代:强化预训练(2025) │
│ ├── DeepSeek-V3:在预训练中引入强化学习信号 │
│ ├── 推理模型:在预训练后进行大规模RL训练 │
│ └── 打破传统SFT→RLHF范式 │
│ │
└─────────────────────────────────────────────────────────────────┘
4.2 后训练(Post-training)演进¶
class PostTrainingEvolution:
"""后训练方法演进"""
# 2022: InstructGPT范式
def stage_1_instructgpt(self):
"""
SFT → RM训练 → PPO强化学习
开创了三阶段对齐范式
"""
pass
# 2023: 对话能力强化
def stage_2_chat_optimization(self):
"""
多轮对话数据
安全性训练
拒绝回答训练
"""
pass
# 2024: DPO崛起
def stage_3_dpo(self):
"""
Direct Preference Optimization
无需训练奖励模型
更稳定、更简单
"""
pass
# 2025: 强化推理
def stage_4_reasoning_rl(self):
"""
DeepSeek-R1: 大规模GRPO训练
OpenAI o1: 推理时搜索+强化学习
专注于推理能力提升
"""
pass
4.3 推理模型的训练范式¶
┌─────────────────────────────────────────────────────────────────┐
│ 推理模型训练范式(2025) │├─────────────────────────────────────────────────────────────────┤
│ │
│ DeepSeek-R1训练流程: │
│ │
│ 阶段1: 冷启动SFT │
│ ├── 使用少量高质量推理链数据 │
│ ├── 建立基本的推理格式 │
│ └── 数据量:数千条 │
│ │
│ 阶段2: 推理强化学习(核心) │
│ ├── GRPO(Group Relative Policy Optimization) │
│ ├── 大规模自动生成推理链 │
│ ├── 基于正确性信号的奖励 │
│ └── 训练量:数百万推理样本 │
│ │
│ 阶段3: 拒绝采样+ SFT │
│ ├── 收集RL阶段的高质量输出 │
│ ├── 重新训练SFT模型 │
│ └── 提升输出质量稳定性 │
│ │
│ 阶段4: 全场景RL │
│ ├── 加入安全性、有用性奖励 │
│ ├── 平衡推理能力与通用能力 │
│ └── 最终模型 │
│ │
│ 关键创新: │
│ • 不依赖人类标注的推理链 │
│ • 自动生成+自动验证的训练循环 │
│ • 推理能力涌现:反思、回溯、多路径探索 │
│ │
└─────────────────────────────────────────────────────────────────┘
5. 对齐技术的进步¶
5.1 对齐方法对比¶
class AlignmentMethods:
"""对齐方法对比"""
methods = {
"RLHF": {
"全称": "Reinforcement Learning from Human Feedback",
"流程": "SFT → RM训练 → PPO",
"优点": "效果稳定,OpenAI/Anthropic主力方案",
"缺点": "训练复杂,需要单独的奖励模型",
"代表": "GPT-4, Claude 2"
},
"DPO": {
"全称": "Direct Preference Optimization",
"流程": "SFT → 直接优化偏好",
"优点": "简单稳定,无需奖励模型",
"缺点": "需要高质量偏好数据",
"代表": "Llama 2, Mistral"
},
"IPO": {
"全称": "Identity Policy Optimization",
"特点": "DPO的改进版,更稳定",
"代表": "学术研究"
},
"KTO": {
"全称": "Kahneman-Tversky Optimization",
"特点": "不需要成对偏好数据",
"代表": "开源社区"
},
"ConstitutionalAI": {
"全称": "宪法AI(Anthropic)",
"流程": "自我修正 + RLHF",
"优点": "减少人工标注,可扩展",
"代表": "Claude系列"
},
"RAILHF": {
"全称": "推理增强RLHF(DeepSeek-R1)",
"特点": "专注于推理能力的强化学习",
"代表": "DeepSeek-R1"
}
}
5.2 安全对齐的演进¶
┌─────────────────────────────────────────────────────────────────┐
│ 安全对齐演进 │├─────────────────────────────────────────────────────────────────┤
│ │
│ 第一代:规则过滤 │
│ ├── 关键词过滤 │
│ ├── 简单分类器 │
│ └── 问题:容易被绕过 │
│ │
│ 第二代:红队测试 │
│ ├── 人工设计攻击样本 │
│ ├── 针对性训练 │
│ └── 问题:覆盖不全 │
│ │
│ 第三代:自动化红队 │
│ ├── 用模型自动生成攻击 │
│ ├── 大规模对抗训练 │
│ └── 持续更新攻击库 │
│ │
│ 第四代:宪法AI(2024-2025) │
│ ├── 定义"宪法"原则 │
│ ├── 模型自我修正 │
│ └── 减少人工干预 │
│ │
└─────────────────────────────────────────────────────────────────┘
6. 能力提升的量化分析¶
6.1 各代模型能力对比¶
┌─────────────────────────────────────────────────────────────────┐
│ 主流模型能力演进(MMLU分数) │├─────────────────────────────────────────────────────────────────┤
│ │
│ 2022: PaLM 540B ~69%│ 2023: GPT-4 ~86%
│ 2023: Claude 2 ~78%
│ 2023: LLaMA 2 70B ~70%
│ │
│ 2024: Claude 3.5 ~88%
│ 2024: GPT-4o ~88%
│ 2024: LLaMA 3.1 405B ~85%
│ 2024: DeepSeek-V3 ~88%
│ │
│ 2025: Claude 4 ~90%+
│ 2025: o3 ~92%+
│ 2025: DeepSeek-R1 ~90%+
│ 2025-2026: GPT-5.4 / Claude 4.6 / Gemini 2.5
│ │
│ 观察: │
│ • 2022→2024:能力快速提升,主要来自数据+架构 │
│ • 2024→2026:提升放缓,但推理、多模态和工具调用能力继续增强 │
│ • 开源模型(LLaMA/DeepSeek)快速追赶闭源 │
│ │
└─────────────────────────────────────────────────────────────────┘
6.2 能力提升的边际效益¶
Scaling Law的边际效益递减:
参数规模:
7B → 70B:能力提升显著(~10-15% MMLU)
70B → 700B:能力提升较小(~3-5% MMLU)
结论:单纯堆参数的收益递减
数据规模:
300B → 1T tokens:显著提升
1T → 5T tokens:继续提升但放缓
5T → 15T tokens:需要更高质量数据才能见效
结论:数据质量比数量更重要
计算量:
遵循Chinchilla最优:参数×数据≈常数
但2024年后发现:过训练(更多数据)在小模型上也有效
LLaMA 3:15T tokens训练405B,远超Chinchilla最优
7. 面试高频问答¶
Q1: 为什么大模型每次迭代都会更强?主要原因是什么?¶
答:是多个因素叠加的结果,按贡献度排序: 1. 数据质量提升(~35%):更好的过滤、去重、质量评分,以及合成数据的使用 2. 架构创新(~25%):MoE、长上下文、注意力优化(MLA/DSA) 3. 训练方法改进(~20%):多阶段训练、课程学习、强化预训练 4. 对齐技术进步(~12%):RLHF→DPO、宪法AI、推理强化 5. 计算规模扩展(~8%):但边际效益递减
Q2: 现在的大模型架构和2017年的Transformer有什么主要区别?¶
答:主要区别包括: - 位置编码:正弦编码 → RoPE(旋转位置编码),支持更长上下文 - 注意力优化:标准MHA → GQA/MLA,减少KV Cache - 激活函数:ReLU/GELU → SwiGLU,更好的梯度流 - 归一化:LayerNorm → RMSNorm,更简单高效 - 架构变体:稠密Transformer → MoE(混合专家) - 注意力机制:O(n²) → 稀疏注意力/线性注意力
Q3: 什么是"Scaling Law"?它还适用吗?¶
答:Scaling Law描述了模型能力与参数量、数据量、计算量的幂律关系。核心发现: - 能力 ≈ 参数^α × 数据^β × 计算^γ - Chinchilla(2022)给出了计算最优配比
2024-2025的新发现: - "过训练"(Over-training)有效:LLaMA 3用15T tokens训练,远超Chinchilla最优 - 小模型+更多数据可以接近大模型效果 - Scaling Law仍然适用,但效率在提升
Q4: MoE架构为什么能实现"容量↑计算↓"?¶
答:MoE的核心思想是条件计算: - 总参数量大:如DeepSeek-V3有671B参数 - 激活参数少:每个token只激活部分专家,约37B参数 - 路由机制:Gate网络决定每个token由哪些专家处理 - 效果:推理成本接近37B模型,但能力接近600B+模型
关键创新包括:细粒度专家、共享专家、负载均衡损失
Q5: 推理模型(如DeepSeek-R1、o1)是如何训练的?¶
答:推理模型的训练范式与传统LLM不同: 1. 冷启动SFT:用少量高质量推理链数据建立基本格式 2. 大规模强化学习:GRPO等方法,自动生成推理链并基于正确性奖励 3. 拒绝采样+SFT:收集RL阶段高质量输出重新训练 4. 全场景RL:加入安全性、有用性奖励
关键是不依赖人类标注的推理链,而是自动生成+验证的闭环
Q6: 合成数据会取代真实数据吗?¶
答:不会完全取代,但比例会越来越高: - 优势:可控、高质量、低成本 - 风险:模型坍缩、偏见放大 - 趋势:合成+真实混合,预计2026年合成数据占比可达50%+ - 关键:质量过滤和多样性保证
本章小结¶
┌─────────────────────────────────────────────────────────────────┐
│ 核心要点总结 │├─────────────────────────────────────────────────────────────────┤
│ │
│ 1. 模型迭代变强是多种因素叠加: │
│ 数据质量(35%) > 架构创新(25%) > 训练方法(20%) │
│ > 对齐技术(12%) > 计算规模(8%) │
│ │
│ 2. 架构演进主线: │
│ • 注意力:标准MHA → GQA → MLA → 稀疏注意力 │
│ • 位置编码:正弦 → RoPE → RoPE缩放 → M-RoPE │
│ • 架构:稠密 → MoE → 推理增强 │
│ │
│ 3. 数据工程是最大增量来源: │
│ • 质量 > 数量 │
│ • 合成数据崛起 │
│ • 数据配比的艺术 │
│ │
│ 4. 训练方法革新: │
│ • 预训练:CLM → 多任务 → 代码+文本 → 强化预训练 │
│ • 后训练:SFT → RLHF → DPO → 推理RL │
│ │
│ 5. 2025趋势:推理能力成为新战场 │
│ • DeepSeek-R1、o1/o3代表新范式 │
│ • 强化学习驱动的推理能力提升 │
│ │
└─────────────────────────────────────────────────────────────────┘
📝 本章练习¶
🤔 思考题¶
- Scaling Laws:Kaplan Scaling Laws 和 Chinchilla Scaling Laws 的核心结论分别是什么?为什么 Chinchilla 的结论改变了训练策略?
- 迭代演进:从 GPT-3 到 DeepSeek-R1,LLM 的能力提升主要来自哪些维度的改进?
- 推理能力突破:DeepSeek-R1 用纯 RL 训练推理能力的意义是什么?这对未来模型训练有什么启示?
💻 代码实践¶
- 入门:绘制 Scaling Laws 曲线,展示模型大小、数据量和计算量之间的关系
- 进阶:对比不同规模模型(1B vs 7B vs 70B)在相同任务上的性能差异
💡 参考答案
#### 思考题参考答案 **1. Scaling Laws** - **Kaplan**:模型性能与模型大小呈幂律关系,增大模型比增大数据更有效(建议训练较短时间的大模型) - **Chinchilla**:模型大小和数据量应该等比例增长,给定计算预算下的最优模型比之前认为的要小得多(需要更多数据) Chinchilla 改变训练策略:从"训练更大的模型"转向"用更多数据训练适当大小的模型",催生了 LLaMA 系列模型。 **2. 能力提升维度** - **架构**:Transformer → MoE + GQA + RoPE - **数据**:规模扩大 + 质量提升 + 多样化 - **训练方法**:预训练 → SFT → RLHF/DPO → 推理 RL - **推理优化**:量化、投机解码、KV Cache 优化 **3. R1 的意义** 证明了纯 RL(无 SFT 冷启动)可以激发模型的推理能力,降低了训练门槛。启示:奖励信号的质量比训练方法复杂度更重要;简单明确的规则奖励可能比复杂的偏好模型更有效。扩展阅读¶
- Scaling Laws for Neural Language Models (Kaplan et al., 2020)
- Training Compute-Optimal Large Language Models (Chinchilla, 2022)
- LLaMA: Open and Efficient Foundation Language Models (2023)
- DeepSeek-V3 Technical Report (2024)
- DeepSeek-R1: Incentivizing Reasoning Capability (2025)
最后更新日期: 2026-04-21 适用版本: LLM 学习教程 v2026