跳转至

12. 大模型迭代演进与能力提升

⚠️ 时效性说明:本章涉及前沿模型/价格/榜单等信息,可能随版本快速变化;请以论文原文、官方发布页和 API 文档为准。

核心问题:为什么大模型每次迭代都会更强?是架构更新、数据规模、还是训练方法的改进?


目录

  1. 大模型能力提升的四大支柱
  2. 架构演进时间线
  3. 数据工程的演进
  4. 训练方法的革新
  5. 对齐技术的进步
  6. 能力提升的量化分析
  7. 面试高频问答

1. 大模型能力提升的四大支柱

1.1 核心公式

大模型的最终能力可以抽象为:

Text Only
模型能力 = f(架构, 数据, 计算量, 训练方法, 对齐)

其中:
- 架构:Transformer变体、MoE、注意力机制创新
- 数据:质量 > 数量、多样性、合成数据
- 计算量:遵循Scaling Law,但效率在提升
- 训练方法:预训练目标、课程学习、多阶段训练
- 对齐:RLHF、DPO、Constitutional AI

1.2 各因素贡献度分析

Text Only
┌─────────────────────────────────────────────────────────────────┐
│              大模型能力提升贡献度(2023-2026)                      │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  数据质量提升        ████████████████████  35%│  架构创新            ████████████████      25%
│  训练方法改进        ████████████          20%
│  对齐技术进步        ████████              12%
│  计算规模扩展        ████                   8%
│                                                                 │
│  关键洞察:                                                       │
│  • 2024年后,数据质量成为最大增量来源                              │
│  • 架构创新(MoE/长上下文/推理模型)贡献显著                        │
│  • 单纯堆计算量的边际效益递减                                       │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

1.3 为什么"每次迭代都更强"?

Text Only
实际上,模型迭代变强是多个因素叠加的结果:

┌────────────────────────────────────────────────────────────────┐
│                    模型迭代变强的原因                           │
├────────────────────────────────────────────────────────────────┤
│                                                                │
│  1. 数据层面(贡献 ~35%)                                       │
│     ├── 数据质量:过滤算法、去重、质量评分                        │
│     ├── 数据多样性:多语言、多领域、多任务                        │
│     ├── 合成数据:用强模型生成高质量训练数据                      │
│     └── 课程学习:从简单到难的数据组织                           │
│                                                                │
│  2. 架构层面(贡献 ~25%)                                       │
│     ├── MoE:稀疏激活,容量↑计算↓│
│     ├── 长上下文:RoPE改进、KV Cache优化、注意力稀疏化            │
│     ├── 推理架构:思维链、慢思考系统                              │
│     └── 多模态融合:统一架构处理多种模态                          │
│                                                                │
│  3. 训练方法(贡献 ~20%)                                       │
│     ├── 预训练目标:MLM → CLM → 多任务预训练                     │
│     ├── 训练稳定性:Loss尖峰抑制、梯度裁剪改进                    │
│     ├── 分布式训练:3D并行、ZeRO优化                              │
│     └── 后训练:SFT → RLHF → DPO → 强化推理                      │
│                                                                │
│  4. 对齐技术(贡献 ~12%)                                       │
│     ├── RLHF:人类反馈强化学习                                   │
│     ├── DPO:直接偏好优化(更稳定)                              │
│     ├── Constitutional AI:宪法AI(自我修正)                    │
│     └── 安全对齐:红队测试、对抗训练                              │
│                                                                │
│  5. 计算规模(贡献 ~8%)                                        │
│     ├── Scaling Law:规模↑能力↑                                 │
│     ├── 但边际效益递减:7B→70B提升大,70B→700B提升小              │
│     └── 效率优化:让同样算力训练更大模型                          │
│                                                                │
└────────────────────────────────────────────────────────────────┘

2. 架构演进时间线

2.1 Transformer架构演进

Text Only
2017: 原始Transformer(Attention Is All You Need)
      └── 多头注意力、位置编码、残差连接

2018-2019: 预训练语言模型
      ├── BERT:双向编码器,MLM预训练
      ├── GPT:自回归解码器,CLM预训练
      └── T5:编码器-解码器,文本到文本框架

2020-2022: 规模化时代
      ├── GPT-3:175B参数,Few-shot能力涌现
      ├── PaLM:540B,思维链能力
      └── Chinchilla:计算最优缩放定律

2023: 架构创新爆发
      ├── LLaMA:开源标杆,RoPE、SwiGLU、RMSNorm
      ├── Mistral:滑动窗口注意力
      └── GPT-4:MoE架构(推测)

2024: 效率与能力双提升
      ├── DeepSeek-V2/V3:MLA(多头潜在注意力)、DeepSeekMoE
      ├── LLaMA 3:大规模训练、高质量数据
      ├── Qwen2:长上下文、多语言
      └── Mixtral:开源MoE

2025-2026: 推理与 Agent 工程化时代
      ├── DeepSeek-R1 / DeepSeek-V3.2:强化学习推理路线与 agent 取向
      ├── OpenAI o1/o3 / GPT-5.4:可控推理深度与 agent workflow
      ├── Claude 4.6:1M context,Opus 以 adaptive thinking 为主,Sonnet 支持 extended thinking
      ├── Gemini 2.5 Pro:Preview,多模态复杂任务与 1M 输入上下文
      └── Qwen 3.5:围绕 agent 与工具使用场景持续演进

2.2 核心架构创新详解

2.2.1 注意力机制演进

Python
class AttentionEvolution:
    """注意力机制演进时间线"""

    timeline = {
        "2017-Standard": {
            "name": "标准多头注意力",
            "complexity": "O(n²)",
            "memory": "O(n²)",
            "特点": "全连接注意力,所有token两两交互"
        },

        "2020-Longformer": {
            "name": "稀疏注意力",
            "complexity": "O(n)",
            "特点": "局部窗口 + 全局token,牺牲部分交互"
        },

        "2021-FlashAttention": {
            "name": "IO感知注意力",
            "complexity": "O(n²)计算,但IO优化",
            "特点": "分块计算,减少HBM访问,训练加速2-4x"
        },

        "2022-GQA/MQA": {
            "name": "分组查询注意力",
            "complexity": "KV Cache减少",
            "特点": "多组共享KV,推理加速,质量损失小"
        },

        "2024-MLA": {
            "name": "多头潜在注意力(DeepSeek)",
            "complexity": "KV Cache压缩90%+",
            "特点": "将KV压缩到低维潜在空间,大幅降低显存"
        },

        "2024-DSA": {
            "name": "DeepSeek稀疏注意力",
            "complexity": "O(n·k), k << n",
            "特点": "结构化+动态稀疏,与FlashAttention兼容"
        },

        "2025-NSA": {
            "name": "Native Sparse Attention",
            "complexity": "O(n·k)",
            "特点": "可学习的稀疏模式,端到端训练"
        }
    }

2.2.2 MoE架构演进

Text Only
┌─────────────────────────────────────────────────────────────────┐
│                      MoE架构演进                                 │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一代:Switch Transformer (2021)                               │
│  ├── 简单Top-1路由                                               │
│  ├── 负载均衡问题                                                │
│  └── 训练不稳定                                                  │
│                                                                 │
│  第二代:GShard/GPT-4 MoE (2022-2023)                            │
│  ├── Top-2路由 + 负载均衡损失                                    │
│  ├── 专家容量限制                                                │
│  └── 更稳定的训练                                                │
│                                                                 │
│  第三代:Mixtral/DeepSeekMoE (2024)                              │
│  ├── 细粒度专家(更多小专家)                                     │
│  ├── 共享专家(always active)                                   │
│  └── 更好的专家专业化                                            │
│                                                                 │
│  关键洞察:                                                       │
│  • MoE实现"容量↑计算↓"                                           │
│  • 总参数量大,但每个token只激活部分参数                          │
│  • DeepSeek-V3:671B总参数,37B激活参数                          │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.2.4 DeepSeek-V3 推理特性详解(2024-2025)

Text Only
┌─────────────────────────────────────────────────────────────────┐
│              DeepSeek-V3 核心推理优化技术                          │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  一、Multi-Head Latent Attention(MLA)                         │
│  ├── 核心创新:低秩联合压缩KV Cache                               │
│  ├── 技术原理:                                                  │
│  │   • 将高维KV矩阵压缩到低维潜在空间                            │
│  │   • 压缩后维度 d_c << d_h × n_h                             │
│  │   • 仅需缓存压缩潜在向量,而非完整KV矩阵                      │
│  ├── 优化效果:                                                  │
│  │   • KV Cache压缩率约93.3%                                    │
│  │   • 显著降低推理显存占用                                      │
│  │   • 支持更大Batch Size和更长序列                              │
│  ├── 解耦RoPE策略:                                              │
│  │   • Q和K分别携带部分位置信息                                  │
│  │   • 通过矩阵乘法自然融入位置编码                              │
│  │   • 避免压缩后位置信息丢失问题                                │
│                                                                 │
│  二、DeepSeekMoE 架构                                            │
│  ├── 架构组成:                                                  │
│  │   • 1个共享专家(always active,处理通用知识)                │
│  │   • 256个路由专家(动态激活,处理特定任务)                   │
│  ├── 细粒度专家划分:                                            │
│  │   • 相比粗粒度划分,组合自由度提升823倍                       │
│  │   • 专家专业化程度更高                                        │
│  ├── 无辅助损失负载均衡:                                        │
│  │   • 动态调整专家偏置项                                        │
│  │   • 避免辅助损失对模型性能的干扰                              │
│  │   • 提升训练稳定性                                            │
│                                                                 │
│  三、FP8 推理优化                                                │
│  ├── FP8量化策略:                                              │
│  │   • 原生FP8权重开源                                          │
│  │   • 采用E4M3格式(4位指数+3位尾数)                         │
│  │   • 平衡精度与动态范围                                        │
│  ├── 权重量化(Block-wise):                                     │
│  │   • 块大小128×128                                            │
│  │   • 每块独立量化参数(缩放因子s + 零点z)                   │
│  │   • 离线预计算,减少推理计算开销                               │
│  ├── 激活量化(Per-token-group):                                │
│  │   • 动态在线量化                                              │
│  │   • 每token每组独立量化参数                                   │
│  ├── 框架支持:                                                  │
│  │   • SGLang:原生FP8推理支持                                  │
│  │   • LMDeploy:原生FP8推理支持                                │
│  │   • TensorRT-LLM:BF16推理                                   │
│                                                                 │
│  四、多Token预测(MTP)                                          │
│  ├── 训练目标:同时预测多个未来token                              │
│  ├── 效果:                                                      │
│  │   • 推理速度从前代20 TPS提升至60 TPS(3倍)                  │
│  │   • 增强上下文连贯性                                          │
│  │   • 缩短20%-30%训练时间                                      │
│                                                                 │
│  五、推理部署配置                                                │
│  ├── Prefill阶段:                                               │
│  │   • 路由专家EP32,MLA和共享专家DP32                          │
│  │   • 部署单元:4节点,32冗余路由专家                          │
│  │   • 每卡:9个路由专家 + 1个共享专家                           │
│  ├── Decode阶段:                                                │
│  │   • 路由专家EP144,MLA和共享专家DP144                        │
│  │   • 部署单元:18节点,32冗余路由专家                         │
│  │   • 每卡:2个路由专家 + 1个共享专家                          │
│  ├── 计算通信重叠:                                              │
│  │   • 双batch重叠策略                                           │
│  │   • Prefill:计算与通信交错进行                              │
│  │   • Decode:掩盖通信开销,提高吞吐                           │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

DeepSeek-V3 技术演进时间线(2024-2026)

Text Only
2024年12月:DeepSeek-V3 首发
├── 671B参数,37B激活
├── MLA + DeepSeekMoE
├── FP8混合精度训练
└── 推理速度20 TPS

2025年3月:DeepSeek-V3-0324 更新
├── 推理任务表现提升(超越GPT-4.5)
├── 前端开发能力增强
├── 中文写作优化
├── MIT开源协议
└── 推理速度达60 TPS

2025年12月:DeepSeek-V3.2 发布
├── 融入思考推理,强化Agent能力
├── 达到GPT-5水平
└── 输出长度大幅降低(相比Kimi-K2-Thinking)

2026年:持续优化
├── 更多框架支持
└── 生产级部署成熟

2.2.3 位置编码演进

Python
class PositionalEncodingEvolution:
    """位置编码演进"""

    def sinusoidal(self, seq_len, d_model):
        """2017: 正弦位置编码(原始Transformer)"""
        # 固定编码,不可学习
        # 外推能力差
        pass

    def learned_positional(self, seq_len, d_model):
        """2018: 可学习位置编码(BERT/GPT-2)"""
        # 可学习,但有最大长度限制
        # 无法外推到训练长度之外
        pass

    def rope(self, seq_len, d_model):
        """2021: RoPE旋转位置编码(LLaMA)"""
        # 通过旋转矩阵编码相对位置
        # 有一定的外推能力
        # 成为2023-2024主流方案
        pass

    def rope_scaling(self, seq_len, d_model, scaling_factor):
        """2023: RoPE缩放(长上下文扩展)"""
        # NTK-aware scaling
        # YaRN (Yet another RoPE extension)
        # 支持128K+上下文
        pass

    def m_rope(self, seq_len, d_model):
        """2024: M-RoPE(Qwen2-VL多模态)"""
        # 3D位置编码:时间、高度、宽度
        # 支持视频、高分辨率图像
        pass

3. 数据工程的演进

3.1 数据质量 > 数据数量

Text Only
┌─────────────────────────────────────────────────────────────────┐
│                    数据工程演进                                  │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  2020-2021:规模至上                                             │
│  ├── GPT-3:300B tokens                                         │
│  ├── 简单过滤:去重、去HTML                                      │
│  └── 信条:更多数据 = 更强模型                                   │
│                                                                 │
│  2022-2023:质量觉醒                                             │
│  ├── Chinchilla:计算最优 = 数据质量×规模平衡                    │
│  ├── LLaMA:经过严格清洗的1.4T tokens                           │
│  └── 发现:高质量1T > 低质量10T                                  │
│                                                                 │
│  2024:精细化数据工程                                            │
│  ├── Phi系列:教科书质量数据,小模型大能力                       │
│  ├── LLaMA 3:15T+ tokens,多阶段质量提升                       │
│  ├── 数据质量评分模型                                            │
│  └── 课程学习:从简单到难                                        │
│                                                                 │
│  2025:合成数据时代                                              │
│  ├── 用强模型生成训练数据                                        │
│  ├── 推理链数据合成(DeepSeek-R1)                               │
│  ├── 代码数据合成                                                │
│  └── 合成+真实混合                                               │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.2 数据配比的艺术

Python
class DataMixingStrategy:
    """数据配比策略"""

    # LLaMA 3的数据配比(推测)
    llama3_mix = {
        "通用网页": "50%",        # CommonCrawl高质量子集
        "代码": "20%",           # GitHub、代码教程
        "数学/推理": "10%",      # 数学教材、推理数据
        "学术文献": "10%",       # arXiv、论文
        "百科/知识": "5%",       # Wikipedia、知识库
        "对话/指令": "5%"        # 高质量对话数据
    }

    # 代码能力专项配比
    code_optimized_mix = {
        "代码": "50%",           # 大幅提升代码比例
        "代码+自然语言": "20%",  # 代码解释、文档
        "通用网页": "15%",
        "数学/推理": "10%",
        "其他": "5%"
    }

    # 推理能力专项配比
    reasoning_optimized_mix = {
        "数学": "25%",           # 数学推理
        "科学文献": "20%",       # 科学推理
        "逻辑谜题": "15%",       # 逻辑推理
        "代码": "15%",           # 程序推理
        "通用": "25%"
    }

3.3 合成数据的崛起

Text Only
为什么合成数据越来越重要?

1. 高质量真实数据枯竭
   ├── 互联网高质量文本已被大量使用
   ├── 特定领域(医疗、法律)数据稀缺
   └── 标注成本高昂

2. 合成数据的优势
   ├── 可控性:按需生成特定类型数据
   ├── 质量:用GPT-4生成数据质量接近人工
   ├── 多样性:可生成各种边缘案例
   └── 成本:比人工标注便宜100x+

3. 合成数据应用
   ├── SFT数据:用强模型生成指令-回复对
   ├── 推理链:生成带思维链的问答
   ├── 代码数据:生成代码+解释+测试用例
   └── 偏好数据:生成对比样本用于DPO

4. 风险与挑战
   ├── 模型坍缩:合成数据训练的模型可能退化
   ├── 偏见放大:合成数据可能放大数据偏见
   └── 解决方案:合成+真实混合,质量过滤

4. 训练方法的革新

4.1 预训练目标演进

Text Only
┌─────────────────────────────────────────────────────────────────┐
│                    预训练目标演进                                │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一代:自编码(BERT)                                          │
│  ├── MLM(Masked Language Modeling)                            │
│  ├── 缺点:不适合生成任务                                        │
│  └── 适用:理解任务(分类、抽取)                                │
│                                                                 │
│  第二代:自回归(GPT系列)                                       │
│  ├── CLM(Causal Language Modeling)                            │
│  ├── 优点:天然适合生成                                          │
│  └── 成为主流选择                                                │
│                                                                 │
│  第三代:多任务预训练(T5/FLAN)                                 │
│  ├── 统一的文本到文本框架                                        │
│  ├── 混合多种任务                                                │
│  └── 提升泛化能力                                                │
│                                                                 │
│  第四代:代码+文本联合预训练                                     │
│  ├── 代码数据增强推理能力                                        │
│  ├── LLaMA 2/3、DeepSeek都采用                                  │
│  └── 发现:代码训练提升整体能力                                  │
│                                                                 │
│  第五代:强化预训练(2025)                                      │
│  ├── DeepSeek-V3:在预训练中引入强化学习信号                     │
│  ├── 推理模型:在预训练后进行大规模RL训练                        │
│  └── 打破传统SFT→RLHF范式                                       │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

4.2 后训练(Post-training)演进

Python
class PostTrainingEvolution:
    """后训练方法演进"""

    # 2022: InstructGPT范式
    def stage_1_instructgpt(self):
        """
        SFT → RM训练 → PPO强化学习
        开创了三阶段对齐范式
        """
        pass

    # 2023: 对话能力强化
    def stage_2_chat_optimization(self):
        """
        多轮对话数据
        安全性训练
        拒绝回答训练
        """
        pass

    # 2024: DPO崛起
    def stage_3_dpo(self):
        """
        Direct Preference Optimization
        无需训练奖励模型
        更稳定、更简单
        """
        pass

    # 2025: 强化推理
    def stage_4_reasoning_rl(self):
        """
        DeepSeek-R1: 大规模GRPO训练
        OpenAI o1: 推理时搜索+强化学习
        专注于推理能力提升
        """
        pass

4.3 推理模型的训练范式

Text Only
┌─────────────────────────────────────────────────────────────────┐
│                  推理模型训练范式(2025)                         │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  DeepSeek-R1训练流程:                                          │
│                                                                 │
│  阶段1: 冷启动SFT                                               │
│  ├── 使用少量高质量推理链数据                                   │
│  ├── 建立基本的推理格式                                         │
│  └── 数据量:数千条                                             │
│                                                                 │
│  阶段2: 推理强化学习(核心)                                    │
│  ├── GRPO(Group Relative Policy Optimization)                 │
│  ├── 大规模自动生成推理链                                       │
│  ├── 基于正确性信号的奖励                                       │
│  └── 训练量:数百万推理样本                                     │
│                                                                 │
│  阶段3: 拒绝采样+ SFT                                           │
│  ├── 收集RL阶段的高质量输出                                     │
│  ├── 重新训练SFT模型                                            │
│  └── 提升输出质量稳定性                                         │
│                                                                 │
│  阶段4: 全场景RL                                                │
│  ├── 加入安全性、有用性奖励                                     │
│  ├── 平衡推理能力与通用能力                                     │
│  └── 最终模型                                                   │
│                                                                 │
│  关键创新:                                                      │
│  • 不依赖人类标注的推理链                                       │
│  • 自动生成+自动验证的训练循环                                  │
│  • 推理能力涌现:反思、回溯、多路径探索                         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

5. 对齐技术的进步

5.1 对齐方法对比

Python
class AlignmentMethods:
    """对齐方法对比"""

    methods = {
        "RLHF": {
            "全称": "Reinforcement Learning from Human Feedback",
            "流程": "SFT → RM训练 → PPO",
            "优点": "效果稳定,OpenAI/Anthropic主力方案",
            "缺点": "训练复杂,需要单独的奖励模型",
            "代表": "GPT-4, Claude 2"
        },

        "DPO": {
            "全称": "Direct Preference Optimization",
            "流程": "SFT → 直接优化偏好",
            "优点": "简单稳定,无需奖励模型",
            "缺点": "需要高质量偏好数据",
            "代表": "Llama 2, Mistral"
        },

        "IPO": {
            "全称": "Identity Policy Optimization",
            "特点": "DPO的改进版,更稳定",
            "代表": "学术研究"
        },

        "KTO": {
            "全称": "Kahneman-Tversky Optimization",
            "特点": "不需要成对偏好数据",
            "代表": "开源社区"
        },

        "ConstitutionalAI": {
            "全称": "宪法AI(Anthropic)",
            "流程": "自我修正 + RLHF",
            "优点": "减少人工标注,可扩展",
            "代表": "Claude系列"
        },

        "RAILHF": {
            "全称": "推理增强RLHF(DeepSeek-R1)",
            "特点": "专注于推理能力的强化学习",
            "代表": "DeepSeek-R1"
        }
    }

5.2 安全对齐的演进

Text Only
┌─────────────────────────────────────────────────────────────────┐
│                    安全对齐演进                                  │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一代:规则过滤                                                │
│  ├── 关键词过滤                                                  │
│  ├── 简单分类器                                                  │
│  └── 问题:容易被绕过                                           │
│                                                                 │
│  第二代:红队测试                                                │
│  ├── 人工设计攻击样本                                           │
│  ├── 针对性训练                                                 │
│  └── 问题:覆盖不全                                             │
│                                                                 │
│  第三代:自动化红队                                              │
│  ├── 用模型自动生成攻击                                         │
│  ├── 大规模对抗训练                                             │
│  └── 持续更新攻击库                                             │
│                                                                 │
│  第四代:宪法AI(2024-2025)                                     │
│  ├── 定义"宪法"原则                                             │
│  ├── 模型自我修正                                               │
│  └── 减少人工干预                                               │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

6. 能力提升的量化分析

6.1 各代模型能力对比

Text Only
┌─────────────────────────────────────────────────────────────────┐
│              主流模型能力演进(MMLU分数)                         │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  2022: PaLM 540B      ~69%│  2023: GPT-4         ~86%
│  2023: Claude 2       ~78%
│  2023: LLaMA 2 70B    ~70%
│                                                                 │
│  2024: Claude 3.5     ~88%
│  2024: GPT-4o         ~88%
│  2024: LLaMA 3.1 405B ~85%
│  2024: DeepSeek-V3    ~88%
│                                                                 │
│  2025: Claude 4       ~90%+
│  2025: o3             ~92%+
│  2025: DeepSeek-R1    ~90%+
│  2025-2026: GPT-5.4 / Claude 4.6 / Gemini 2.5
│                                                                 │
│  观察:                                                          │
│  • 2022→2024:能力快速提升,主要来自数据+架构                    │
│  • 2024→2026:提升放缓,但推理、多模态和工具调用能力继续增强     │
│  • 开源模型(LLaMA/DeepSeek)快速追赶闭源                        │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

6.2 能力提升的边际效益

Text Only
Scaling Law的边际效益递减:

参数规模:
  7B → 70B:能力提升显著(~10-15% MMLU)
  70B → 700B:能力提升较小(~3-5% MMLU)
  结论:单纯堆参数的收益递减

数据规模:
  300B → 1T tokens:显著提升
  1T → 5T tokens:继续提升但放缓
  5T → 15T tokens:需要更高质量数据才能见效
  结论:数据质量比数量更重要

计算量:
  遵循Chinchilla最优:参数×数据≈常数
  但2024年后发现:过训练(更多数据)在小模型上也有效
  LLaMA 3:15T tokens训练405B,远超Chinchilla最优

7. 面试高频问答

Q1: 为什么大模型每次迭代都会更强?主要原因是什么?

:是多个因素叠加的结果,按贡献度排序: 1. 数据质量提升(~35%):更好的过滤、去重、质量评分,以及合成数据的使用 2. 架构创新(~25%):MoE、长上下文、注意力优化(MLA/DSA) 3. 训练方法改进(~20%):多阶段训练、课程学习、强化预训练 4. 对齐技术进步(~12%):RLHF→DPO、宪法AI、推理强化 5. 计算规模扩展(~8%):但边际效益递减

Q2: 现在的大模型架构和2017年的Transformer有什么主要区别?

:主要区别包括: - 位置编码:正弦编码 → RoPE(旋转位置编码),支持更长上下文 - 注意力优化:标准MHA → GQA/MLA,减少KV Cache - 激活函数:ReLU/GELU → SwiGLU,更好的梯度流 - 归一化:LayerNorm → RMSNorm,更简单高效 - 架构变体:稠密Transformer → MoE(混合专家) - 注意力机制:O(n²) → 稀疏注意力/线性注意力

Q3: 什么是"Scaling Law"?它还适用吗?

:Scaling Law描述了模型能力与参数量、数据量、计算量的幂律关系。核心发现: - 能力 ≈ 参数^α × 数据^β × 计算^γ - Chinchilla(2022)给出了计算最优配比

2024-2025的新发现: - "过训练"(Over-training)有效:LLaMA 3用15T tokens训练,远超Chinchilla最优 - 小模型+更多数据可以接近大模型效果 - Scaling Law仍然适用,但效率在提升

Q4: MoE架构为什么能实现"容量↑计算↓"?

:MoE的核心思想是条件计算: - 总参数量大:如DeepSeek-V3有671B参数 - 激活参数少:每个token只激活部分专家,约37B参数 - 路由机制:Gate网络决定每个token由哪些专家处理 - 效果:推理成本接近37B模型,但能力接近600B+模型

关键创新包括:细粒度专家、共享专家、负载均衡损失

Q5: 推理模型(如DeepSeek-R1、o1)是如何训练的?

:推理模型的训练范式与传统LLM不同: 1. 冷启动SFT:用少量高质量推理链数据建立基本格式 2. 大规模强化学习:GRPO等方法,自动生成推理链并基于正确性奖励 3. 拒绝采样+SFT:收集RL阶段高质量输出重新训练 4. 全场景RL:加入安全性、有用性奖励

关键是不依赖人类标注的推理链,而是自动生成+验证的闭环

Q6: 合成数据会取代真实数据吗?

:不会完全取代,但比例会越来越高: - 优势:可控、高质量、低成本 - 风险:模型坍缩、偏见放大 - 趋势:合成+真实混合,预计2026年合成数据占比可达50%+ - 关键:质量过滤和多样性保证


本章小结

Text Only
┌─────────────────────────────────────────────────────────────────┐
│                      核心要点总结                                │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  1. 模型迭代变强是多种因素叠加:                                 │
│     数据质量(35%) > 架构创新(25%) > 训练方法(20%)               │
│     > 对齐技术(12%) > 计算规模(8%)                              │
│                                                                 │
│  2. 架构演进主线:                                               │
│     • 注意力:标准MHA → GQA → MLA → 稀疏注意力                  │
│     • 位置编码:正弦 → RoPE → RoPE缩放 → M-RoPE                 │
│     • 架构:稠密 → MoE → 推理增强                               │
│                                                                 │
│  3. 数据工程是最大增量来源:                                     │
│     • 质量 > 数量                                               │
│     • 合成数据崛起                                              │
│     • 数据配比的艺术                                            │
│                                                                 │
│  4. 训练方法革新:                                               │
│     • 预训练:CLM → 多任务 → 代码+文本 → 强化预训练             │
│     • 后训练:SFT → RLHF → DPO → 推理RL                         │
│                                                                 │
│  5. 2025趋势:推理能力成为新战场                                 │
│     • DeepSeek-R1、o1/o3代表新范式                              │
│     • 强化学习驱动的推理能力提升                                │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

📝 本章练习

🤔 思考题

  1. Scaling Laws:Kaplan Scaling Laws 和 Chinchilla Scaling Laws 的核心结论分别是什么?为什么 Chinchilla 的结论改变了训练策略?
  2. 迭代演进:从 GPT-3 到 DeepSeek-R1,LLM 的能力提升主要来自哪些维度的改进?
  3. 推理能力突破:DeepSeek-R1 用纯 RL 训练推理能力的意义是什么?这对未来模型训练有什么启示?

💻 代码实践

  1. 入门:绘制 Scaling Laws 曲线,展示模型大小、数据量和计算量之间的关系
  2. 进阶:对比不同规模模型(1B vs 7B vs 70B)在相同任务上的性能差异
💡 参考答案 #### 思考题参考答案 **1. Scaling Laws** - **Kaplan**:模型性能与模型大小呈幂律关系,增大模型比增大数据更有效(建议训练较短时间的大模型) - **Chinchilla**:模型大小和数据量应该等比例增长,给定计算预算下的最优模型比之前认为的要小得多(需要更多数据) Chinchilla 改变训练策略:从"训练更大的模型"转向"用更多数据训练适当大小的模型",催生了 LLaMA 系列模型。 **2. 能力提升维度** - **架构**:Transformer → MoE + GQA + RoPE - **数据**:规模扩大 + 质量提升 + 多样化 - **训练方法**:预训练 → SFT → RLHF/DPO → 推理 RL - **推理优化**:量化、投机解码、KV Cache 优化 **3. R1 的意义** 证明了纯 RL(无 SFT 冷启动)可以激发模型的推理能力,降低了训练门槛。启示:奖励信号的质量比训练方法复杂度更重要;简单明确的规则奖励可能比复杂的偏好模型更有效。

扩展阅读

  1. Scaling Laws for Neural Language Models (Kaplan et al., 2020)
  2. Training Compute-Optimal Large Language Models (Chinchilla, 2022)
  3. LLaMA: Open and Efficient Foundation Language Models (2023)
  4. DeepSeek-V3 Technical Report (2024)
  5. DeepSeek-R1: Incentivizing Reasoning Capability (2025)

最后更新日期: 2026-04-21 适用版本: LLM 学习教程 v2026