12. 大模型迭代演进与能力提升¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

核心问题：为什么大模型每次迭代都会更强？是架构更新、数据规模、还是训练方法的改进？

目录¶

大模型能力提升的四大支柱
架构演进时间线
数据工程的演进
训练方法的革新
对齐技术的进步
能力提升的量化分析
面试高频问答

1. 大模型能力提升的四大支柱¶

1.1 核心公式¶

大模型的最终能力可以抽象为：

Text Only

模型能力 = f(架构, 数据, 计算量, 训练方法, 对齐)

其中：
- 架构：Transformer变体、MoE、注意力机制创新
- 数据：质量 > 数量、多样性、合成数据
- 计算量：遵循Scaling Law，但效率在提升
- 训练方法：预训练目标、课程学习、多阶段训练
- 对齐：RLHF、DPO、Constitutional AI

1.2 各因素贡献度分析¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│              大模型能力提升贡献度（2023-2026）                      │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  数据质量提升        ████████████████████  35%│  架构创新            ████████████████      25%
│  训练方法改进        ████████████          20%
│  对齐技术进步        ████████              12%
│  计算规模扩展        ████                   8%
│                                                                 │
│  关键洞察：                                                       │
│  • 2024年后，数据质量成为最大增量来源                              │
│  • 架构创新（MoE/长上下文/推理模型）贡献显著                        │
│  • 单纯堆计算量的边际效益递减                                       │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

1.3 为什么"每次迭代都更强"？¶

Text Only

实际上，模型迭代变强是多个因素叠加的结果：

┌────────────────────────────────────────────────────────────────┐
│                    模型迭代变强的原因                           │
├────────────────────────────────────────────────────────────────┤
│                                                                │
│  1. 数据层面（贡献 ~35%）                                       │
│     ├── 数据质量：过滤算法、去重、质量评分                        │
│     ├── 数据多样性：多语言、多领域、多任务                        │
│     ├── 合成数据：用强模型生成高质量训练数据                      │
│     └── 课程学习：从简单到难的数据组织                           │
│                                                                │
│  2. 架构层面（贡献 ~25%）                                       │
│     ├── MoE：稀疏激活，容量↑计算↓│
│     ├── 长上下文：RoPE改进、KV Cache优化、注意力稀疏化            │
│     ├── 推理架构：思维链、慢思考系统                              │
│     └── 多模态融合：统一架构处理多种模态                          │
│                                                                │
│  3. 训练方法（贡献 ~20%）                                       │
│     ├── 预训练目标：MLM → CLM → 多任务预训练                     │
│     ├── 训练稳定性：Loss尖峰抑制、梯度裁剪改进                    │
│     ├── 分布式训练：3D并行、ZeRO优化                              │
│     └── 后训练：SFT → RLHF → DPO → 强化推理                      │
│                                                                │
│  4. 对齐技术（贡献 ~12%）                                       │
│     ├── RLHF：人类反馈强化学习                                   │
│     ├── DPO：直接偏好优化（更稳定）                              │
│     ├── Constitutional AI：宪法AI（自我修正）                    │
│     └── 安全对齐：红队测试、对抗训练                              │
│                                                                │
│  5. 计算规模（贡献 ~8%）                                        │
│     ├── Scaling Law：规模↑能力↑                                 │
│     ├── 但边际效益递减：7B→70B提升大，70B→700B提升小              │
│     └── 效率优化：让同样算力训练更大模型                          │
│                                                                │
└────────────────────────────────────────────────────────────────┘

2. 架构演进时间线¶

2.1 Transformer架构演进¶

Text Only

2017: 原始Transformer（Attention Is All You Need）
      └── 多头注意力、位置编码、残差连接

2018-2019: 预训练语言模型
      ├── BERT：双向编码器，MLM预训练
      ├── GPT：自回归解码器，CLM预训练
      └── T5：编码器-解码器，文本到文本框架

2020-2022: 规模化时代
      ├── GPT-3：175B参数，Few-shot能力涌现
      ├── PaLM：540B，思维链能力
      └── Chinchilla：计算最优缩放定律

2023: 架构创新爆发
      ├── LLaMA：开源标杆，RoPE、SwiGLU、RMSNorm
      ├── Mistral：滑动窗口注意力
      └── GPT-4：MoE架构（推测）

2024: 效率与能力双提升
      ├── DeepSeek-V2/V3：MLA（多头潜在注意力）、DeepSeekMoE
      ├── LLaMA 3：大规模训练、高质量数据
      ├── Qwen2：长上下文、多语言
      └── Mixtral：开源MoE

2025-2026: 推理与 Agent 工程化时代
      ├── DeepSeek-R1 / DeepSeek-V3.2：强化学习推理路线与 agent 取向
      ├── OpenAI o1/o3 / GPT-5.4：可控推理深度与 agent workflow
      ├── Claude 4.6：1M context，Opus 以 adaptive thinking 为主，Sonnet 支持 extended thinking
      ├── Gemini 2.5 Pro：Preview，多模态复杂任务与 1M 输入上下文
      └── Qwen 3.5：围绕 agent 与工具使用场景持续演进

2.2 核心架构创新详解¶

2.2.1 注意力机制演进¶

Python

class AttentionEvolution:
    """注意力机制演进时间线"""

    timeline = {
        "2017-Standard": {
            "name": "标准多头注意力",
            "complexity": "O(n²)",
            "memory": "O(n²)",
            "特点": "全连接注意力，所有token两两交互"
        },

        "2020-Longformer": {
            "name": "稀疏注意力",
            "complexity": "O(n)",
            "特点": "局部窗口 + 全局token，牺牲部分交互"
        },

        "2021-FlashAttention": {
            "name": "IO感知注意力",
            "complexity": "O(n²)计算，但IO优化",
            "特点": "分块计算，减少HBM访问，训练加速2-4x"
        },

        "2022-GQA/MQA": {
            "name": "分组查询注意力",
            "complexity": "KV Cache减少",
            "特点": "多组共享KV，推理加速，质量损失小"
        },

        "2024-MLA": {
            "name": "多头潜在注意力（DeepSeek）",
            "complexity": "KV Cache压缩90%+",
            "特点": "将KV压缩到低维潜在空间，大幅降低显存"
        },

        "2024-DSA": {
            "name": "DeepSeek稀疏注意力",
            "complexity": "O(n·k), k << n",
            "特点": "结构化+动态稀疏，与FlashAttention兼容"
        },

        "2025-NSA": {
            "name": "Native Sparse Attention",
            "complexity": "O(n·k)",
            "特点": "可学习的稀疏模式，端到端训练"
        }
    }

2.2.2 MoE架构演进¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                      MoE架构演进                                 │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一代：Switch Transformer (2021)                               │
│  ├── 简单Top-1路由                                               │
│  ├── 负载均衡问题                                                │
│  └── 训练不稳定                                                  │
│                                                                 │
│  第二代：GShard/GPT-4 MoE (2022-2023)                            │
│  ├── Top-2路由 + 负载均衡损失                                    │
│  ├── 专家容量限制                                                │
│  └── 更稳定的训练                                                │
│                                                                 │
│  第三代：Mixtral/DeepSeekMoE (2024)                              │
│  ├── 细粒度专家（更多小专家）                                     │
│  ├── 共享专家（always active）                                   │
│  └── 更好的专家专业化                                            │
│                                                                 │
│  关键洞察：                                                       │
│  • MoE实现"容量↑计算↓"                                           │
│  • 总参数量大，但每个token只激活部分参数                          │
│  • DeepSeek-V3：671B总参数，37B激活参数                          │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

2.2.4 DeepSeek-V3 推理特性详解（2024-2025）¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│              DeepSeek-V3 核心推理优化技术                          │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  一、Multi-Head Latent Attention（MLA）                         │
│  ├── 核心创新：低秩联合压缩KV Cache                               │
│  ├── 技术原理：                                                  │
│  │   • 将高维KV矩阵压缩到低维潜在空间                            │
│  │   • 压缩后维度 d_c << d_h × n_h                             │
│  │   • 仅需缓存压缩潜在向量，而非完整KV矩阵                      │
│  ├── 优化效果：                                                  │
│  │   • KV Cache压缩率约93.3%                                    │
│  │   • 显著降低推理显存占用                                      │
│  │   • 支持更大Batch Size和更长序列                              │
│  ├── 解耦RoPE策略：                                              │
│  │   • Q和K分别携带部分位置信息                                  │
│  │   • 通过矩阵乘法自然融入位置编码                              │
│  │   • 避免压缩后位置信息丢失问题                                │
│                                                                 │
│  二、DeepSeekMoE 架构                                            │
│  ├── 架构组成：                                                  │
│  │   • 1个共享专家（always active，处理通用知识）                │
│  │   • 256个路由专家（动态激活，处理特定任务）                   │
│  ├── 细粒度专家划分：                                            │
│  │   • 相比粗粒度划分，组合自由度提升823倍                       │
│  │   • 专家专业化程度更高                                        │
│  ├── 无辅助损失负载均衡：                                        │
│  │   • 动态调整专家偏置项                                        │
│  │   • 避免辅助损失对模型性能的干扰                              │
│  │   • 提升训练稳定性                                            │
│                                                                 │
│  三、FP8 推理优化                                                │
│  ├── FP8量化策略：                                              │
│  │   • 原生FP8权重开源                                          │
│  │   • 采用E4M3格式（4位指数+3位尾数）                         │
│  │   • 平衡精度与动态范围                                        │
│  ├── 权重量化（Block-wise）：                                     │
│  │   • 块大小128×128                                            │
│  │   • 每块独立量化参数（缩放因子s + 零点z）                   │
│  │   • 离线预计算，减少推理计算开销                               │
│  ├── 激活量化（Per-token-group）：                                │
│  │   • 动态在线量化                                              │
│  │   • 每token每组独立量化参数                                   │
│  ├── 框架支持：                                                  │
│  │   • SGLang：原生FP8推理支持                                  │
│  │   • LMDeploy：原生FP8推理支持                                │
│  │   • TensorRT-LLM：BF16推理                                   │
│                                                                 │
│  四、多Token预测（MTP）                                          │
│  ├── 训练目标：同时预测多个未来token                              │
│  ├── 效果：                                                      │
│  │   • 推理速度从前代20 TPS提升至60 TPS（3倍）                  │
│  │   • 增强上下文连贯性                                          │
│  │   • 缩短20%-30%训练时间                                      │
│                                                                 │
│  五、推理部署配置                                                │
│  ├── Prefill阶段：                                               │
│  │   • 路由专家EP32，MLA和共享专家DP32                          │
│  │   • 部署单元：4节点，32冗余路由专家                          │
│  │   • 每卡：9个路由专家 + 1个共享专家                           │
│  ├── Decode阶段：                                                │
│  │   • 路由专家EP144，MLA和共享专家DP144                        │
│  │   • 部署单元：18节点，32冗余路由专家                         │
│  │   • 每卡：2个路由专家 + 1个共享专家                          │
│  ├── 计算通信重叠：                                              │
│  │   • 双batch重叠策略                                           │
│  │   • Prefill：计算与通信交错进行                              │
│  │   • Decode：掩盖通信开销，提高吞吐                           │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

DeepSeek-V3 技术演进时间线（2024-2026）

Text Only

2024年12月：DeepSeek-V3 首发
├── 671B参数，37B激活
├── MLA + DeepSeekMoE
├── FP8混合精度训练
└── 推理速度20 TPS

2025年3月：DeepSeek-V3-0324 更新
├── 推理任务表现提升（超越GPT-4.5）
├── 前端开发能力增强
├── 中文写作优化
├── MIT开源协议
└── 推理速度达60 TPS

2025年12月：DeepSeek-V3.2 发布
├── 融入思考推理，强化Agent能力
├── 达到GPT-5水平
└── 输出长度大幅降低（相比Kimi-K2-Thinking）

2026年：持续优化
├── 更多框架支持
└── 生产级部署成熟

2.2.3 位置编码演进¶

Python

class PositionalEncodingEvolution:
    """位置编码演进"""

    def sinusoidal(self, seq_len, d_model):
        """2017: 正弦位置编码（原始Transformer）"""
        # 固定编码，不可学习
        # 外推能力差
        pass

    def learned_positional(self, seq_len, d_model):
        """2018: 可学习位置编码（BERT/GPT-2）"""
        # 可学习，但有最大长度限制
        # 无法外推到训练长度之外
        pass

    def rope(self, seq_len, d_model):
        """2021: RoPE旋转位置编码（LLaMA）"""
        # 通过旋转矩阵编码相对位置
        # 有一定的外推能力
        # 成为2023-2024主流方案
        pass

    def rope_scaling(self, seq_len, d_model, scaling_factor):
        """2023: RoPE缩放（长上下文扩展）"""
        # NTK-aware scaling
        # YaRN (Yet another RoPE extension)
        # 支持128K+上下文
        pass

    def m_rope(self, seq_len, d_model):
        """2024: M-RoPE（Qwen2-VL多模态）"""
        # 3D位置编码：时间、高度、宽度
        # 支持视频、高分辨率图像
        pass

3. 数据工程的演进¶

3.1 数据质量 > 数据数量¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                    数据工程演进                                  │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  2020-2021：规模至上                                             │
│  ├── GPT-3：300B tokens                                         │
│  ├── 简单过滤：去重、去HTML                                      │
│  └── 信条：更多数据 = 更强模型                                   │
│                                                                 │
│  2022-2023：质量觉醒                                             │
│  ├── Chinchilla：计算最优 = 数据质量×规模平衡                    │
│  ├── LLaMA：经过严格清洗的1.4T tokens                           │
│  └── 发现：高质量1T > 低质量10T                                  │
│                                                                 │
│  2024：精细化数据工程                                            │
│  ├── Phi系列：教科书质量数据，小模型大能力                       │
│  ├── LLaMA 3：15T+ tokens，多阶段质量提升                       │
│  ├── 数据质量评分模型                                            │
│  └── 课程学习：从简单到难                                        │
│                                                                 │
│  2025：合成数据时代                                              │
│  ├── 用强模型生成训练数据                                        │
│  ├── 推理链数据合成（DeepSeek-R1）                               │
│  ├── 代码数据合成                                                │
│  └── 合成+真实混合                                               │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

3.2 数据配比的艺术¶

Python

class DataMixingStrategy:
    """数据配比策略"""

    # LLaMA 3的数据配比（推测）
    llama3_mix = {
        "通用网页": "50%",        # CommonCrawl高质量子集
        "代码": "20%",           # GitHub、代码教程
        "数学/推理": "10%",      # 数学教材、推理数据
        "学术文献": "10%",       # arXiv、论文
        "百科/知识": "5%",       # Wikipedia、知识库
        "对话/指令": "5%"        # 高质量对话数据
    }

    # 代码能力专项配比
    code_optimized_mix = {
        "代码": "50%",           # 大幅提升代码比例
        "代码+自然语言": "20%",  # 代码解释、文档
        "通用网页": "15%",
        "数学/推理": "10%",
        "其他": "5%"
    }

    # 推理能力专项配比
    reasoning_optimized_mix = {
        "数学": "25%",           # 数学推理
        "科学文献": "20%",       # 科学推理
        "逻辑谜题": "15%",       # 逻辑推理
        "代码": "15%",           # 程序推理
        "通用": "25%"
    }

3.3 合成数据的崛起¶

Text Only

为什么合成数据越来越重要？

1. 高质量真实数据枯竭
   ├── 互联网高质量文本已被大量使用
   ├── 特定领域（医疗、法律）数据稀缺
   └── 标注成本高昂

2. 合成数据的优势
   ├── 可控性：按需生成特定类型数据
   ├── 质量：用GPT-4生成数据质量接近人工
   ├── 多样性：可生成各种边缘案例
   └── 成本：比人工标注便宜100x+

3. 合成数据应用
   ├── SFT数据：用强模型生成指令-回复对
   ├── 推理链：生成带思维链的问答
   ├── 代码数据：生成代码+解释+测试用例
   └── 偏好数据：生成对比样本用于DPO

4. 风险与挑战
   ├── 模型坍缩：合成数据训练的模型可能退化
   ├── 偏见放大：合成数据可能放大数据偏见
   └── 解决方案：合成+真实混合，质量过滤

4. 训练方法的革新¶

4.1 预训练目标演进¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                    预训练目标演进                                │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一代：自编码（BERT）                                          │
│  ├── MLM（Masked Language Modeling）                            │
│  ├── 缺点：不适合生成任务                                        │
│  └── 适用：理解任务（分类、抽取）                                │
│                                                                 │
│  第二代：自回归（GPT系列）                                       │
│  ├── CLM（Causal Language Modeling）                            │
│  ├── 优点：天然适合生成                                          │
│  └── 成为主流选择                                                │
│                                                                 │
│  第三代：多任务预训练（T5/FLAN）                                 │
│  ├── 统一的文本到文本框架                                        │
│  ├── 混合多种任务                                                │
│  └── 提升泛化能力                                                │
│                                                                 │
│  第四代：代码+文本联合预训练                                     │
│  ├── 代码数据增强推理能力                                        │
│  ├── LLaMA 2/3、DeepSeek都采用                                  │
│  └── 发现：代码训练提升整体能力                                  │
│                                                                 │
│  第五代：强化预训练（2025）                                      │
│  ├── DeepSeek-V3：在预训练中引入强化学习信号                     │
│  ├── 推理模型：在预训练后进行大规模RL训练                        │
│  └── 打破传统SFT→RLHF范式                                       │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

4.2 后训练（Post-training）演进¶

Python

class PostTrainingEvolution:
    """后训练方法演进"""

    # 2022: InstructGPT范式
    def stage_1_instructgpt(self):
        """
        SFT → RM训练 → PPO强化学习
        开创了三阶段对齐范式
        """
        pass

    # 2023: 对话能力强化
    def stage_2_chat_optimization(self):
        """
        多轮对话数据
        安全性训练
        拒绝回答训练
        """
        pass

    # 2024: DPO崛起
    def stage_3_dpo(self):
        """
        Direct Preference Optimization
        无需训练奖励模型
        更稳定、更简单
        """
        pass

    # 2025: 强化推理
    def stage_4_reasoning_rl(self):
        """
        DeepSeek-R1: 大规模GRPO训练
        OpenAI o1: 推理时搜索+强化学习
        专注于推理能力提升
        """
        pass

4.3 推理模型的训练范式¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                  推理模型训练范式（2025）                         │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  DeepSeek-R1训练流程：                                          │
│                                                                 │
│  阶段1: 冷启动SFT                                               │
│  ├── 使用少量高质量推理链数据                                   │
│  ├── 建立基本的推理格式                                         │
│  └── 数据量：数千条                                             │
│                                                                 │
│  阶段2: 推理强化学习（核心）                                    │
│  ├── GRPO（Group Relative Policy Optimization）                 │
│  ├── 大规模自动生成推理链                                       │
│  ├── 基于正确性信号的奖励                                       │
│  └── 训练量：数百万推理样本                                     │
│                                                                 │
│  阶段3: 拒绝采样+ SFT                                           │
│  ├── 收集RL阶段的高质量输出                                     │
│  ├── 重新训练SFT模型                                            │
│  └── 提升输出质量稳定性                                         │
│                                                                 │
│  阶段4: 全场景RL                                                │
│  ├── 加入安全性、有用性奖励                                     │
│  ├── 平衡推理能力与通用能力                                     │
│  └── 最终模型                                                   │
│                                                                 │
│  关键创新：                                                      │
│  • 不依赖人类标注的推理链                                       │
│  • 自动生成+自动验证的训练循环                                  │
│  • 推理能力涌现：反思、回溯、多路径探索                         │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

5. 对齐技术的进步¶

5.1 对齐方法对比¶

Python

class AlignmentMethods:
    """对齐方法对比"""

    methods = {
        "RLHF": {
            "全称": "Reinforcement Learning from Human Feedback",
            "流程": "SFT → RM训练 → PPO",
            "优点": "效果稳定，OpenAI/Anthropic主力方案",
            "缺点": "训练复杂，需要单独的奖励模型",
            "代表": "GPT-4, Claude 2"
        },

        "DPO": {
            "全称": "Direct Preference Optimization",
            "流程": "SFT → 直接优化偏好",
            "优点": "简单稳定，无需奖励模型",
            "缺点": "需要高质量偏好数据",
            "代表": "Llama 2, Mistral"
        },

        "IPO": {
            "全称": "Identity Policy Optimization",
            "特点": "DPO的改进版，更稳定",
            "代表": "学术研究"
        },

        "KTO": {
            "全称": "Kahneman-Tversky Optimization",
            "特点": "不需要成对偏好数据",
            "代表": "开源社区"
        },

        "ConstitutionalAI": {
            "全称": "宪法AI（Anthropic）",
            "流程": "自我修正 + RLHF",
            "优点": "减少人工标注，可扩展",
            "代表": "Claude系列"
        },

        "RAILHF": {
            "全称": "推理增强RLHF（DeepSeek-R1）",
            "特点": "专注于推理能力的强化学习",
            "代表": "DeepSeek-R1"
        }
    }

5.2 安全对齐的演进¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                    安全对齐演进                                  │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  第一代：规则过滤                                                │
│  ├── 关键词过滤                                                  │
│  ├── 简单分类器                                                  │
│  └── 问题：容易被绕过                                           │
│                                                                 │
│  第二代：红队测试                                                │
│  ├── 人工设计攻击样本                                           │
│  ├── 针对性训练                                                 │
│  └── 问题：覆盖不全                                             │
│                                                                 │
│  第三代：自动化红队                                              │
│  ├── 用模型自动生成攻击                                         │
│  ├── 大规模对抗训练                                             │
│  └── 持续更新攻击库                                             │
│                                                                 │
│  第四代：宪法AI（2024-2025）                                     │
│  ├── 定义"宪法"原则                                             │
│  ├── 模型自我修正                                               │
│  └── 减少人工干预                                               │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

6. 能力提升的量化分析¶

6.1 各代模型能力对比¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│              主流模型能力演进（MMLU分数）                         │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  2022: PaLM 540B      ~69%│  2023: GPT-4         ~86%
│  2023: Claude 2       ~78%
│  2023: LLaMA 2 70B    ~70%
│                                                                 │
│  2024: Claude 3.5     ~88%
│  2024: GPT-4o         ~88%
│  2024: LLaMA 3.1 405B ~85%
│  2024: DeepSeek-V3    ~88%
│                                                                 │
│  2025: Claude 4       ~90%+
│  2025: o3             ~92%+
│  2025: DeepSeek-R1    ~90%+
│  2025-2026: GPT-5.4 / Claude 4.6 / Gemini 2.5
│                                                                 │
│  观察：                                                          │
│  • 2022→2024：能力快速提升，主要来自数据+架构                    │
│  • 2024→2026：提升放缓，但推理、多模态和工具调用能力继续增强     │
│  • 开源模型（LLaMA/DeepSeek）快速追赶闭源                        │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

6.2 能力提升的边际效益¶

Text Only

Scaling Law的边际效益递减：

参数规模：
  7B → 70B：能力提升显著（~10-15% MMLU）
  70B → 700B：能力提升较小（~3-5% MMLU）
  结论：单纯堆参数的收益递减

数据规模：
  300B → 1T tokens：显著提升
  1T → 5T tokens：继续提升但放缓
  5T → 15T tokens：需要更高质量数据才能见效
  结论：数据质量比数量更重要

计算量：
  遵循Chinchilla最优：参数×数据≈常数
  但2024年后发现：过训练（更多数据）在小模型上也有效
  LLaMA 3：15T tokens训练405B，远超Chinchilla最优

7. 面试高频问答¶

Q1: 为什么大模型每次迭代都会更强？主要原因是什么？¶

答：是多个因素叠加的结果，按贡献度排序： 1. 数据质量提升（~35%）：更好的过滤、去重、质量评分，以及合成数据的使用 2. 架构创新（~25%）：MoE、长上下文、注意力优化（MLA/DSA） 3. 训练方法改进（~20%）：多阶段训练、课程学习、强化预训练 4. 对齐技术进步（~12%）：RLHF→DPO、宪法AI、推理强化 5. 计算规模扩展（~8%）：但边际效益递减

Q2: 现在的大模型架构和2017年的Transformer有什么主要区别？¶

答：主要区别包括： - 位置编码：正弦编码 → RoPE（旋转位置编码），支持更长上下文 - 注意力优化：标准MHA → GQA/MLA，减少KV Cache - 激活函数：ReLU/GELU → SwiGLU，更好的梯度流 - 归一化：LayerNorm → RMSNorm，更简单高效 - 架构变体：稠密Transformer → MoE（混合专家） - 注意力机制：O(n²) → 稀疏注意力/线性注意力

Q3: 什么是"Scaling Law"？它还适用吗？¶

答：Scaling Law描述了模型能力与参数量、数据量、计算量的幂律关系。核心发现： - 能力 ≈ 参数^α × 数据^β × 计算^γ - Chinchilla（2022）给出了计算最优配比

2024-2025的新发现： - "过训练"（Over-training）有效：LLaMA 3用15T tokens训练，远超Chinchilla最优 - 小模型+更多数据可以接近大模型效果 - Scaling Law仍然适用，但效率在提升

Q4: MoE架构为什么能实现"容量↑计算↓"？¶

答：MoE的核心思想是条件计算： - 总参数量大：如DeepSeek-V3有671B参数 - 激活参数少：每个token只激活部分专家，约37B参数 - 路由机制：Gate网络决定每个token由哪些专家处理 - 效果：推理成本接近37B模型，但能力接近600B+模型

关键创新包括：细粒度专家、共享专家、负载均衡损失

Q5: 推理模型（如DeepSeek-R1、o1）是如何训练的？¶

答：推理模型的训练范式与传统LLM不同： 1. 冷启动SFT：用少量高质量推理链数据建立基本格式 2. 大规模强化学习：GRPO等方法，自动生成推理链并基于正确性奖励 3. 拒绝采样+SFT：收集RL阶段高质量输出重新训练 4. 全场景RL：加入安全性、有用性奖励

关键是不依赖人类标注的推理链，而是自动生成+验证的闭环

Q6: 合成数据会取代真实数据吗？¶

答：不会完全取代，但比例会越来越高： - 优势：可控、高质量、低成本 - 风险：模型坍缩、偏见放大 - 趋势：合成+真实混合，预计2026年合成数据占比可达50%+ - 关键：质量过滤和多样性保证

本章小结¶

Text Only

┌─────────────────────────────────────────────────────────────────┐
│                      核心要点总结                                │├─────────────────────────────────────────────────────────────────┤
│                                                                 │
│  1. 模型迭代变强是多种因素叠加：                                 │
│     数据质量(35%) > 架构创新(25%) > 训练方法(20%)               │
│     > 对齐技术(12%) > 计算规模(8%)                              │
│                                                                 │
│  2. 架构演进主线：                                               │
│     • 注意力：标准MHA → GQA → MLA → 稀疏注意力                  │
│     • 位置编码：正弦 → RoPE → RoPE缩放 → M-RoPE                 │
│     • 架构：稠密 → MoE → 推理增强                               │
│                                                                 │
│  3. 数据工程是最大增量来源：                                     │
│     • 质量 > 数量                                               │
│     • 合成数据崛起                                              │
│     • 数据配比的艺术                                            │
│                                                                 │
│  4. 训练方法革新：                                               │
│     • 预训练：CLM → 多任务 → 代码+文本 → 强化预训练             │
│     • 后训练：SFT → RLHF → DPO → 推理RL                         │
│                                                                 │
│  5. 2025趋势：推理能力成为新战场                                 │
│     • DeepSeek-R1、o1/o3代表新范式                              │
│     • 强化学习驱动的推理能力提升                                │
│                                                                 │
└─────────────────────────────────────────────────────────────────┘

📝 本章练习¶

🤔 思考题¶

Scaling Laws：Kaplan Scaling Laws 和 Chinchilla Scaling Laws 的核心结论分别是什么？为什么 Chinchilla 的结论改变了训练策略？
迭代演进：从 GPT-3 到 DeepSeek-R1，LLM 的能力提升主要来自哪些维度的改进？
推理能力突破：DeepSeek-R1 用纯 RL 训练推理能力的意义是什么？这对未来模型训练有什么启示？

💻 代码实践¶

入门：绘制 Scaling Laws 曲线，展示模型大小、数据量和计算量之间的关系
进阶：对比不同规模模型（1B vs 7B vs 70B）在相同任务上的性能差异

💡 参考答案

#### 思考题参考答案 **1. Scaling Laws** - **Kaplan**：模型性能与模型大小呈幂律关系，增大模型比增大数据更有效（建议训练较短时间的大模型） - **Chinchilla**：模型大小和数据量应该等比例增长，给定计算预算下的最优模型比之前认为的要小得多（需要更多数据） Chinchilla 改变训练策略：从"训练更大的模型"转向"用更多数据训练适当大小的模型"，催生了 LLaMA 系列模型。 **2. 能力提升维度** - **架构**：Transformer → MoE + GQA + RoPE - **数据**：规模扩大 + 质量提升 + 多样化 - **训练方法**：预训练 → SFT → RLHF/DPO → 推理 RL - **推理优化**：量化、投机解码、KV Cache 优化 **3. R1 的意义** 证明了纯 RL（无 SFT 冷启动）可以激发模型的推理能力，降低了训练门槛。启示：奖励信号的质量比训练方法复杂度更重要；简单明确的规则奖励可能比复杂的偏好模型更有效。

扩展阅读¶

最后更新日期： 2026-04-21 适用版本： LLM 学习教程 v2026