11. DeepSeek 稀疏注意力（DSA）专题¶

⚠️ 时效性说明：本章涉及前沿模型/价格/榜单等信息，可能随版本快速变化；请以论文原文、官方发布页和 API 文档为准。

📌 定位说明：本章用于补齐 2025-2026 大模型前沿中的“DSA（DeepSeek Sparse Attention）”认知缺口。内容基于公开资料与工程抽象进行讲解，重点是可理解、可对比、可落地，不等价于厂商内部未公开实现细节。

✅ 外部核验（2026-02）： - DeepSeek-V3.2-Exp 模型页（含 DSA 说明）：https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp - DeepSeek API 官方新闻（V3.2-Exp）：https://api-docs.deepseek.com/news/news250929 - 稀疏注意力相关论文（NSA，arXiv:2502.11089）：https://arxiv.org/abs/2502.11089

⚠️ 边界声明：DSA 的完整实现细节并未全部公开，本章不对未公开内部实现作确定性断言。

1. 为什么需要 DSA¶

长上下文时代，标准注意力的核心瓶颈仍是：

计算复杂度随序列长度近似二次增长；
注意力分数矩阵尺寸大，带来显著显存和带宽压力；
在推理场景下，长序列 + 高并发会让延迟和吞吐难以同时满足。

在工程实践中，我们通常组合三类手段：

Kernel 优化：如 FlashAttention，降低 IO 开销；
缓存/调度优化：如 KV Cache、PagedAttention、连续批处理；
结构层优化：如 GQA/MQA、稀疏注意力（包括 DSA 方向）。

DSA 属于第 3 类：在注意力“连边结构”上做稀疏化，让每个 token 只与更关键的 token 交互，从而降低总体开销。

2. DSA 的核心思想¶

可以把 DSA 理解为“结构化 + 动态性兼顾”的稀疏注意力范式（教学抽象）：

结构化稀疏：保留局部窗口、关键锚点（如全局 token）等稳定连接；
动态稀疏：根据当前输入特征，对候选连接进行选择；
精度保护：在关键位置保持高信息通路，避免简单截断导致质量显著下降。

一个常见思路如下：

先定义基础连接（局部窗口 + 全局 token）；
再从剩余候选中基于打分选择 top-k；
最终仅在稀疏连接上计算注意力。

这类设计的工程目标是：

相比全连接注意力，显著减少无效计算；
相比纯固定稀疏模式，提升输入自适应能力；
与 FlashAttention、KV Cache、GQA 等优化兼容。

3. DSA 与 FlashAttention/MLA/GQA 的关系¶

很多同学会把这些技术混在一起。可用“层次视角”区分：

技术	优化层次	主要作用	是否可组合
DSA（稀疏注意力）	算法结构层	减少注意力连边数量	✅
FlashAttention	Kernel/IO 层	减少中间矩阵写回与显存访问	✅
GQA/MQA	注意力头参数化层	降低 KV 存储与访存开销	✅
MLA	注意力表示层	通过潜在空间压缩降低成本	✅
PagedAttention	推理内存管理层	提升 KV Cache 分配和并发效率	✅

结论：DSA 不是替代 FlashAttention/GQA/MLA，而是可与它们叠加。

4. 计算复杂度与显存开销分析¶

设序列长度为 \(n\)，每个 token 平均只保留 \(k\) 条注意力连接（\(k \ll n\)）：

Dense Attention：连接数约为 \(n^2\)；
Sparse Attention（理想化）：连接数约为 \(n \cdot k\)。

当 \(k\) 远小于 \(n\) 时，理论计算规模可由二次下降到近似线性增长。

但在真实系统中要考虑：

稀疏索引维护与 gather/scatter 额外开销；
kernel 对稀疏模式的支持程度；
稀疏策略导致的访存不连续性。

因此评估时要看“端到端收益”，而不只看 FLOPs。

5. 简化实现：从 Dense 到 Sparse¶

下面给出教学用伪代码（强调思路，不代表生产最优实现）：

Python

import torch
import torch.nn.functional as F

def build_sparse_mask(seq_len: int, window: int, topk_idx: torch.Tensor) -> torch.Tensor:
    """
    构建稀疏掩码（True 表示可见）
    topk_idx: [seq_len, k]，每个位置额外可见的索引
    """
    mask = torch.zeros(seq_len, seq_len, dtype=torch.bool)

    # 1) 局部窗口连接
    for i in range(seq_len):
        left = max(0, i - window)
        right = min(seq_len, i + window + 1)
        mask[i, left:right] = True

    # 2) 动态 top-k 连接
    row_ids = torch.arange(seq_len).unsqueeze(-1)  # unsqueeze增加一个维度
    mask[row_ids, topk_idx] = True

    # 3) 自身连接
    mask.fill_diagonal_(True)
    return mask

def sparse_attention(q: torch.Tensor, k: torch.Tensor, v: torch.Tensor, mask: torch.Tensor):
    """
    q, k, v: [B, H, N, D]
    mask: [N, N]
    """
    scale = q.size(-1) ** -0.5
    scores = torch.einsum('bhnd,bhmd->bhnm', q, k) * scale

    # 不可见位置置为 -inf
    scores = scores.masked_fill(~mask.unsqueeze(0).unsqueeze(0), float('-inf'))

    probs = F.softmax(scores, dim=-1)
    out = torch.einsum('bhnm,bhmd->bhnd', probs, v)
    return out

实际工程中通常会进一步把稀疏模式与高性能 kernel 结合，避免在 dense 矩阵上“先算后屏蔽”。

6. 工程落地：训练与推理的注意事项¶

6.1 训练阶段¶

从 dense warmup 到 sparse：先稳定训练，再逐步引入稀疏约束，避免早期收敛震荡；
监控稀疏连接分布：防止连边过于集中，导致信息瓶颈；
对齐评测集：重点跟踪长文本任务、检索增强任务、推理任务的质量变化。

6.2 推理阶段¶

与 KV Cache / PagedAttention 联动评估，关注吞吐与 P99 延迟；
在不同上下文长度（4K/16K/32K/128K）分别压测；
评估“单位成本质量”：同质量下是否显著降低显存占用和推理成本。

6.3 与现有栈的兼容性建议¶

若你已有 FlashAttention + GQA：优先做小规模 A/B，验证稀疏策略收益；
若你场景以短上下文为主：DSA 收益可能不如长上下文明显；
若你追求高并发服务：优先关注 DSA 与调度/缓存系统的协同效果。

7. 面试高频问答¶

Q1：DSA 和 FlashAttention 的本质区别？¶

答：DSA 是“连边结构优化”（减少要算的边），FlashAttention 是“kernel/IO 优化”（更高效地算这些边）。两者可叠加，不冲突。

Q2：DSA 一定比 Dense 好吗？¶

答：不一定。序列较短、稀疏 kernel 不成熟或访存不连续时，收益可能不明显；需要端到端压测。

Q3：怎么判断 DSA 值不值得上生产？¶

答：用统一评测集比较质量（准确率、鲁棒性）与系统指标（吞吐、P99、显存、成本），在“质量约束不退化”下再看收益。

8. 本章小结与实践任务¶

本章小结¶

DSA 是长上下文时代的重要稀疏注意力方向；
它解决的是“算哪些边”，而 FlashAttention 解决的是“这些边怎么高效算”；
在工程上应与 GQA/MLA/KV Cache/PagedAttention 联合评估。

实践任务¶

在一个小型 Transformer 上实现“局部窗口 + top-k”稀疏掩码；
对比 dense vs sparse 的显存峰值、吞吐、P99 延迟；
在 4K/16K/32K 上下文下做质量-性能曲线；
输出一份“是否上线 DSA”的技术决策文档（含回滚策略）。