10. 最新模型与 Agent 技术（2026年3月复核）¶

⚠️ 时效性说明：本章只保留截至 2026-03-26 可从官方发布页、模型卡、API 文档直接核实的信息。无法从官方页面确认的社区传闻、混合 benchmark 总榜、跨平台价格表，不纳入事实表。

目录¶

OpenAI GPT-5.4
Anthropic Claude 4.6
Google Gemini 2.5 Pro
Qwen 3.5
DeepSeek 最新公开状态
2026 年 Agent 技术趋势
官方核验快照

1. OpenAI GPT-5.4¶

1.1 已核实信息¶

OpenAI 于 2026-03-05（美国时间）发布 GPT-5.4；北京时间对应 2026-03-06。
GPT-5.4 同步进入 ChatGPT、API 和 Codex。
OpenAI 最新模型文档当前将 gpt-5.4 定位为重要通用任务与编码任务的默认旗舰模型，将 gpt-5.4-pro 定位为更难问题的高算力版本。
GPT-5.4 官方文档当前确认 1M context window。
OpenAI 平台定价页当前确认：
- gpt-5.4 采用输入 / cached input / 输出分开计费
- gpt-5.4-pro 采用更高档位的输入 / 输出分开计费
OpenAI 当前文档对 GPT-5.4 系列提供 reasoning.effort 五档：none、low、medium、high、xhigh。

1.2 教程中应如何理解¶

GPT-5.4 适合需要较强推理、编码和 agent workflow 的复杂任务。
gpt-5.4-pro 更适合高难审计、复杂设计和长链问题分解。
如果你只需要“最新的 OpenAI 推理控制能力”，应重点关注 reasoning effort，而不是依赖非官方 benchmark 汇总表。
具体上下文长度、子型号上架情况和区域可用性，仍应以 OpenAI 平台页和控制台可见型号为准。

1.3 使用原则¶

Text Only

简单任务       → none / low
通用生产任务   → medium
复杂调试/设计  → high
高难研究/审计  → xhigh

2. Anthropic Claude 4.6¶

2.1 已核实信息¶

Anthropic 于 2026-02-05 发布 Claude Opus 4.6。
Anthropic 于 2026-02-17 发布 Claude Sonnet 4.6。
官方模型总览页给出的 Claude API ID：
claude-opus-4-6
claude-sonnet-4-6
官方文档确认：
Opus 4.6 是 Anthropic 当前最强的模型，重点面向 agents 和 coding。
Sonnet 4.6 是速度与智能的平衡型模型。
两者都提供 1M context window。
Opus 4.6 最大输出 128k tokens，Sonnet 4.6 最大输出 64k tokens。
Claude API Docs 当前确认：
claude-opus-4-6 与 claude-sonnet-4-6 都按输入 / 输出分开计费
Anthropic 官方常用 MTok 口径展示价格

2.2 Extended Thinking 的正确理解¶

Claude Opus 4.6：官方文档说明以 adaptive thinking 为主，手动 type: "enabled" 已弃用。
Claude Sonnet 4.6：同时支持手动 extended thinking 和 adaptive thinking。
因此，如果教程要演示“显式设置 thinking budget”，应优先用 claude-sonnet-4-6 示例，而不是继续沿用旧的 Opus 手动写法。

3. Google Gemini 2.5 Pro¶

3.1 已核实信息¶

Google 于 2025-03-26 发布 Gemini 2.5 Pro。
官方状态：Preview。
官方模型卡确认：
输入上限：1M tokens
输出上限：64k tokens
原生多模态输入：文本、图像、视频、音频、PDF
Gemini Developer API 定价页当前确认：
gemini-2.5-pro 同时区分 Standard 与 Batch 两种计费模式
Standard / Batch 都会按输入 / 输出分别计费
价格档位还会受 prompt 长度阈值影响，因此更适合在教程中保留“计费结构”而非静态单价
官方 Gemini API 文档对 Gemini 2.5 系列确认支持 Function calling、Structured outputs、Search grounding、Code execution。

3.2 教程中应如何使用这些信息¶

Gemini 2.5 Pro 更适合复杂、多模态、长上下文任务。
因为目前仍是 preview，SDK 形态、模型别名和参数名可能继续演进，所以代码示例应始终以 ai.google.dev 当期文档为准。
本教程不再维护“Gemini 2.5 Pro vs 竞品”的固定分数表，避免把不同时间、不同工具、不同协议下的分数误写成静态事实。

4. Qwen 3.5¶

4.1 已核实信息¶

阿里巴巴官方于 2026-03-25 发布 Qwen 3.5。
官方 GitHub 仓库 QwenLM/Qwen3.5 已建立并持续更新。
官方材料明确将 Qwen 3.5 定位为面向原生多模态 agent 的模型系列。
官方仓库当前明确写出：
首发版本包含 Qwen3.5-397B-A17B
支持 201 languages and dialects
官方 API 由 Alibaba Cloud Model Studio 提供，并兼容 OpenAI / Anthropic 两类 API 规格
官方仓库提交记录显示：
首批 3.5 系列信息在 2026-03-25 上线
small models 更新在 2026-03-25 已进入主仓库

4.2 教程中需要避免的误区¶

不要把第三方榜单分数、推测参数、未在官方页出现的上下文扩展数字写成“确定事实”。
Qwen3.5 Medium、Qwen3.5-397B-A17B 等具体型号，应只在官方仓库、公告或模型卡出现时再写入正文。
“MCP 原生支持”“全面开源”“端侧全家桶发布日期”等说法，只有在官方页面明确写出时才应保留。

5. DeepSeek 最新公开状态¶

5.1 已核实信息¶

DeepSeek 官方站和 API Docs 当前公开强调的最新主线是 DeepSeek-V3.2。
官方公告时间：2026-03-25。
官方表述重点：
强化 Agent 能力
融入思考推理
已在网页端、App 和 API 上线
官方公告明确写出：DeepSeek-V3.2 在思考模式下支持工具调用

5.2 截至 2026-03-26 的审计结论¶

DeepSeek-R1 仍然是应当重点学习的公开推理模型。
DeepSeek-V3.2 才是当前官方公开可核实的更新主线。
DeepSeek 官方当前存在一个需要显式区分的口径边界：
deepseek-reasoner 指南仍写明 Function Calling 与 FIM 补全 不支持
但 DeepSeek-V3.2 正式版公告已写明“思考模式下的工具调用”支持
因此，教程里不能把“DeepSeek 推理模型”一概写成统一支持或统一不支持工具调用，必须区分 DeepSeek-V3.2 与旧的 deepseek-reasoner 文档口径。
DeepSeek-R2：截至 2026-03-26，我没有在 DeepSeek 官方公开页面核到正式发布，因此不把它写入事实表。
DeepSeek V4：截至 2026-03-26，我没有核到 DeepSeek 官方公开发布页，因此不把它写入事实表。

6. 2026 年 Agent 技术趋势¶

6.1 这轮能官方坐实的趋势¶

模型原生支持更长上下文与更复杂的 agent workflow。 GPT-5.4、Claude 4.6、Gemini 2.5 Pro、DeepSeek-V3.2、Qwen 3.5 都在官方材料里强调了复杂任务、长上下文、agent 或 coding 场景。
MCP 已成为主流开放工具接入标准之一。 MCP 官方站点与 Anthropic 官方公告当前明确把它描述为开放标准；Anthropic 还明确写出 ChatGPT、Cursor、Gemini、Microsoft Copilot、Visual Studio Code 已采用 MCP。
A2A 正在补齐“Agent 与 Agent”互操作层。 Google 于 2025-04-09 发布 A2A，Linux Foundation 于 2025-06-23 宣布启动 A2A 项目治理；A2A 官方文档当前将其定义为面向 AI agents 协作的 open standard。
框架层开始统一。 Microsoft Agent Framework 已于 2026-03-25 进入 Release Candidate，明确承接 Semantic Kernel 和 AutoGen 的统一方向。
厂商开始把“编码模型 + 兼容 API + 托管 MCP 工具”打包交付。 MiniMax 官方文档当前已公开 MiniMax-M2.7、MiniMax-M2.7-highspeed，并给出 Coding Plan MCP 指南；现阶段能稳定落锚的事实是：高速版主打“效果不变、推理更快”，官方 MCP 示例工具为 web_search 与 understand_image。

6.2 这轮明确不再写成事实的内容¶

未见官方发布页的“某某 Beta 新型号”
混合第三方来源的统一 benchmark 总榜
无法对齐计费口径的跨厂商价格表
只在社区二手文章中出现的参数规模和发布日期

7. 官方核验快照¶

项目	截至 2026-03-26 的官方状态	本教程的处理原则
GPT-5.4	已正式发布	保留发布日期、计费结构与 reasoning effort；不保留混合榜单
Claude Opus 4.6	已正式发布	保留模型 ID、计费结构、adaptive thinking 说明
Claude Sonnet 4.6	已正式发布	保留模型 ID、计费结构、extended thinking 说明
Gemini 2.5 Pro	Preview	保留官方模型卡信息；不保留混合 benchmark 数字
Qwen 3.5	已正式发布并持续更新	保留官方仓库与官方公告；不写社区传闻
DeepSeek-V3.2	已正式发布	作为 DeepSeek 当前公开主线写入，并单独标注其“思考模式下工具调用”
deepseek-reasoner 文档口径	官方旧指南仍存在	明确与 V3.2 分开写，避免把能力边界混写
DeepSeek-R2 / DeepSeek V4	未核到官方正式发布页	不纳入事实表
MiniMax-M2.7 / M2.7-highspeed	已在官方模型总览与 AI Coding 文档公开	保留“文本旗舰 + 高速版更低延迟”口径，不臆写未核实 benchmark
MiniMax Coding Plan MCP	已在官方指南公开	只写官方明确给出的 `web_search` / `understand_image` 两个工具，不泛化成功能无限扩展
MCP	开放标准并已广泛采用	保留“开放标准 + 采用范围”，不写成唯一标准
A2A	已发布并进入 Linux Foundation 项目治理	保留协议定位；不夸大生态成熟度
Microsoft Agent Framework	Release Candidate	保留 RC 状态与框架统一方向
Grok 4.20	未核到足够强的官方发布锚点	不纳入事实表

参考资料¶

📝 本章练习¶

🤔 思考题¶

模型选择：在以下场景中你会选择哪个模型？为什么？（a）数学推理（b）代码生成（c）多模态理解（d）低成本批量处理
Agent 协议：MCP 和 A2A 协议各自解决什么问题？它们可以互补使用吗？
成本效益：如何在模型性能和 API 成本之间找到平衡？什么场景下应该用大模型，什么场景用小模型？

💻 代码实践¶

入门：调用 2-3 个不同模型 API 完成相同任务，对比输出质量和延迟
进阶：实现一个模型路由器，根据任务复杂度自动选择合适的模型
高级：搭建一个 A/B 测试框架，对比不同模型在生产环境中的表现

💡 参考答案

#### 思考题参考答案 **1. 模型选择** - **(a) 数学推理**：DeepSeek-R1 / o3 — 专门的推理模型，数学能力强 - **(b) 代码生成**：Claude Sonnet 4.6 / GPT-5.4 — 代码理解和生成能力突出 - **(c) 多模态理解**：Gemini 2.5 Pro — 原生多模态，长视频/图片理解能力强 - **(d) 低成本批量**：Qwen 3.5 / DeepSeek-V3.2 — 开源模型，自部署成本低 **2. MCP vs A2A** - **MCP**：解决 Agent 与工具的连接（Agent → Tool） - **A2A**：解决 Agent 与 Agent 的协作（Agent ↔ Agent） - 互补使用：MCP 管理工具生态，A2A 管理多 Agent 协作 **3. 成本效益** - 大模型：复杂推理、创意写作、高价值决策 - 小模型：分类、提取、简单问答、批量处理 - 关键指标：每次请求成本 vs 质量提升的边际收益

最后更新日期：2026-04-21 核验方式：MiniMax-MCP 高频检索 + 官方发布页/API 文档交叉确认