10. 最新模型与 Agent 技术(2026年3月复核)¶
⚠️ 时效性说明:本章只保留截至
2026-03-26可从官方发布页、模型卡、API 文档直接核实的信息。无法从官方页面确认的社区传闻、混合 benchmark 总榜、跨平台价格表,不纳入事实表。
目录¶
- OpenAI GPT-5.4
- Anthropic Claude 4.6
- Google Gemini 2.5 Pro
- Qwen 3.5
- DeepSeek 最新公开状态
- 2026 年 Agent 技术趋势
- 官方核验快照
1. OpenAI GPT-5.4¶
1.1 已核实信息¶
- OpenAI 于
2026-03-05(美国时间)发布 GPT-5.4;北京时间对应2026-03-06。 - GPT-5.4 同步进入 ChatGPT、API 和 Codex。
- OpenAI 最新模型文档当前将
gpt-5.4定位为重要通用任务与编码任务的默认旗舰模型,将gpt-5.4-pro定位为更难问题的高算力版本。 - GPT-5.4 官方文档当前确认
1M context window。 - OpenAI 平台定价页当前确认:
gpt-5.4采用输入 / cached input / 输出分开计费gpt-5.4-pro采用更高档位的输入 / 输出分开计费
- OpenAI 当前文档对 GPT-5.4 系列提供
reasoning.effort五档:none、low、medium、high、xhigh。
1.2 教程中应如何理解¶
GPT-5.4适合需要较强推理、编码和 agent workflow 的复杂任务。gpt-5.4-pro更适合高难审计、复杂设计和长链问题分解。- 如果你只需要“最新的 OpenAI 推理控制能力”,应重点关注 reasoning effort,而不是依赖非官方 benchmark 汇总表。
- 具体上下文长度、子型号上架情况和区域可用性,仍应以 OpenAI 平台页和控制台可见型号为准。
1.3 使用原则¶
2. Anthropic Claude 4.6¶
2.1 已核实信息¶
- Anthropic 于
2026-02-05发布 Claude Opus 4.6。 - Anthropic 于
2026-02-17发布 Claude Sonnet 4.6。 - 官方模型总览页给出的 Claude API ID:
claude-opus-4-6claude-sonnet-4-6- 官方文档确认:
- Opus 4.6 是 Anthropic 当前最强的模型,重点面向 agents 和 coding。
- Sonnet 4.6 是速度与智能的平衡型模型。
- 两者都提供
1M context window。 - Opus 4.6 最大输出
128k tokens,Sonnet 4.6 最大输出64k tokens。 - Claude API Docs 当前确认:
claude-opus-4-6与claude-sonnet-4-6都按输入 / 输出分开计费- Anthropic 官方常用
MTok口径展示价格
2.2 Extended Thinking 的正确理解¶
Claude Opus 4.6:官方文档说明以 adaptive thinking 为主,手动type: "enabled"已弃用。Claude Sonnet 4.6:同时支持手动 extended thinking 和 adaptive thinking。- 因此,如果教程要演示“显式设置 thinking budget”,应优先用
claude-sonnet-4-6示例,而不是继续沿用旧的 Opus 手动写法。
3. Google Gemini 2.5 Pro¶
3.1 已核实信息¶
- Google 于
2025-03-26发布 Gemini 2.5 Pro。 - 官方状态:
Preview。 - 官方模型卡确认:
- 输入上限:
1M tokens - 输出上限:
64k tokens - 原生多模态输入:文本、图像、视频、音频、PDF
- Gemini Developer API 定价页当前确认:
gemini-2.5-pro同时区分Standard与Batch两种计费模式Standard/Batch都会按输入 / 输出分别计费- 价格档位还会受 prompt 长度阈值影响,因此更适合在教程中保留“计费结构”而非静态单价
- 官方 Gemini API 文档对 Gemini 2.5 系列确认支持
Function calling、Structured outputs、Search grounding、Code execution。
3.2 教程中应如何使用这些信息¶
Gemini 2.5 Pro更适合复杂、多模态、长上下文任务。- 因为目前仍是 preview,SDK 形态、模型别名和参数名可能继续演进,所以代码示例应始终以
ai.google.dev当期文档为准。 - 本教程不再维护“Gemini 2.5 Pro vs 竞品”的固定分数表,避免把不同时间、不同工具、不同协议下的分数误写成静态事实。
4. Qwen 3.5¶
4.1 已核实信息¶
- 阿里巴巴官方于
2026-03-25发布 Qwen 3.5。 - 官方 GitHub 仓库 QwenLM/Qwen3.5 已建立并持续更新。
- 官方材料明确将 Qwen 3.5 定位为面向原生多模态 agent 的模型系列。
- 官方仓库当前明确写出:
- 首发版本包含
Qwen3.5-397B-A17B - 支持
201 languages and dialects - 官方 API 由 Alibaba Cloud Model Studio 提供,并兼容 OpenAI / Anthropic 两类 API 规格
- 官方仓库提交记录显示:
- 首批 3.5 系列信息在
2026-03-25上线 - small models 更新在
2026-03-25已进入主仓库
4.2 教程中需要避免的误区¶
- 不要把第三方榜单分数、推测参数、未在官方页出现的上下文扩展数字写成“确定事实”。
Qwen3.5 Medium、Qwen3.5-397B-A17B等具体型号,应只在官方仓库、公告或模型卡出现时再写入正文。- “MCP 原生支持”“全面开源”“端侧全家桶发布日期”等说法,只有在官方页面明确写出时才应保留。
5. DeepSeek 最新公开状态¶
5.1 已核实信息¶
- DeepSeek 官方站和 API Docs 当前公开强调的最新主线是
DeepSeek-V3.2。 - 官方公告时间:
2026-03-25。 - 官方表述重点:
- 强化 Agent 能力
- 融入思考推理
- 已在网页端、App 和 API 上线
- 官方公告明确写出:
DeepSeek-V3.2在思考模式下支持工具调用
5.2 截至 2026-03-26 的审计结论¶
DeepSeek-R1仍然是应当重点学习的公开推理模型。DeepSeek-V3.2才是当前官方公开可核实的更新主线。- DeepSeek 官方当前存在一个需要显式区分的口径边界:
deepseek-reasoner指南仍写明Function Calling与FIM 补全不支持- 但
DeepSeek-V3.2正式版公告已写明“思考模式下的工具调用”支持 - 因此,教程里不能把“DeepSeek 推理模型”一概写成统一支持或统一不支持工具调用,必须区分
DeepSeek-V3.2与旧的deepseek-reasoner文档口径。 DeepSeek-R2:截至 2026-03-26,我没有在 DeepSeek 官方公开页面核到正式发布,因此不把它写入事实表。DeepSeek V4:截至 2026-03-26,我没有核到 DeepSeek 官方公开发布页,因此不把它写入事实表。
6. 2026 年 Agent 技术趋势¶
6.1 这轮能官方坐实的趋势¶
- 模型原生支持更长上下文与更复杂的 agent workflow。 GPT-5.4、Claude 4.6、Gemini 2.5 Pro、DeepSeek-V3.2、Qwen 3.5 都在官方材料里强调了复杂任务、长上下文、agent 或 coding 场景。
- MCP 已成为主流开放工具接入标准之一。 MCP 官方站点与 Anthropic 官方公告当前明确把它描述为开放标准;Anthropic 还明确写出 ChatGPT、Cursor、Gemini、Microsoft Copilot、Visual Studio Code 已采用 MCP。
- A2A 正在补齐“Agent 与 Agent”互操作层。 Google 于
2025-04-09发布 A2A,Linux Foundation 于2025-06-23宣布启动 A2A 项目治理;A2A 官方文档当前将其定义为面向 AI agents 协作的 open standard。 - 框架层开始统一。 Microsoft Agent Framework 已于
2026-03-25进入 Release Candidate,明确承接 Semantic Kernel 和 AutoGen 的统一方向。 - 厂商开始把“编码模型 + 兼容 API + 托管 MCP 工具”打包交付。 MiniMax 官方文档当前已公开
MiniMax-M2.7、MiniMax-M2.7-highspeed,并给出 Coding Plan MCP 指南;现阶段能稳定落锚的事实是:高速版主打“效果不变、推理更快”,官方 MCP 示例工具为web_search与understand_image。
6.2 这轮明确不再写成事实的内容¶
- 未见官方发布页的“某某 Beta 新型号”
- 混合第三方来源的统一 benchmark 总榜
- 无法对齐计费口径的跨厂商价格表
- 只在社区二手文章中出现的参数规模和发布日期
7. 官方核验快照¶
| 项目 | 截至 2026-03-26 的官方状态 | 本教程的处理原则 |
|---|---|---|
| GPT-5.4 | 已正式发布 | 保留发布日期、计费结构与 reasoning effort;不保留混合榜单 |
| Claude Opus 4.6 | 已正式发布 | 保留模型 ID、计费结构、adaptive thinking 说明 |
| Claude Sonnet 4.6 | 已正式发布 | 保留模型 ID、计费结构、extended thinking 说明 |
| Gemini 2.5 Pro | Preview | 保留官方模型卡信息;不保留混合 benchmark 数字 |
| Qwen 3.5 | 已正式发布并持续更新 | 保留官方仓库与官方公告;不写社区传闻 |
| DeepSeek-V3.2 | 已正式发布 | 作为 DeepSeek 当前公开主线写入,并单独标注其“思考模式下工具调用” |
| deepseek-reasoner 文档口径 | 官方旧指南仍存在 | 明确与 V3.2 分开写,避免把能力边界混写 |
| DeepSeek-R2 / DeepSeek V4 | 未核到官方正式发布页 | 不纳入事实表 |
| MiniMax-M2.7 / M2.7-highspeed | 已在官方模型总览与 AI Coding 文档公开 | 保留“文本旗舰 + 高速版更低延迟”口径,不臆写未核实 benchmark |
| MiniMax Coding Plan MCP | 已在官方指南公开 | 只写官方明确给出的 web_search / understand_image 两个工具,不泛化成功能无限扩展 |
| MCP | 开放标准并已广泛采用 | 保留“开放标准 + 采用范围”,不写成唯一标准 |
| A2A | 已发布并进入 Linux Foundation 项目治理 | 保留协议定位;不夸大生态成熟度 |
| Microsoft Agent Framework | Release Candidate | 保留 RC 状态与框架统一方向 |
| Grok 4.20 | 未核到足够强的官方发布锚点 | 不纳入事实表 |
参考资料¶
- OpenAI Using GPT-5.4
- OpenAI 定价页
- Anthropic Claude Models Overview
- Anthropic Extended Thinking
- Claude Opus 4.6 发布页
- Claude Sonnet 4.6 页面
- Gemini 2.5 Pro 官方博客
- Gemini 2.5 Pro Model Card
- Gemini Developer API Pricing
- Gemini Function Calling
- Qwen 3.5 官方仓库
- 阿里巴巴 Qwen 3.5 公告
- MiniMax 模型总览
- MiniMax 通过 AI 编程工具接入
- MiniMax Coding Plan MCP 指南
- DeepSeek 官方 Research
- DeepSeek-V3.2 公告
- DeepSeek 推理模型指南
- Model Context Protocol 官方站
- Anthropic MCP 公告
- Google A2A 发布页
- A2A 官方文档
- Microsoft Agent Framework Reaches Release Candidate
📝 本章练习¶
🤔 思考题¶
- 模型选择:在以下场景中你会选择哪个模型?为什么?(a)数学推理(b)代码生成(c)多模态理解(d)低成本批量处理
- Agent 协议:MCP 和 A2A 协议各自解决什么问题?它们可以互补使用吗?
- 成本效益:如何在模型性能和 API 成本之间找到平衡?什么场景下应该用大模型,什么场景用小模型?
💻 代码实践¶
- 入门:调用 2-3 个不同模型 API 完成相同任务,对比输出质量和延迟
- 进阶:实现一个模型路由器,根据任务复杂度自动选择合适的模型
- 高级:搭建一个 A/B 测试框架,对比不同模型在生产环境中的表现
💡 参考答案
#### 思考题参考答案 **1. 模型选择** - **(a) 数学推理**:DeepSeek-R1 / o3 — 专门的推理模型,数学能力强 - **(b) 代码生成**:Claude Sonnet 4.6 / GPT-5.4 — 代码理解和生成能力突出 - **(c) 多模态理解**:Gemini 2.5 Pro — 原生多模态,长视频/图片理解能力强 - **(d) 低成本批量**:Qwen 3.5 / DeepSeek-V3.2 — 开源模型,自部署成本低 **2. MCP vs A2A** - **MCP**:解决 Agent 与工具的连接(Agent → Tool) - **A2A**:解决 Agent 与 Agent 的协作(Agent ↔ Agent) - 互补使用:MCP 管理工具生态,A2A 管理多 Agent 协作 **3. 成本效益** - 大模型:复杂推理、创意写作、高价值决策 - 小模型:分类、提取、简单问答、批量处理 - 关键指标:每次请求成本 vs 质量提升的边际收益最后更新日期:2026-04-21 核验方式:MiniMax-MCP 高频检索 + 官方发布页/API 文档交叉确认