Opus 4.8 对决 GPT-5.5：旗舰模型实测谁更强，工程任务上的真实差距

AIEII

SWE-bench Verified 上，GPT-5.5 是 88.7%，Opus 4.8 是 88.6%。差距 0.1 个百分点。

Dan Shipper 团队在 Every 内部跑了他们自己设计的 Senior Engineer 基准，Opus 4.8 得了 63 分，GPT-5.5 得了 62 分，差 1 分。

两组数字都指向同一个问题：标准化基准已经很难区分它们，但换一个更难的测试，差距就拉开了。这才是这轮横评真正值得看的地方。

两家这次各更新了什么

Anthropic，5 月 28 日

Anthropic 给 Opus 4.8 的定位是"modest but tangible improvement"，这是他们自己的原话，没有夸大。

改动集中在四个方向：

诚实性大幅提升。官方公告把这一条放在最前面。Anthropic 说 Opus 4.8 比前代"约四倍不容易让代码里的缺陷悄悄通过"（据 Anthropic 官方文档 What’s New in Claude Opus 4.8）。以前写了有问题的代码，模型可能会绕过去；现在它更倾向主动指出来。对生产代码来说，这是实质性的差异，不只是营销语言。

Fast Mode，成本结构变了。标准模式之外，Opus 4.8 新增 Fast Mode。根据 Anthropic 官方定价页，Fast Mode 的输入是 $10/M tokens、输出 $50/M tokens。比标准模式（$5/$25）贵一倍，但 Anthropic 声称吞吐量提升 2.5 倍。算下来，在需要快速响应的场景里，每秒产出的实际成本反而可能更低。

Claude Code 动态工作流（Dynamic Workflows）。Claude Code 现在可以根据任务复杂度自动调整执行策略，在简单步骤和需要深度推理的步骤之间动态切换。以前是全程一个"力度"跑完。

Prompt Cache 起缓存门槛从 4096 降到 1024 tokens。对长 agent 任务来说，更多请求能命中缓存，token 成本会实际下降。

OpenAI，4 月 23 日

GPT-5.5 比 Opus 4.8 早了五周发布，内部代号是"Spud"。

核心改进是推理效率和对话连贯性。OpenAI 官方发布页（openai.com/index/introducing-gpt-5-5/）给出的数据：SWE-bench Verified 88.7%，MMLU 92.4%，幻觉率比上代下降 60%。

定价结构变了，而且涨价幅度不小。GPT-5.5 标准版输入 $5/M、输出 $30/M，相比 GPT-5.4 翻了一倍。OpenAI 同时推出 Batch 和 Flex 处理模式，价格降到 $2.5/M 输入、$15/M 输出，适合异步任务。上下文窗口是 1,050,000 tokens，最大输出 128k。

Google，2 月 19 日（第三参照）

Gemini 3.1 Pro 比另外两家都早发布，放在这里做参照。

SWE-bench Verified 得分是 80.6%（据 llm-stats.com），落后前两者约 8 个百分点。但价格是最低的：$2/M 输入、$12/M 输出，200K 以上长上下文加价到 $4/$18。上下文窗口同样是 1M tokens，但最大输出只有 65,536 tokens，远低于另外两家的 128k。

编码推理基准头对头

先看数字，再看数字背后的问题。

基准	Opus 4.8	GPT-5.5	Gemini 3.1 Pro	数据来源
SWE-bench Verified	88.6%	88.7%	80.6%	Anthropic 官方 / OpenAI 官方 / Google 官方
SWE-bench Pro	69.2%	~58.6%	~54%	Vellum.ai / onyx.app
Dan Shipper Senior Eng（内部）	63/100	62/100	未测试	every.to，单团队内部测试
Artificial Analysis Intelligence Index	61.4（第一）	未公布	未公布	artificialanalysis.ai

SWE-bench Verified 实际是平手

88.7% 对 88.6%，差 0.1 个百分点。这个数字在统计意义上可以认为并列。SWE-bench Verified 测的是模型能否给真实 GitHub Issue 生成让测试套件通过的 patch，是行业公认的标准化编码基准。分数这么接近，说明两家在常规软件工程任务上的能力已经非常接近。

SWE-bench Pro 才是真正的分水岭

SWE-bench Pro 难度更高，使用更复杂的真实仓库问题，场景更接近大型工程代码库。Opus 4.8 在这里达到 69.2%，GPT-5.5 按对比数据推算约在 58.6%，相差 10.6 个百分点（据 Vellum.ai 的基准解析）。

这个差距是值得认真看待的。10 个百分点在工程任务上意味着，每 10 个复杂问题里，Opus 4.8 大约多解决 1 个。

Dan Shipper 的测试要放在上下文里看

Every 是一家 AI 出版机构，Dan Shipper 是联合创始人兼 CEO。他们的"Senior Engineer Benchmark"是内部设计的测试，不是公开可复现的标准基准。

Shipper 在 X 上写道：

“BREAKING: Anthropic just dropped Opus 4.8 — and it is a MONSTER. We’ve been testing for about a week @every and our verdict is they could’ve just called it Opus 5, it’s that good. Here’s our vibe check: Beats GPT-5.5 on Senior Engineer bench.”
— Dan Shipper (@danshipper), x.com/danshipper/status/2060043738752422304

Every 的完整报告（every.to/vibe-check/opus-4-8-vibecheck）显示，Opus 4.8 在"extra-high effort"模式下得 63 分，GPT-5.5 得 62 分，Opus 4.7 得约 33 分。

Opus 4.7 到 4.8 的 30 分跳跃很显著，说明这一代升级在他们的任务场景里有真实效果。63 对 62 的单点差距，在单团队一次性测试里不能当作定论，但方向和 SWE-bench Pro 的结果一致。

Hacker News 社区的反馈

HN 讨论帖（news.ycombinator.com/item?id=48311647）里，开发者意见两极分化。

有人觉得这是"benchmark fatigue"，Opus 4.6、4.7、4.8 接连宣布改进，但日常编码里难以实际感受到。也有开发者报告了具体问题，某些安全相关代码触发了模型的额外警告，以及一个 bug 导致同一任务的 token 消耗出现异常增加。

技术博主 Simon Willison 在他的 simonwillison.net 分析文章里这样定性：

“a modest but tangible improvement over Opus 4.7, with gains in agentic coding, reasoning, knowledge work, and honesty.”

和 Anthropic 自己的描述基本吻合。不夸大，但也不是没有意义。

还有一个值得注意的细节来自 HN 上的一条留言（news.ycombinator.com/item?id=48311998）：

“I think this is the first time we’ve had a third minor version bump on a frontier Anthropic model.”

Opus 4.6、4.7、4.8 三个版本出现在同一代内，版本迭代节奏在加快。

定价与上下文窗口

数字放在一起才好对比。

维度	Opus 4.8 标准	Opus 4.8 Fast	GPT-5.5 标准	GPT-5.5 Batch	Gemini 3.1 Pro
输入（/M tokens）	$5	$10	$5	$2.50	$2
输出（/M tokens）	$25	$50	$30	$15	$12
上下文窗口	1M（API/Bedrock/Vertex），200k（Azure）	同左	1.05M	同左	1M
最大输出	128k	128k	128k	128k	65,536 tokens
Prompt 缓存折扣	最高 90%	最高 90%	最高 90%	包含在内	最高 75%

（数据来源：platform.claude.com/docs/en/about-claude/pricing，openai.com/api/pricing/，openrouter.ai/google/gemini-3.1-pro-preview。价格随时可能调整，建议在集成前核查官方页面。）

几个关键点：

输出价格差距被低估。Opus 4.8 标准模式输出是 $25/M，GPT-5.5 是 $30/M，差了 20%。大多数 agent 任务里，输出 token 占大头。100 万输出 tokens，Opus 4.8 省 5 美元。规模化到每天数千万 token，差距很可观。

Gemini 3.1 Pro 的价格优势明显。$2/$12 对比 $5/$25，便宜了超过 60%。如果任务不需要顶级编码性能，Gemini 3.1 Pro 的性价比在这三家里没有对手。硬限制是输出上限 65,536 tokens，长文档任务要注意。

GPT-5.5 Batch 适合离线任务。$2.5/$15，接近 Gemini 的价格，但编码性能在 88.7%。异步处理、非实时推理的场景，GPT-5.5 Batch 值得列入选型清单。

Azure 上的 Opus 4.8 上下文只有 200k。如果用的是 Microsoft Foundry 或 Azure 托管，和 API 直连的 1M 上下文是两件不同的事，这个差异要在架构设计时考虑进去。

什么任务选谁

数字说完了，落到实际工程决策上：

复杂代码库任务，优先考虑 Opus 4.8

SWE-bench Pro 上 10 个百分点的领先，指向的是大型真实代码库场景，跨文件重构、多步骤 bug 修复、理解复杂依赖关系这类任务。Claude Code 的动态工作流在这里也有叠加效果。

Anthropic 强调的诚实性提升在这里也有实际价值。代码里有缺陷，模型更愿意主动指出，而不是悄悄绕过去。做代码 review 辅助或 CI 集成时，这个行为差异影响最终结果的质量。

Chew Loong Nian 在 Towards AI 上用 20 个任务独立测试了三个模型（完整测试报告），结论是在超长上下文任务上，Opus 4.8 明显优于 GPT-5.5 和 Gemini 3.1 Pro。这和 Dan Shipper 的方向一致，虽然两者测试设计不同。

标准编码任务，两者差距可以忽略

SWE-bench Verified 88.6% 对 88.7%，在日常编码辅助里感受不出来。函数补全、单文件 debug、API 集成，用哪个都够用。这种情况下，价格才是主要变量。Opus 4.8 输出便宜 20%，长期来看有意义。

大规模批处理和成本敏感任务，GPT-5.5 Batch 或 Gemini 3.1 Pro

GPT-5.5 Batch 的 $2.5/$15 在性能和成本之间找到了一个好的平衡点。如果任务是文本摘要、知识提取、结构化数据处理这类，Gemini 3.1 Pro 的 $2/$12 更便宜，但要接受约 8 个百分点的编码性能差距。

安全相关代码，提前测试

HN 开发者反馈显示，Opus 4.8 在处理安全工具代码时，有时会触发额外的拒绝或警告。如果你的工作涉及渗透测试工具、安全研究脚本，建议在正式集成前用实际任务测一遍，确认当前版本的行为符合预期。

写在最后

0.1 个百分点的 SWE-bench Verified 差距告诉你：两家旗舰模型在标准化基准上已经进入了分数难以区分的阶段。

真正的差距藏在更难的测试里。SWE-bench Pro 上 10 个百分点，比任何单团队的"vibe check"都更有参考价值。Dan Shipper 的内部测试提供了一个真实工程团队的视角，但 63 对 62 的单点差距，在单次测试里不能当作定论，只能作为方向参考。

选型逻辑其实不复杂。复杂工程任务，Opus 4.8 在可查数据里目前领先。价格敏感的批处理任务，GPT-5.5 Batch 或 Gemini 3.1 Pro 更合适。标准日常编码，两家旗舰都够，按价格和现有集成选。

版本迭代在加速。Opus 4.6、4.7、4.8 在六个月内出现，同一代里三次版本更新在 Anthropic 历史上是第一次。这轮对比的结论，三个月后可能需要重写。

参考资料

Dan Shipper, Every (2026-05-28). “Vibe Check: Opus 4.8.” every.to/vibe-check/opus-4-8-vibecheck

Anthropic. “What’s New in Claude Opus 4.8.” platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-8

Anthropic. “Claude API Pricing.” platform.claude.com/docs/en/about-claude/pricing

OpenAI. “Introducing GPT-5.5.” openai.com/index/introducing-gpt-5-5/

OpenAI. “API Pricing.” openai.com/api/pricing/

Vellum.ai. “Claude Opus 4.8 Benchmarks Explained.” vellum.ai/blog/claude-opus-4-8-benchmarks-explained

Simon Willison (2026-05-28). “Claude Opus 4.8.” simonwillison.net/2026/May/28/claude-opus-4-8/

Hacker News. “Claude Opus 4.8 discussion.” news.ycombinator.com/item?id=48311647

Chew Loong Nian, Towards AI (2026-05). “I Tested Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro on 20 Tasks.” pub.towardsai.net

llm-stats.com. “Gemini 3.1 Pro Preview.” llm-stats.com/models/gemini-3.1-pro-preview