Newsroom
AIEII

Opus 4.8 对决 GPT-5.5:旗舰模型实测谁更强,工程任务上的真实差距

Opus 4.8 被实测者称在 Senior Engineer 基准超越 GPT-5.5。两大旗舰头对头实测对比,附编码、推理、价格多维数据。

2026年06月01日

Opus 4.8 对决 GPT-5.5:旗舰模型实测谁更强,工程任务上的真实差距

SWE-bench Verified 上,GPT-5.5 是 88.7%,Opus 4.8 是 88.6%。差距 0.1 个百分点。

Dan Shipper 团队在 Every 内部跑了他们自己设计的 Senior Engineer 基准,Opus 4.8 得了 63 分,GPT-5.5 得了 62 分,差 1 分。

两组数字都指向同一个问题:标准化基准已经很难区分它们,但换一个更难的测试,差距就拉开了。这才是这轮横评真正值得看的地方。


两家这次各更新了什么

Anthropic,5 月 28 日

Anthropic 给 Opus 4.8 的定位是"modest but tangible improvement",这是他们自己的原话,没有夸大。

改动集中在四个方向:

诚实性大幅提升。官方公告把这一条放在最前面。Anthropic 说 Opus 4.8 比前代"约四倍不容易让代码里的缺陷悄悄通过"(据 Anthropic 官方文档 What’s New in Claude Opus 4.8)。以前写了有问题的代码,模型可能会绕过去;现在它更倾向主动指出来。对生产代码来说,这是实质性的差异,不只是营销语言。

Fast Mode,成本结构变了。标准模式之外,Opus 4.8 新增 Fast Mode。根据 Anthropic 官方定价页,Fast Mode 的输入是 $10/M tokens、输出 $50/M tokens。比标准模式($5/$25)贵一倍,但 Anthropic 声称吞吐量提升 2.5 倍。算下来,在需要快速响应的场景里,每秒产出的实际成本反而可能更低。

Claude Code 动态工作流(Dynamic Workflows)。Claude Code 现在可以根据任务复杂度自动调整执行策略,在简单步骤和需要深度推理的步骤之间动态切换。以前是全程一个"力度"跑完。

Prompt Cache 起缓存门槛从 4096 降到 1024 tokens。对长 agent 任务来说,更多请求能命中缓存,token 成本会实际下降。


OpenAI,4 月 23 日

GPT-5.5 比 Opus 4.8 早了五周发布,内部代号是"Spud"。

核心改进是推理效率和对话连贯性。OpenAI 官方发布页(openai.com/index/introducing-gpt-5-5/)给出的数据:SWE-bench Verified 88.7%,MMLU 92.4%,幻觉率比上代下降 60%。

定价结构变了,而且涨价幅度不小。GPT-5.5 标准版输入 $5/M、输出 $30/M,相比 GPT-5.4 翻了一倍。OpenAI 同时推出 Batch 和 Flex 处理模式,价格降到 $2.5/M 输入、$15/M 输出,适合异步任务。上下文窗口是 1,050,000 tokens,最大输出 128k。


Google,2 月 19 日(第三参照)

Gemini 3.1 Pro 比另外两家都早发布,放在这里做参照。

SWE-bench Verified 得分是 80.6%(据 llm-stats.com),落后前两者约 8 个百分点。但价格是最低的:$2/M 输入、$12/M 输出,200K 以上长上下文加价到 $4/$18。上下文窗口同样是 1M tokens,但最大输出只有 65,536 tokens,远低于另外两家的 128k。


编码推理基准头对头

先看数字,再看数字背后的问题。

基准Opus 4.8GPT-5.5Gemini 3.1 Pro数据来源
SWE-bench Verified88.6%88.7%80.6%Anthropic 官方 / OpenAI 官方 / Google 官方
SWE-bench Pro69.2%~58.6%~54%Vellum.ai / onyx.app
Dan Shipper Senior Eng(内部)63/10062/100未测试every.to,单团队内部测试
Artificial Analysis Intelligence Index61.4(第一)未公布未公布artificialanalysis.ai

SWE-bench Verified 实际是平手

88.7% 对 88.6%,差 0.1 个百分点。这个数字在统计意义上可以认为并列。SWE-bench Verified 测的是模型能否给真实 GitHub Issue 生成让测试套件通过的 patch,是行业公认的标准化编码基准。分数这么接近,说明两家在常规软件工程任务上的能力已经非常接近。

SWE-bench Pro 才是真正的分水岭

SWE-bench Pro 难度更高,使用更复杂的真实仓库问题,场景更接近大型工程代码库。Opus 4.8 在这里达到 69.2%,GPT-5.5 按对比数据推算约在 58.6%,相差 10.6 个百分点(据 Vellum.ai 的基准解析)。

这个差距是值得认真看待的。10 个百分点在工程任务上意味着,每 10 个复杂问题里,Opus 4.8 大约多解决 1 个。

Dan Shipper 的测试要放在上下文里看

Every 是一家 AI 出版机构,Dan Shipper 是联合创始人兼 CEO。他们的"Senior Engineer Benchmark"是内部设计的测试,不是公开可复现的标准基准。

Shipper 在 X 上写道:

“BREAKING: Anthropic just dropped Opus 4.8 — and it is a MONSTER. We’ve been testing for about a week @every and our verdict is they could’ve just called it Opus 5, it’s that good. Here’s our vibe check: Beats GPT-5.5 on Senior Engineer bench.”

Dan Shipper (@danshipper), x.com/danshipper/status/2060043738752422304

Every 的完整报告(every.to/vibe-check/opus-4-8-vibecheck)显示,Opus 4.8 在"extra-high effort"模式下得 63 分,GPT-5.5 得 62 分,Opus 4.7 得约 33 分。

Opus 4.7 到 4.8 的 30 分跳跃很显著,说明这一代升级在他们的任务场景里有真实效果。63 对 62 的单点差距,在单团队一次性测试里不能当作定论,但方向和 SWE-bench Pro 的结果一致。

Hacker News 社区的反馈

HN 讨论帖(news.ycombinator.com/item?id=48311647)里,开发者意见两极分化。

有人觉得这是"benchmark fatigue",Opus 4.6、4.7、4.8 接连宣布改进,但日常编码里难以实际感受到。也有开发者报告了具体问题,某些安全相关代码触发了模型的额外警告,以及一个 bug 导致同一任务的 token 消耗出现异常增加。

技术博主 Simon Willison 在他的 simonwillison.net 分析文章里这样定性:

“a modest but tangible improvement over Opus 4.7, with gains in agentic coding, reasoning, knowledge work, and honesty.”

和 Anthropic 自己的描述基本吻合。不夸大,但也不是没有意义。

还有一个值得注意的细节来自 HN 上的一条留言(news.ycombinator.com/item?id=48311998):

“I think this is the first time we’ve had a third minor version bump on a frontier Anthropic model.”

Opus 4.6、4.7、4.8 三个版本出现在同一代内,版本迭代节奏在加快。


定价与上下文窗口

数字放在一起才好对比。

维度Opus 4.8 标准Opus 4.8 FastGPT-5.5 标准GPT-5.5 BatchGemini 3.1 Pro
输入(/M tokens)$5$10$5$2.50$2
输出(/M tokens)$25$50$30$15$12
上下文窗口1M(API/Bedrock/Vertex),200k(Azure)同左1.05M同左1M
最大输出128k128k128k128k65,536 tokens
Prompt 缓存折扣最高 90%最高 90%最高 90%包含在内最高 75%

(数据来源:platform.claude.com/docs/en/about-claude/pricingopenai.com/api/pricing/openrouter.ai/google/gemini-3.1-pro-preview。价格随时可能调整,建议在集成前核查官方页面。)

几个关键点:

输出价格差距被低估。Opus 4.8 标准模式输出是 $25/M,GPT-5.5 是 $30/M,差了 20%。大多数 agent 任务里,输出 token 占大头。100 万输出 tokens,Opus 4.8 省 5 美元。规模化到每天数千万 token,差距很可观。

Gemini 3.1 Pro 的价格优势明显。$2/$12 对比 $5/$25,便宜了超过 60%。如果任务不需要顶级编码性能,Gemini 3.1 Pro 的性价比在这三家里没有对手。硬限制是输出上限 65,536 tokens,长文档任务要注意。

GPT-5.5 Batch 适合离线任务。$2.5/$15,接近 Gemini 的价格,但编码性能在 88.7%。异步处理、非实时推理的场景,GPT-5.5 Batch 值得列入选型清单。

Azure 上的 Opus 4.8 上下文只有 200k。如果用的是 Microsoft Foundry 或 Azure 托管,和 API 直连的 1M 上下文是两件不同的事,这个差异要在架构设计时考虑进去。


什么任务选谁

数字说完了,落到实际工程决策上:

复杂代码库任务,优先考虑 Opus 4.8

SWE-bench Pro 上 10 个百分点的领先,指向的是大型真实代码库场景,跨文件重构、多步骤 bug 修复、理解复杂依赖关系这类任务。Claude Code 的动态工作流在这里也有叠加效果。

Anthropic 强调的诚实性提升在这里也有实际价值。代码里有缺陷,模型更愿意主动指出,而不是悄悄绕过去。做代码 review 辅助或 CI 集成时,这个行为差异影响最终结果的质量。

Chew Loong Nian 在 Towards AI 上用 20 个任务独立测试了三个模型(完整测试报告),结论是在超长上下文任务上,Opus 4.8 明显优于 GPT-5.5 和 Gemini 3.1 Pro。这和 Dan Shipper 的方向一致,虽然两者测试设计不同。

标准编码任务,两者差距可以忽略

SWE-bench Verified 88.6% 对 88.7%,在日常编码辅助里感受不出来。函数补全、单文件 debug、API 集成,用哪个都够用。这种情况下,价格才是主要变量。Opus 4.8 输出便宜 20%,长期来看有意义。

大规模批处理和成本敏感任务,GPT-5.5 Batch 或 Gemini 3.1 Pro

GPT-5.5 Batch 的 $2.5/$15 在性能和成本之间找到了一个好的平衡点。如果任务是文本摘要、知识提取、结构化数据处理这类,Gemini 3.1 Pro 的 $2/$12 更便宜,但要接受约 8 个百分点的编码性能差距。

安全相关代码,提前测试

HN 开发者反馈显示,Opus 4.8 在处理安全工具代码时,有时会触发额外的拒绝或警告。如果你的工作涉及渗透测试工具、安全研究脚本,建议在正式集成前用实际任务测一遍,确认当前版本的行为符合预期。


写在最后

0.1 个百分点的 SWE-bench Verified 差距告诉你:两家旗舰模型在标准化基准上已经进入了分数难以区分的阶段。

真正的差距藏在更难的测试里。SWE-bench Pro 上 10 个百分点,比任何单团队的"vibe check"都更有参考价值。Dan Shipper 的内部测试提供了一个真实工程团队的视角,但 63 对 62 的单点差距,在单次测试里不能当作定论,只能作为方向参考。

选型逻辑其实不复杂。复杂工程任务,Opus 4.8 在可查数据里目前领先。价格敏感的批处理任务,GPT-5.5 Batch 或 Gemini 3.1 Pro 更合适。标准日常编码,两家旗舰都够,按价格和现有集成选。

版本迭代在加速。Opus 4.6、4.7、4.8 在六个月内出现,同一代里三次版本更新在 Anthropic 历史上是第一次。这轮对比的结论,三个月后可能需要重写。


参考资料

Dan Shipper, Every (2026-05-28). “Vibe Check: Opus 4.8.” every.to/vibe-check/opus-4-8-vibecheck

Anthropic. “What’s New in Claude Opus 4.8.” platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-8

Anthropic. “Claude API Pricing.” platform.claude.com/docs/en/about-claude/pricing

OpenAI. “Introducing GPT-5.5.” openai.com/index/introducing-gpt-5-5/

OpenAI. “API Pricing.” openai.com/api/pricing/

Vellum.ai. “Claude Opus 4.8 Benchmarks Explained.” vellum.ai/blog/claude-opus-4-8-benchmarks-explained

Simon Willison (2026-05-28). “Claude Opus 4.8.” simonwillison.net/2026/May/28/claude-opus-4-8/

Hacker News. “Claude Opus 4.8 discussion.” news.ycombinator.com/item?id=48311647

Chew Loong Nian, Towards AI (2026-05). “I Tested Opus 4.8 vs GPT-5.5 vs Gemini 3.1 Pro on 20 Tasks.” pub.towardsai.net

llm-stats.com. “Gemini 3.1 Pro Preview.” llm-stats.com/models/gemini-3.1-pro-preview

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← Claude Code 动态工作流上线:一次会话自主规划,并 … 一周之内,Anthropic 和 OpenAI 都向 SEC … →
💬 Comments
8 min read