Anthropic Opus 4.8 发布：同价升级、被实测者称媲美 Opus 5，旗舰之战再升级

AIEII

41 天。

这是 Opus 4.7 到 Opus 4.8 之间的时间差。上一个旗舰版本刚发布一个多月，Anthropic 又推出了下一个。更值得注意的是，5 月 28 日上线的 Opus 4.8 定价没有变，但 Every 的创始人 Dan Shipper 在内部跑了将近一周的评测后，给出了这么一句话：“他们本可以直接叫它 Opus 5，它就是那么好。”

这话从一个每周认真跑模型对比的人嘴里说出来，值得细听。

Opus 4.8 改了哪些地方

从 Anthropic 官方信息来看，这次更新有三个实质变化。

第一是代码和推理能力的整体提升，这也是这次发布的核心叙事。第二是 Fast Mode 的成本大幅下降，新 Fast Mode 比上一代便宜 3 倍，速度提升 2.5 倍。第三是 Claude Code 同步上线了动态工作流功能，目前处于研究预览阶段。

定价方面，Opus 4.8 的标准层和 Opus 4.7 保持一致，据 Anthropic 官方定价页的数据：

模式	输入价格	输出价格
标准	$5 / 百万 token	$25 / 百万 token
Fast Mode（新）	$10 / 百万 token	$50 / 百万 token
提示词缓存	最高节省 90%	—
批处理	节省 50%	—

标准价格没动。Fast Mode 是一个独立的计算层，之前贵得多，这次降到了 $10/$50，比旧版 Fast Mode 便宜 3 倍，速度却快了 2.5 倍。对跑大量批处理任务的团队来说，这个变化直接影响账单。

Opus 4.8 现在可以通过 API 调用，模型 ID 为 claude-opus-4-8。Pro、Max、Team 和 Enterprise 用户均可使用。

Dan Shipper 测了什么，他说了什么

Every 团队对 Opus 4.8 做了接近一周的内部评测，Dan Shipper 在 5 月 28 日的 X 帖文里公布了他们的核心数字。

这里有一点需要说清楚：这是 Every 自行设计的专有基准（proprietary benchmark），不是 SWE-bench 或 HumanEval 这类公共标准测试，所以数字代表的是他们特定测试场景下的结论，不能直接和官方排行榜的数字类比。

他们跑了两个维度，据 every.to 的评测文章：

Every 内部基准	Opus 4.7	GPT-5.5	Opus 4.8
Senior Engineer Benchmark	约 33 分	62 分	63 分
Writing Benchmark	—	—	79.6 分

Opus 4.8 在 Senior Engineer 基准上比 GPT-5.5 高 1 分，比 Opus 4.7 高约 30 分。写作基准的 79.6 是 Every 有记录以来测出的最高分。

Shipper 的原话是"他们本可以直接叫它 Opus 5"，这是他基于这次内部测试得出的主观判断，不代表 Anthropic 官方立场。但这句话的分量在于，Shipper 的团队做这类评测的频率极高，他们轻易不用这种定性。

他还在帖文里提到，Opus 4.8 在他们的框架里是"测试过的最完整的模型"，代码和写作两个维度同时处于领先。单一维度的第一名并不难，两个维度同时靠前才是难做的事情。

41 天的背后：这轮快拳打的是谁

发布间隔本身是一个信号。

据 TechCrunch 的报道，Opus 4.7 和 Opus 4.8 之间只差 41 天，Anthropic 正在从年度大版本模式切换到快速增量迭代的节奏。这在大模型行业是一个明显的战略变化。

背后有一段竞争背景值得了解。Opus 4.7 上线后，外界评价整体偏冷，不少测试者认为它在和 GPT-5.5 的正面对比中没有优势。GPT-5.5 在 Opus 4.7 发布约一周后上线，在 Every 的 Senior Engineer 基准上拿到了 62 分，把 Opus 4.7 的约 33 分甩在了后面。Opus 4.8 的 63 分，是 Anthropic 对这一局面的直接回应。

当然，1 分的差距在一个私有基准上没有太大绝对意义，真实的工程差异需要在具体任务上感受。

从旗舰竞争的角度来看，目前的格局是 OpenAI 有 GPT-5.5，Google 有 Gemini 系列，Anthropic 则用快速迭代加同价升级的方式持续施压。三家的发布节奏都在加快，旗舰模型已经从年货变成了季货。

同价升级的信号值得单独说一句。用户对价格的感知往往超过对参数的感知，一个"不涨价的升级"在心理层面很容易赢得正面反应。Anthropic 在竞争最激烈的时间节点选择维持标准定价，同时还把 Fast Mode 降了价，这是一个经过计算的竞争动作。

动态工作流：1000 个子智能体能干什么

这次更新里技术含量最高的部分，其实不是模型本身，而是 Claude Code 同步推出的动态工作流（Dynamic Workflows）。

官方在博客文章里的描述是：它设计用来解决"单次单智能体无法完成的大型问题"。机制上，Claude 根据你的 prompt 动态规划任务，把工作拆成子任务，同时启动多个并行子智能体分头执行，智能体之间互相验证结果，直到答案收敛再输出给你。

据 MarkTechPost 的报道，动态工作流支持最多 1000 个子智能体并行，目前是研究预览阶段，上限是 Anthropic 主动设置的安全边界。

最有说服力的实际案例来自 Jarred Sumner。他用动态工作流把 Bun 运行时的底层代码从 Zig 迁移到 Rust，约 75 万行 Rust 代码，从第一次提交到合并只用了 11 天，原有测试套件的通过率是 99.8%。

这个案例的核心不是"AI 代替了程序员"，而是验证了一件事：有些工程任务的瓶颈不在智慧，在带宽。一个人或一个 agent 每次只能推进一条线，但 100 个 agent 同时从不同角度进攻，收敛速度是完全不同的量级。

可用性方面，动态工作流目前覆盖：

Claude Code CLI
Claude Code Desktop 应用
VS Code 扩展
Claude API、Amazon Bedrock、Vertex AI、Microsoft Foundry

计划层级是 Max、Team 和 Enterprise，以及 API 用户。Pro 计划暂未列入。

对你现在用的工作流，这意味着什么

如果你是个人开发者或小团队，Opus 4.8 的升级对你最直接的影响有两件事。

第一，标准定价没变，但拿到的模型更好。不需要做任何迁移决策，API 调用换成 claude-opus-4-8 即可。

第二，Fast Mode 降价 3 倍。如果你现在有跑大量并发或批量请求的场景，这个变化值得重新估算一下成本。跑批量代码审查、大量文档生成、高频分类任务的团队，实际账单影响可能相当明显。

动态工作流目前是研究预览，不适合直接接入生产管线。但如果你有"任务规模太大，单 agent 跑不完"这类问题，比如大型代码库迁移、大量并行测试用例生成、多模块同步重构，现在可以开始用它跑实验性任务，摸清边界，等功能稳定后直接上线。

写在最后

Opus 4.8 这次发布，有两件事值得记住。

一是节奏变了。41 天出一个旗舰版本，Anthropic 告诉行业它不打算按年发布了。这对用户是好事，你每隔几周就可能拿到实质更好的模型，而不是等年底的大发布。

二是同价策略背后的逻辑。Dan Shipper 说"本可以叫它 Opus 5"，这句话里有一层可以往深里想的意思：Anthropic 显然在有意保留 Opus 5 这个名字，等待某个真正的大跨步。用一个"接近 Opus 5 的 4.8"在竞争最激烈的阶段稳住用户，再用真正的 Opus 5 做下一次更大的发布，这是一种清醒的产品节奏控制。

这场旗舰战打到什么程度，要看 OpenAI 和 Google 怎么接招。但对你来说，今天能用到的是：同样的价格，更好的 Opus，和一个可以跑 1000 个子智能体的工作流预览。先把手头的任务跑一遍，感受一下再说。

延伸阅读

Dan Shipper 的 X 帖文（原始评测）
Every 评测全文：Opus 4.8 Vibe Check
TechCrunch：Anthropic 发布 Opus 4.8 及动态工作流工具
Claude Code 动态工作流官方博客
Anthropic 官方定价页