Newsroom
AIEII

Anthropic Opus 4.8 发布:同价升级、被实测者称媲美 Opus 5,旗舰之战再升级

Anthropic 推出 Opus 4.8,定价不变却被实测者称可直接叫 Opus 5,同步上线 Claude Code 动态工作流。一文看清这次小版本大跃进背后的旗舰竞争逻辑。

2026年06月01日

Anthropic Opus 4.8 发布:同价升级、被实测者称媲美 Opus 5,旗舰之战再升级

41 天。

这是 Opus 4.7 到 Opus 4.8 之间的时间差。上一个旗舰版本刚发布一个多月,Anthropic 又推出了下一个。更值得注意的是,5 月 28 日上线的 Opus 4.8 定价没有变,但 Every 的创始人 Dan Shipper 在内部跑了将近一周的评测后,给出了这么一句话:“他们本可以直接叫它 Opus 5,它就是那么好。”

这话从一个每周认真跑模型对比的人嘴里说出来,值得细听。


Opus 4.8 改了哪些地方

从 Anthropic 官方信息来看,这次更新有三个实质变化。

第一是代码和推理能力的整体提升,这也是这次发布的核心叙事。第二是 Fast Mode 的成本大幅下降,新 Fast Mode 比上一代便宜 3 倍,速度提升 2.5 倍。第三是 Claude Code 同步上线了动态工作流功能,目前处于研究预览阶段。

定价方面,Opus 4.8 的标准层和 Opus 4.7 保持一致,据 Anthropic 官方定价页 的数据:

模式输入价格输出价格
标准$5 / 百万 token$25 / 百万 token
Fast Mode(新)$10 / 百万 token$50 / 百万 token
提示词缓存最高节省 90%
批处理节省 50%

标准价格没动。Fast Mode 是一个独立的计算层,之前贵得多,这次降到了 $10/$50,比旧版 Fast Mode 便宜 3 倍,速度却快了 2.5 倍。对跑大量批处理任务的团队来说,这个变化直接影响账单。

Opus 4.8 现在可以通过 API 调用,模型 ID 为 claude-opus-4-8。Pro、Max、Team 和 Enterprise 用户均可使用。


Dan Shipper 测了什么,他说了什么

Every 团队对 Opus 4.8 做了接近一周的内部评测,Dan Shipper 在 5 月 28 日的 X 帖文 里公布了他们的核心数字。

这里有一点需要说清楚:这是 Every 自行设计的专有基准(proprietary benchmark),不是 SWE-bench 或 HumanEval 这类公共标准测试,所以数字代表的是他们特定测试场景下的结论,不能直接和官方排行榜的数字类比。

他们跑了两个维度,据 every.to 的评测文章

Every 内部基准Opus 4.7GPT-5.5Opus 4.8
Senior Engineer Benchmark约 33 分62 分63 分
Writing Benchmark79.6 分

Opus 4.8 在 Senior Engineer 基准上比 GPT-5.5 高 1 分,比 Opus 4.7 高约 30 分。写作基准的 79.6 是 Every 有记录以来测出的最高分。

Shipper 的原话是"他们本可以直接叫它 Opus 5",这是他基于这次内部测试得出的主观判断,不代表 Anthropic 官方立场。但这句话的分量在于,Shipper 的团队做这类评测的频率极高,他们轻易不用这种定性。

他还在帖文里提到,Opus 4.8 在他们的框架里是"测试过的最完整的模型",代码和写作两个维度同时处于领先。单一维度的第一名并不难,两个维度同时靠前才是难做的事情。


41 天的背后:这轮快拳打的是谁

发布间隔本身是一个信号。

TechCrunch 的报道,Opus 4.7 和 Opus 4.8 之间只差 41 天,Anthropic 正在从年度大版本模式切换到快速增量迭代的节奏。这在大模型行业是一个明显的战略变化。

背后有一段竞争背景值得了解。Opus 4.7 上线后,外界评价整体偏冷,不少测试者认为它在和 GPT-5.5 的正面对比中没有优势。GPT-5.5 在 Opus 4.7 发布约一周后上线,在 Every 的 Senior Engineer 基准上拿到了 62 分,把 Opus 4.7 的约 33 分甩在了后面。Opus 4.8 的 63 分,是 Anthropic 对这一局面的直接回应。

当然,1 分的差距在一个私有基准上没有太大绝对意义,真实的工程差异需要在具体任务上感受。

从旗舰竞争的角度来看,目前的格局是 OpenAI 有 GPT-5.5,Google 有 Gemini 系列,Anthropic 则用快速迭代加同价升级的方式持续施压。三家的发布节奏都在加快,旗舰模型已经从年货变成了季货。

同价升级的信号值得单独说一句。用户对价格的感知往往超过对参数的感知,一个"不涨价的升级"在心理层面很容易赢得正面反应。Anthropic 在竞争最激烈的时间节点选择维持标准定价,同时还把 Fast Mode 降了价,这是一个经过计算的竞争动作。


动态工作流:1000 个子智能体能干什么

这次更新里技术含量最高的部分,其实不是模型本身,而是 Claude Code 同步推出的动态工作流(Dynamic Workflows)。

官方在 博客文章 里的描述是:它设计用来解决"单次单智能体无法完成的大型问题"。机制上,Claude 根据你的 prompt 动态规划任务,把工作拆成子任务,同时启动多个并行子智能体分头执行,智能体之间互相验证结果,直到答案收敛再输出给你。

MarkTechPost 的报道,动态工作流支持最多 1000 个子智能体并行,目前是研究预览阶段,上限是 Anthropic 主动设置的安全边界。

最有说服力的实际案例来自 Jarred Sumner。他用动态工作流把 Bun 运行时的底层代码从 Zig 迁移到 Rust,约 75 万行 Rust 代码,从第一次提交到合并只用了 11 天,原有测试套件的通过率是 99.8%。

这个案例的核心不是"AI 代替了程序员",而是验证了一件事:有些工程任务的瓶颈不在智慧,在带宽。一个人或一个 agent 每次只能推进一条线,但 100 个 agent 同时从不同角度进攻,收敛速度是完全不同的量级。

可用性方面,动态工作流目前覆盖:

  • Claude Code CLI
  • Claude Code Desktop 应用
  • VS Code 扩展
  • Claude API、Amazon Bedrock、Vertex AI、Microsoft Foundry

计划层级是 Max、Team 和 Enterprise,以及 API 用户。Pro 计划暂未列入。


对你现在用的工作流,这意味着什么

如果你是个人开发者或小团队,Opus 4.8 的升级对你最直接的影响有两件事。

第一,标准定价没变,但拿到的模型更好。不需要做任何迁移决策,API 调用换成 claude-opus-4-8 即可。

第二,Fast Mode 降价 3 倍。如果你现在有跑大量并发或批量请求的场景,这个变化值得重新估算一下成本。跑批量代码审查、大量文档生成、高频分类任务的团队,实际账单影响可能相当明显。

动态工作流目前是研究预览,不适合直接接入生产管线。但如果你有"任务规模太大,单 agent 跑不完"这类问题,比如大型代码库迁移、大量并行测试用例生成、多模块同步重构,现在可以开始用它跑实验性任务,摸清边界,等功能稳定后直接上线。


写在最后

Opus 4.8 这次发布,有两件事值得记住。

一是节奏变了。41 天出一个旗舰版本,Anthropic 告诉行业它不打算按年发布了。这对用户是好事,你每隔几周就可能拿到实质更好的模型,而不是等年底的大发布。

二是同价策略背后的逻辑。Dan Shipper 说"本可以叫它 Opus 5",这句话里有一层可以往深里想的意思:Anthropic 显然在有意保留 Opus 5 这个名字,等待某个真正的大跨步。用一个"接近 Opus 5 的 4.8"在竞争最激烈的阶段稳住用户,再用真正的 Opus 5 做下一次更大的发布,这是一种清醒的产品节奏控制。

这场旗舰战打到什么程度,要看 OpenAI 和 Google 怎么接招。但对你来说,今天能用到的是:同样的价格,更好的 Opus,和一个可以跑 1000 个子智能体的工作流预览。先把手头的任务跑一遍,感受一下再说。


延伸阅读

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← OpenAI 把 ChatGPT、Codex 和 API 合 … AI 营收军备赛:Anthropic 年化冲上 300 亿美 … →
💬 Comments
6 min read