41 天。
这是 Opus 4.7 到 Opus 4.8 之间的时间差。上一个旗舰版本刚发布一个多月,Anthropic 又推出了下一个。更值得注意的是,5 月 28 日上线的 Opus 4.8 定价没有变,但 Every 的创始人 Dan Shipper 在内部跑了将近一周的评测后,给出了这么一句话:“他们本可以直接叫它 Opus 5,它就是那么好。”
这话从一个每周认真跑模型对比的人嘴里说出来,值得细听。
Opus 4.8 改了哪些地方
从 Anthropic 官方信息来看,这次更新有三个实质变化。
第一是代码和推理能力的整体提升,这也是这次发布的核心叙事。第二是 Fast Mode 的成本大幅下降,新 Fast Mode 比上一代便宜 3 倍,速度提升 2.5 倍。第三是 Claude Code 同步上线了动态工作流功能,目前处于研究预览阶段。
定价方面,Opus 4.8 的标准层和 Opus 4.7 保持一致,据 Anthropic 官方定价页 的数据:
| 模式 | 输入价格 | 输出价格 |
|---|---|---|
| 标准 | $5 / 百万 token | $25 / 百万 token |
| Fast Mode(新) | $10 / 百万 token | $50 / 百万 token |
| 提示词缓存 | 最高节省 90% | — |
| 批处理 | 节省 50% | — |
标准价格没动。Fast Mode 是一个独立的计算层,之前贵得多,这次降到了 $10/$50,比旧版 Fast Mode 便宜 3 倍,速度却快了 2.5 倍。对跑大量批处理任务的团队来说,这个变化直接影响账单。
Opus 4.8 现在可以通过 API 调用,模型 ID 为
claude-opus-4-8。Pro、Max、Team 和 Enterprise 用户均可使用。
Dan Shipper 测了什么,他说了什么
Every 团队对 Opus 4.8 做了接近一周的内部评测,Dan Shipper 在 5 月 28 日的 X 帖文 里公布了他们的核心数字。
这里有一点需要说清楚:这是 Every 自行设计的专有基准(proprietary benchmark),不是 SWE-bench 或 HumanEval 这类公共标准测试,所以数字代表的是他们特定测试场景下的结论,不能直接和官方排行榜的数字类比。
他们跑了两个维度,据 every.to 的评测文章:
| Every 内部基准 | Opus 4.7 | GPT-5.5 | Opus 4.8 |
|---|---|---|---|
| Senior Engineer Benchmark | 约 33 分 | 62 分 | 63 分 |
| Writing Benchmark | — | — | 79.6 分 |
Opus 4.8 在 Senior Engineer 基准上比 GPT-5.5 高 1 分,比 Opus 4.7 高约 30 分。写作基准的 79.6 是 Every 有记录以来测出的最高分。
Shipper 的原话是"他们本可以直接叫它 Opus 5",这是他基于这次内部测试得出的主观判断,不代表 Anthropic 官方立场。但这句话的分量在于,Shipper 的团队做这类评测的频率极高,他们轻易不用这种定性。
他还在帖文里提到,Opus 4.8 在他们的框架里是"测试过的最完整的模型",代码和写作两个维度同时处于领先。单一维度的第一名并不难,两个维度同时靠前才是难做的事情。
41 天的背后:这轮快拳打的是谁
发布间隔本身是一个信号。
据 TechCrunch 的报道,Opus 4.7 和 Opus 4.8 之间只差 41 天,Anthropic 正在从年度大版本模式切换到快速增量迭代的节奏。这在大模型行业是一个明显的战略变化。
背后有一段竞争背景值得了解。Opus 4.7 上线后,外界评价整体偏冷,不少测试者认为它在和 GPT-5.5 的正面对比中没有优势。GPT-5.5 在 Opus 4.7 发布约一周后上线,在 Every 的 Senior Engineer 基准上拿到了 62 分,把 Opus 4.7 的约 33 分甩在了后面。Opus 4.8 的 63 分,是 Anthropic 对这一局面的直接回应。
当然,1 分的差距在一个私有基准上没有太大绝对意义,真实的工程差异需要在具体任务上感受。
从旗舰竞争的角度来看,目前的格局是 OpenAI 有 GPT-5.5,Google 有 Gemini 系列,Anthropic 则用快速迭代加同价升级的方式持续施压。三家的发布节奏都在加快,旗舰模型已经从年货变成了季货。
同价升级的信号值得单独说一句。用户对价格的感知往往超过对参数的感知,一个"不涨价的升级"在心理层面很容易赢得正面反应。Anthropic 在竞争最激烈的时间节点选择维持标准定价,同时还把 Fast Mode 降了价,这是一个经过计算的竞争动作。
动态工作流:1000 个子智能体能干什么
这次更新里技术含量最高的部分,其实不是模型本身,而是 Claude Code 同步推出的动态工作流(Dynamic Workflows)。
官方在 博客文章 里的描述是:它设计用来解决"单次单智能体无法完成的大型问题"。机制上,Claude 根据你的 prompt 动态规划任务,把工作拆成子任务,同时启动多个并行子智能体分头执行,智能体之间互相验证结果,直到答案收敛再输出给你。
据 MarkTechPost 的报道,动态工作流支持最多 1000 个子智能体并行,目前是研究预览阶段,上限是 Anthropic 主动设置的安全边界。
最有说服力的实际案例来自 Jarred Sumner。他用动态工作流把 Bun 运行时的底层代码从 Zig 迁移到 Rust,约 75 万行 Rust 代码,从第一次提交到合并只用了 11 天,原有测试套件的通过率是 99.8%。
这个案例的核心不是"AI 代替了程序员",而是验证了一件事:有些工程任务的瓶颈不在智慧,在带宽。一个人或一个 agent 每次只能推进一条线,但 100 个 agent 同时从不同角度进攻,收敛速度是完全不同的量级。
可用性方面,动态工作流目前覆盖:
- Claude Code CLI
- Claude Code Desktop 应用
- VS Code 扩展
- Claude API、Amazon Bedrock、Vertex AI、Microsoft Foundry
计划层级是 Max、Team 和 Enterprise,以及 API 用户。Pro 计划暂未列入。
对你现在用的工作流,这意味着什么
如果你是个人开发者或小团队,Opus 4.8 的升级对你最直接的影响有两件事。
第一,标准定价没变,但拿到的模型更好。不需要做任何迁移决策,API 调用换成 claude-opus-4-8 即可。
第二,Fast Mode 降价 3 倍。如果你现在有跑大量并发或批量请求的场景,这个变化值得重新估算一下成本。跑批量代码审查、大量文档生成、高频分类任务的团队,实际账单影响可能相当明显。
动态工作流目前是研究预览,不适合直接接入生产管线。但如果你有"任务规模太大,单 agent 跑不完"这类问题,比如大型代码库迁移、大量并行测试用例生成、多模块同步重构,现在可以开始用它跑实验性任务,摸清边界,等功能稳定后直接上线。
写在最后
Opus 4.8 这次发布,有两件事值得记住。
一是节奏变了。41 天出一个旗舰版本,Anthropic 告诉行业它不打算按年发布了。这对用户是好事,你每隔几周就可能拿到实质更好的模型,而不是等年底的大发布。
二是同价策略背后的逻辑。Dan Shipper 说"本可以叫它 Opus 5",这句话里有一层可以往深里想的意思:Anthropic 显然在有意保留 Opus 5 这个名字,等待某个真正的大跨步。用一个"接近 Opus 5 的 4.8"在竞争最激烈的阶段稳住用户,再用真正的 Opus 5 做下一次更大的发布,这是一种清醒的产品节奏控制。
这场旗舰战打到什么程度,要看 OpenAI 和 Google 怎么接招。但对你来说,今天能用到的是:同样的价格,更好的 Opus,和一个可以跑 1000 个子智能体的工作流预览。先把手头的任务跑一遍,感受一下再说。
延伸阅读