Claude Opus 4.8：AI 开始卷“可靠性”

Claude Opus 4.8 发布，价格未变，却在 Agent 能力、效率与诚实性上明显升级。比起更强，一个更值得关注的变化是：AI 开始变得更可靠。

AI新野 · 2026-05-29 16:05:55 发布

距离 Opus 4.7 发布只过了 41 天，Anthropic 又推出了 Claude Opus 4.8 。

价格一分没涨，标准模式依然是每百万输入 5 美元、输出 25 美元。

单看名字，你可能会觉得这是一次常规的小版本更新，但仔细看官方数据，无论是编程、人类最后考试（HLE），还是在智能体、计算机使用任务中，Opus 4.8几乎无可匹敌。

这次 Anthropic 的重点有点不一样，它反复强调的是长任务执行、复杂推理、工具调用稳定性，以及更低的错误率。简单理解就是它想解决的不是“会不会做”，而是“能不能持续做、稳定做、少翻车”。

在衡量真实世界 Agent 能力的硬核榜单 GDPval-AA 上，Claude Opus 4.8 拿下了 1890 Elo，直接断层第一。相比 Opus 4.7 提高了 137 分，也比 GPT-5.5 高出 121 分。按照榜单换算的胜率，面对同类任务，赢面接近 67%。

但我觉得，这次最值得关注的其实不是第一名，而是 Anthropic 在另一个指标上的变化——“Honesty（诚实性）”。

过去很多模型真正让人头疼的问题，不是不会，而是“装会”。代码有问题不提醒、数据逻辑不完整却一本正经输出，甚至明明上下文缺失，也能给你一种“事情已经做完”的错觉。这也是为什么很多开发者觉得 AI 写代码效率高，但又不敢完全托管。

而 Opus 4.8 这次明显在解决这个问题。

另外，官方公开了一项很有意思的数据：在“明明代码有缺陷却不提醒”的测试里，Opus 4.5 的问题率是 0.40，Opus 4.7 降到了 0.25，而 Opus 4.8 是 0.00。

没看错，没有小数点后面的零头，就是 0。

与此同时，完成同样任务时，Opus 4.8 需要的步骤更少、输出 token 更低。官方数据显示，相比 Opus 4.7，它平均少用了约 15% 的步骤，输出 token 降低约 35%。这意味着它不仅更强，还更省。

X 上不少开发者的评价也很有意思。很多人的共同感受并不是“它突然变成了神”，而是“更像一个靠谱同事了”——更愿意承认不知道、更会主动停下来确认上下文，也更少出现一本正经瞎写的情况。

当然也有持有不同意见的网友

今天的大模型，尤其在 Coding Agent 场景里，能力差距已经不像去年那样巨大。真正决定体验的，越来越像一个高级同事的工作方式：会不会自查、会不会主动暴露问题、会不会在关键节点停下来确认，而不是一路硬着头皮把错误做完。

如果这个方向成立，那么未来模型竞争比拼的，也许不只是 benchmark，而是谁更值得被长期托付复杂任务。

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Claude Code 通信机制逆向分析

使用 Proxyman 抓包工具对 Claude Code 的 API 通信进行完整逆向分析，浅谈 AI Agent 的工作机制。

Codex又又又更新了！这次似乎不需要Xcode了？Codex更新、Codex遥控器、Codex手机版、iOS Builder、Xcode替代方案、AI编程工具、Codex客户端下载、Mac远程控制、

告别拖拽做工作流：两个Skill让Dify应用全流程自动化

查看更多评论

已为社区贡献10条内容

温馨提示：您尚未绑定手机号