Claude Opus 4.8 发布:更强编程与更高诚实性
Claude Opus 4.8 发布,带来更强编程能力、更高诚实性,以及动态工作流功能。
本文已收录在Github,关注我,紧跟本系列专栏文章,咱们下篇再续!
- 🚀 魔都架构师 | 全网30W技术追随者
- 🔧 大厂分布式系统/数据中台实战专家
- 🏆 主导交易系统百万级流量调优 & 车联网平台架构
- 🧠 AIGC应用开发先行者 | 区块链落地实践者
- 🌍 以技术驱动创新,我们的征途是改变世界!
- 👉 实战干货:编程严选网
0 前言
Claude Opus全新版:Claude Opus 4.8。基于 Opus 4.7 进一步改进,在各项基准测试中表现更强,也更适合作为协作伙伴使用,并且从今天起以与此前相同的价格提供。
Opus 4.8 发布同时,还带来了多项新功能。claude.ai 用户现在可以自行控制 Claude 在任务上投入多少计算和思考资源。Claude Code 新增“动态工作流(Dynamic Workflows)”功能,使其能够处理超大规模问题。
Opus 4.8 的快速模式现已支持以 2.5 倍速度运行,而其成本相比此前模型降低了三倍。
1 Opus 4.8 的能力
Opus 4.8 在编程、智能体能力、推理以及实际知识工作任务等测试中,相比前代版本以及其他模型的表现。更多细节以及更全面的能力评测结果,请参阅 Claude Opus 4.8 系统卡。
2 与 Opus 4.8 协作
早期测试者发现,在执行智能体任务时,Claude Opus 4.8 的表现更加可靠,判断也更加精准。
3 诚实性
Opus 4.8 最显著的改进之一是其诚实性(honesty)。我们始终致力于让所有模型保持诚实,例如避免做出缺乏依据的断言。然而,AI 模型普遍存在一个问题:有时会过早下结论,在证据并不充分的情况下,仍然自信地宣称自己取得了进展。
早期测试者反馈显示,Opus 4.8 更倾向于主动指出工作中的不确定性,也更少做出缺乏证据支持的结论。这一点也得到了我们的评测验证:与前代相比,Opus 4.8 对自己编写代码中的缺陷保持沉默的概率降低了约四倍。
和以往一样,我们在发布前对模型进行了全面的对齐(Alignment)评估。在积极特性方面,我们的对齐团队认为 Opus 4.8“在支持用户自主性以及维护用户最佳利益等亲社会特质指标上,达到了新的高度”。
评估结果还显示,Opus 4.8 出现不符合预期行为(如欺骗行为或协助滥用)的比例明显低于 Opus 4.7,并与我们当前对齐程度最佳的模型 Claude Mythos Preview 相当。完整的对齐评估结果以及部署前安全测试内容,均已收录在 Claude Opus 4.8 系统卡中。
4 今日同步发布的更新
除了 Claude Opus 4.8 之外,我们还推出了以下更新:
- 动态工作流(Dynamic Workflows)。这项目前处于研究预览阶段的新功能,让 Claude Code 能够承担规模更大的任务。Claude 可以先制定执行计划,然后在单次会话中启动数百个并行子智能体(而在 Opus 4.8 的支持下,这些智能体还能运行更长时间)。在向用户汇报结果之前,它还会先验证输出内容。例如,搭载 Opus 4.8 的 Claude Code 现在能够基于现有测试套件作为验收标准,完成跨数十万行代码的大规模代码库迁移,从项目启动一直执行到合并代码。有关动态工作流的更多信息(适用于 Claude Code 的 Enterprise、Team 和 Max 套餐),请参阅这篇文章。
- claude.ai 和 Cowork 中的思考强度控制(Effort Control)。模型选择器旁新增了一项控制选项,用户可以自行决定 Claude 在回答时投入多少思考资源。更高的思考强度意味着 Claude 会更频繁、更深入地分析问题,从而提供更优质的回答;更低的思考强度则可以提升响应速度,并更缓慢地消耗用户的使用额度。该功能现已面向所有套餐开放。
- Messages API 现已支持在 messages 数组中直接插入 system 消息。 开发者可以在任务执行过程中动态更新 Claude 的指令,而无需破坏提示缓存(Prompt Cache),也无需通过额外的用户消息来传递更新内容。这一机制可用于在智能体运行过程中动态调整权限、Token 预算或运行环境上下文。
5 关于思考强度(Effort)
Opus 4.8 默认采用高思考强度(High Effort),我们认为这是质量与用户体验之间最均衡的选择。
在编程任务中,该默认设置消耗的 Token 数量与 Opus 4.7 的默认配置大致相当,但性能表现更好。用户还可以选择“Extra”(在 Claude Code 中显示为 xhigh)或“Max”模式,让模型投入更多 Token 来获得更优结果。对于复杂任务以及长时间运行的异步工作流,我们建议使用“Extra”模式。
为了适应更高思考强度带来的额外 Token 消耗,我们已经提升了 Claude Code 的使用额度限制。用户可以根据项目需求选择最合适的设置。
6 接下来会有什么?
用户会发现,Opus 4.8 相比前代版本带来了幅度适中但切实可感的提升。不过,我们仍有许多工作要完成:我们正在研发并推出成本更低、同时具备与 Opus 相近能力的新模型。
除此之外,我们还计划发布一类智能水平高于 Opus 的全新模型。作为 Project Glasswing 项目的一部分,目前已有少数机构在网络安全领域使用 Claude Mythos Preview。
达到这一能力水平的模型在全面开放之前,需要更强的网络安全防护措施。我们正在快速推进这些安全机制的研发,并预计在未来几周内,将 Mythos 级别模型开放给所有客户使用。
7 可用性与定价
Claude Opus 4.8 从今天起已全面上线。
常规模式的价格与 Opus 4.7 保持一致:每百万输入 Token 收费 5 美元,每百万输出 Token 收费 25 美元。
快速模式的价格为:每百万输入 Token 收费 10 美元,每百万输出 Token 收费 50 美元。
开发者可以通过 Claude API 使用 claude-opus-4-8 模型。
更多推荐


所有评论(0)