Anthropic 重磅发布 Claude Sonnet 4.5：续航超 30 小时，重塑 AI 编程新标杆

Claude Sonnet 4.5的发布，是2025年AI领域的里程碑事件。它不仅以“30小时续航”“77.2% SWE-bench得分”刷新了AI编程工具的性能上限，更通过开发者生态升级与安全优化，让“AI辅助编程”从“概念”走向“实用”。从代码生成到软件开发，从个人开发者到企业团队，Claude Sonnet 4.5正在重塑人们对AI的认知——它不再是简单的“工具”，而是能持续协作、自主思考的

这雪真白哈

1342人浏览 · 2025-09-30 09:04:59

这雪真白哈 · 2025-09-30 09:04:59 发布

Anthropic重磅发布Claude Sonnet 4.5：续航超30小时，重塑AI编程新标杆

2025年9月30日，AI领域迎来重磅消息——Anthropic正式推出Claude Sonnet 4.5。这款全新AI模型在编程、推理、数学等核心能力上实现跨越式提升，不仅以77.2%的成绩登顶SWE-bench Verified测试，更创下连续工作超30小时的惊人续航，被业内称为“史上最卷AI”。从代码生成到复杂任务处理，从安全性能到开发者生态，Claude Sonnet 4.5的发布彻底改写了AI编程工具的竞争格局。

在这里插入图片描述

一、性能全面突破：从编程到推理的全维度升级

Claude Sonnet 4.5的核心优势在于“全场景能力跃升”。Anthropic通过底层算法优化与训练数据扩容，让模型在多个权威测试基准中展现出碾压级表现，尤其在编程、数学推理、计算机操作三大领域，形成对同类产品的显著优势。

（一）编程能力：登顶业界测试，1.1万行代码一气呵成

在衡量真实软件工程师能力的SWE-bench Verified测试（包含500个真实编程任务）中，Claude Sonnet 4.5交出了亮眼答卷：基础测试得分77.2%，若启用“并行测试时计算”功能，得分更是飙升至82.0%，远超Claude Opus 4.1（74.5%/79.4%）、GPT-5（72.8%）与Gemini 2.5 Pro（67.2%），稳居全球第一。

这一成绩并非偶然。实际测试显示，Claude Sonnet 4.5能独立完成复杂项目开发——例如构建类似Slack或Teams的聊天应用时，它可一次性生成约1.1万行代码，涵盖前端界面、后端逻辑、数据库交互等全流程。对比之下，前代Claude Opus 4与GPT-5 Codex的连续工作时长上限仅为7小时，而Claude Sonnet 4.5的续航突破30小时，相当于“从早到晚不间断编码三天”，彻底解决了AI编程工具“中途断档”的痛点。

在终端编程与工具使用场景中，模型同样表现出色。在Terminal-Bench终端编码测试中，其50.0%的得分领先Claude Opus 4.1（46.5%）与GPT-5（43.8%）；r2-bench工具使用测试里，零售场景得分86.2%、航空场景70.0%，尤其在电信领域拿下98.0%的超高分数，远超同类模型的71.5%（Claude Opus 4.1）与49.6%（Claude Sonnet 4），成为首个能稳定处理多行业工具调用的AI模型。

（二）推理与数学：从高中竞赛到研究生级任务全覆盖

数学与逻辑推理是AI能力的“试金石”，而Claude Sonnet 4.5在此领域实现了“从达标到顶尖”的跨越。在2025年AIME高中数学竞赛中，模型使用Python工具时得分100%，即便不借助任何工具，仍能达到87.0%的正确率，远超Claude Opus 4.1（78.0%）与Gemini 2.5 Pro（88.0%），仅略逊于GPT-5（99.6%/94.6%）。

针对更高难度的GPQA Diamond研究生级推理测试，Claude Sonnet 4.5取得83.4%的成绩，虽低于GPT-5（85.7%）与Gemini 2.5 Pro（86.4%），但较前代Claude Sonnet 4（76.1%）提升9.3个百分点，展现出在学术研究、复杂逻辑分析场景的实用价值。

在多语言与视觉推理场景中，模型同样保持竞争力。MMMLU多语言问答测试得分89.1%，与Claude Opus 4.1（89.5%）、GPT-5（89.4%）基本持平；MMMU视觉推理验证测试得77.8%，虽落后于GPT-5（84.2%）与Gemini 2.5 Pro（82.0%），但较前代提升3.4个百分点，为后续视觉-文本融合任务打下基础。

（三）计算机操作：OSWorld测试登顶，浏览器操作如“真人”

AI能否像人类一样操作计算机？Claude Sonnet 4.5给出了肯定答案。在OSWorld真实计算机任务测试中，模型以61.4%的得分位居第一，较四个月前发布的Claude Sonnet 4（42.2%）提升近20个百分点，远超Claude Opus 4.1（44.4%）。这意味着它能独立完成文件管理、软件安装、网页导航等日常操作，甚至能通过Chrome插件自动填充表格、处理在线任务，操作逻辑与人类用户高度一致。

金融分析场景是另一大亮点。在Finance Agent金融分析测试中，Claude Sonnet 4.5得分55.3%，领先Claude Opus 4.1（50.9%）、GPT-5（46.9%）与Gemini 2.5 Pro（29.4%），成为首个在金融数据解读、风险评估任务中达到实用级别的AI模型。Anthropic透露，该模型已被部分金融机构用于自动化报表生成与市场趋势分析，效率较人工提升3-5倍。

二、开发者生态革新：从工具到SDK的全链路支持

Anthropic深知，优秀的AI模型需要完善的生态支撑。伴随Claude Sonnet 4.5发布，Anthropic同步推出一系列开发者工具与功能，覆盖代码编写、项目管理、智能体开发全流程，降低了AI编程工具的使用门槛。

（一）Claude Code 2.0：重构编程体验，新增“检查点”功能

作为面向开发者的核心工具，Claude Code 2.0在本次更新中迎来重大升级。最受关注的是新增的“检查点”功能——开发者在编写代码时可随时保存当前进度，若后续修改出现问题，一键即可回退到之前的稳定状态，避免因误操作导致的代码丢失。这一功能类似编程软件中的“版本控制”，但操作更简便，尤其适合新手开发者。

此外，Claude Code 2.0还优化了终端界面设计，采用更简洁的布局与实时语法高亮，降低视觉疲劳；同步发布的原生VS Code插件，让开发者无需切换平台，即可在熟悉的编程环境中调用Claude Sonnet 4.5的能力，支持代码补全、错误修复、注释生成等功能。实测显示，使用该插件后，开发者的代码编写效率平均提升40%，尤其在处理多文件项目时，模型能自动关联不同文件的逻辑关系，减少“跨文件调试”的时间成本。

（二）Claude API升级：上下文编辑与记忆工具上线

针对企业级用户，Claude API新增两大核心功能：上下文编辑与记忆工具。上下文编辑功能允许开发者直接修改对话历史中的指令或代码片段，无需重新发起请求，大幅提升多轮对话的灵活性；记忆工具则能让模型长期保存项目信息，例如开发者可将项目需求、代码规范等内容存入“记忆库”，模型后续生成代码时会自动参考这些信息，避免重复沟通。

定价方面，Anthropic保持了极高的性价比——调用claude-sonnet-4-5的费用与Claude Sonnet 4一致，仍为每百万tokens输入$3、输出$15，相当于“加量不加价”。这一策略吸引了大量中小开发者与企业用户，发布首日API调用量较平日增长200%，部分编程工具厂商已宣布将Claude Sonnet 4.5作为默认AI引擎。

（三）Claude Agent SDK：开放底层能力，人人可做“AI开发者”

本次发布最具颠覆性的举措，是Anthropic开放了Claude Agent SDK——这是Anthropic内部用于搭建Claude Code的底层基础设施，如今免费向开发者开放。通过该SDK，开发者可自定义AI智能体的行为逻辑，例如设置智能体的记忆管理规则、设计多智能体协作流程、配置用户权限系统等，解决了传统AI开发中“自主性与可控性难以平衡”的痛点。

举个例子，某团队可利用Claude Agent SDK开发“客户服务智能体”：让一个智能体负责接收用户咨询，另一个智能体负责查询知识库，第三个智能体负责生成回复，三个智能体通过SDK的协作接口实时同步信息，最终形成高效的客户服务流程。Anthropic表示，SDK还支持与第三方工具集成，例如对接企业内部的CRM系统、数据库等，进一步拓展AI智能体的应用场景。

三、安全性能双保障：对齐度最高的前沿AI模型

AI能力越强，安全风险越高。Anthropic在提升Claude Sonnet 4.5性能的同时，将“安全性”作为核心目标，通过优化训练流程与防御机制，使该模型成为Anthropic史上“对齐度最高”的前沿模型。

（一）行为对齐：减少不当输出，提升可靠性

“对齐度”指AI模型的行为与人类价值观的匹配程度。为提升对齐度，Anthropic采用“多阶段安全训练”：首先通过人工标注筛选高质量训练数据，排除包含暴力、歧视、虚假信息的内容；然后在模型训练过程中加入“价值观引导”模块，让模型学习识别并拒绝不当请求；最后通过模拟测试，针对性优化模型在敏感场景中的响应逻辑。

测试数据显示，Claude Sonnet 4.5的不当行为得分（越低越好）远低于同类模型。在模拟场景中，模型出现阿谀奉承、欺骗、鼓励妄想等行为的概率较Claude Opus 4.1降低60%，较GPT-5降低45%，成为目前对齐度最高的AI模型之一。例如，当用户提出“如何获取他人隐私信息”时，模型会明确拒绝并提示用户遵守法律法规，而非模糊回避。

（二）安全防御：抵御提示注入，降低误判风险

“提示注入攻击”是AI安全的主要威胁之一——攻击者通过构造特殊指令，诱导模型执行未授权操作（如泄露敏感信息、生成恶意代码）。为应对这一风险，Claude Sonnet 4.5新增“多层防御机制”：第一层通过关键词识别与语义分析，拦截明显的攻击指令；第二层通过“指令溯源”，判断指令是否来自可信用户；第三层通过“沙盒测试”，在隔离环境中验证指令的安全性，再决定是否执行。

Anthropic透露，该防御机制能抵御98%以上的已知提示注入攻击，较前代模型提升30%。同时，模型在内容审核中的“误判率”也大幅降低——例如，在处理包含技术术语的合法请求时，误判为“违规内容”的概率从Claude Opus 4.1的8%降至2%，避免因过度审核影响正常使用。

（三）用户反馈：从“降智”风波到信任重建

值得关注的是，本次发布距离Claude系列的“降智”风波仅两个月。2025年7-8月，大量用户反映Claude模型的推理能力、代码质量大幅下滑，甚至付费的Max用户也受影响，导致GitHub、X平台出现退订潮。Anthropic随后紧急回滚Opus 4.1更新，并承认存在两个独立Bug，强调“绝非为节省成本故意降智”，但因未提供补偿，用户信任度受损。

Claude Sonnet 4.5的发布，被视为Anthropic“重建信任”的关键举措。从实际反馈来看，开发者对新模型的认可度显著提升：网友@vasumanmoza分享体验称，模型一次调用就完成了整个代码库的重构，新增3000多行代码与12个文件，虽最终运行存在问题，但代码结构的优雅度远超预期；编程工具Cursor官方表示，Claude Sonnet 4.5在长周期任务中的表现“刷新行业标杆”，已有60%的Cursor用户选择将其作为首选AI引擎。

四、创新功能预览：“Imagine with Claude”实时生成软件

除了核心性能与生态升级，Anthropic还推出了一项极具前瞻性的临时功能——“Imagine with Claude”，为AI编程的未来形态提供了全新想象空间。

（一）功能特点：实时互动生成，无预设代码

“Imagine with Claude”的核心亮点是“实时性”与“定制化”。与传统AI编程工具“根据指令生成固定代码”不同，该功能中，模型会与用户实时互动，根据用户的需求调整软件功能与代码逻辑，所有代码均为当场生成，无任何预设内容。

例如，用户提出“创建一个2025年的邮件客户端”，模型会先询问用户偏好的界面风格、核心功能（如是否支持加密发送、多账号管理），然后边沟通边生成代码，每完成一个模块就展示效果，用户可随时提出修改意见（如“将按钮颜色改为蓝色”“增加附件预览功能”），模型会立即调整代码。整个过程类似“与AI程序员协作开发”，大幅提升了软件定制的灵活性。

（二）开放范围：限时向Max订阅用户开放

目前，“Imagine with Claude”处于临时研究预览阶段，仅对Claude Max订阅用户开放，且开放时间仅限发布后的5天内（2025年9月30日-10月4日）。用户可通过官方链接claude.ai/imagine体验该功能，Anthropic表示，后续将根据用户反馈优化功能，计划2025年底向所有用户开放。

从早期体验来看，“Imagine with Claude”在小型工具开发场景中表现突出，例如生成待办清单、新闻聚合器、简单游戏等，平均开发时间仅需10-15分钟，较传统开发流程缩短90%以上。但在复杂项目（如电商平台、企业管理系统）中，模型仍存在逻辑漏洞与性能瓶颈，需进一步优化。

五、行业竞争与未来展望：AI编程赛道进入“白热化”

Claude Sonnet 4.5的发布，不仅是Anthropic的一次产品升级，更标志着AI编程赛道的竞争进入新阶段。从市场格局到技术趋势，本次发布都将产生深远影响。

（一）市场竞争：卡位OpenAI开发者大会，争夺编程用户

Anthropic选择在OpenAI年度开发者大会（预计10月7日召开）前一周发布Claude Sonnet 4.5，战略意图明显——通过抢先展示性能优势，吸引原本关注GPT系列的开发者。目前，AI编程工具的用户群体以程序员为主，市场规模预计2025年突破50亿美元，OpenAI的GPT-5 Codex、Google的Gemini 2.5 Pro均是主要竞争者。

从当前数据来看，Claude Sonnet 4.5已在多个核心测试中领先：SWE-bench Verified第一、Terminal-Bench第一、OSWorld第一，仅在视觉推理、研究生级推理等少数场景落后于GPT-5与Gemini 2.5 Pro。Anthropic联合创始人兼首席科学官Jared Kaplan表示，“Claude在大小模型的使用上都能占优势”，暗示后续还将推出更先进的Opus系列模型，进一步巩固市场地位。

值得注意的是，Anthropic的市场表现也支撑了其竞争底气。截至2025年8月，Anthropic估值已达1830亿美元，年化营收突破50亿美元，其中编程工具贡献了约40%的营收。但OpenAI与Google的实力同样不容小觑——GPT-5 Codex在生产环境Bug修复场景中仍占据优势，Gemini 2.5 Pro则在多模态任务中领先，未来三者的竞争将围绕“细分场景优势”展开。

（二）技术趋势：长续航、高安全、生态化成主流

Claude Sonnet 4.5的发布，也为AI编程工具的技术发展指明了三个方向：

长续航能力：连续工作30小时的突破，意味着AI模型将从“辅助工具”向“独立工作者”转变，未来有望承担更多长时间、高复杂度的任务（如大型软件开发、数据分析）；
高安全性：对齐度提升与防御机制优化，证明“高性能与高安全可兼得”，后续模型将更注重“价值观对齐”与“风险防控”，避免因安全问题限制应用场景；
生态化发展：从API到SDK的全链路支持，降低了AI编程的使用门槛，未来行业将从“单一模型竞争”转向“生态体系竞争”，谁能构建更完善的开发者生态，谁就能占据市场主导地位。

（三）挑战与机遇：用户信任与技术突破的平衡

尽管Claude Sonnet 4.5表现亮眼，Anthropic仍面临两大挑战：一是用户信任的重建——“降智”风波后，部分用户对模型稳定性存疑，需通过长期可靠的表现赢回信任；二是技术瓶颈的突破——在视觉推理、复杂逻辑分析等场景，模型仍落后于竞品，需持续投入研发。

但机遇同样巨大。随着AI编程工具的普及，越来越多的企业开始将其纳入研发流程，市场需求持续增长；同时，“Imagine with Claude”等创新功能的探索，也为AI编程开辟了“实时互动开发”的新方向。若Anthropic能持续迭代技术、完善生态，未来有望在AI编程赛道占据领先地位。

结语

随着OpenAI、Google等巨头的后续动作，AI编程赛道的竞争将更加激烈，最终受益的将是全球开发者与企业。我们有理由期待，在不久的将来，AI将彻底改变软件开发生态，让编程变得更高效、更简单、更具创造力。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

我用 AtomCode 撸了一个 CSV/Excel 数据可视化面板，真实体验报告

AI编程社区

【粉丝福利社】人人都能学AI编程：Cursor从入门到项目实践

AI编程社区

Multica: 把AI Agent变成真正的队友

Multica不是一个AI编程工具，它解决的是"任务分配、执行追踪、经验沉淀"这三个问题。这三个问题恰恰是现在人+AI协作里最痛的点。你不需要再复制粘贴prompt，不需要一直盯着终端看日志，不需要每次换Agent就从零开始。如果你已经在用Claude Code这类工具，或者想探索多Agent协作的可能性，Multica值得一试。有不懂的地方可以在评论区问，看到会回。