Anthropic重磅发布Claude Sonnet 4.5:续航超30小时,重塑AI编程新标杆

2025年9月30日,AI领域迎来重磅消息——Anthropic正式推出Claude Sonnet 4.5。这款全新AI模型在编程、推理、数学等核心能力上实现跨越式提升,不仅以77.2%的成绩登顶SWE-bench Verified测试,更创下连续工作超30小时的惊人续航,被业内称为“史上最卷AI”。从代码生成到复杂任务处理,从安全性能到开发者生态,Claude Sonnet 4.5的发布彻底改写了AI编程工具的竞争格局。

在这里插入图片描述

一、性能全面突破:从编程到推理的全维度升级

Claude Sonnet 4.5的核心优势在于“全场景能力跃升”。Anthropic通过底层算法优化与训练数据扩容,让模型在多个权威测试基准中展现出碾压级表现,尤其在编程、数学推理、计算机操作三大领域,形成对同类产品的显著优势。

(一)编程能力:登顶业界测试,1.1万行代码一气呵成

在衡量真实软件工程师能力的SWE-bench Verified测试(包含500个真实编程任务)中,Claude Sonnet 4.5交出了亮眼答卷:基础测试得分77.2%,若启用“并行测试时计算”功能,得分更是飙升至82.0%,远超Claude Opus 4.1(74.5%/79.4%)、GPT-5(72.8%)与Gemini 2.5 Pro(67.2%),稳居全球第一。

这一成绩并非偶然。实际测试显示,Claude Sonnet 4.5能独立完成复杂项目开发——例如构建类似Slack或Teams的聊天应用时,它可一次性生成约1.1万行代码,涵盖前端界面、后端逻辑、数据库交互等全流程。对比之下,前代Claude Opus 4与GPT-5 Codex的连续工作时长上限仅为7小时,而Claude Sonnet 4.5的续航突破30小时,相当于“从早到晚不间断编码三天”,彻底解决了AI编程工具“中途断档”的痛点。

在终端编程与工具使用场景中,模型同样表现出色。在Terminal-Bench终端编码测试中,其50.0%的得分领先Claude Opus 4.1(46.5%)与GPT-5(43.8%);r2-bench工具使用测试里,零售场景得分86.2%、航空场景70.0%,尤其在电信领域拿下98.0%的超高分数,远超同类模型的71.5%(Claude Opus 4.1)与49.6%(Claude Sonnet 4),成为首个能稳定处理多行业工具调用的AI模型。

(二)推理与数学:从高中竞赛到研究生级任务全覆盖

数学与逻辑推理是AI能力的“试金石”,而Claude Sonnet 4.5在此领域实现了“从达标到顶尖”的跨越。在2025年AIME高中数学竞赛中,模型使用Python工具时得分100%,即便不借助任何工具,仍能达到87.0%的正确率,远超Claude Opus 4.1(78.0%)与Gemini 2.5 Pro(88.0%),仅略逊于GPT-5(99.6%/94.6%)。

针对更高难度的GPQA Diamond研究生级推理测试,Claude Sonnet 4.5取得83.4%的成绩,虽低于GPT-5(85.7%)与Gemini 2.5 Pro(86.4%),但较前代Claude Sonnet 4(76.1%)提升9.3个百分点,展现出在学术研究、复杂逻辑分析场景的实用价值。

在多语言与视觉推理场景中,模型同样保持竞争力。MMMLU多语言问答测试得分89.1%,与Claude Opus 4.1(89.5%)、GPT-5(89.4%)基本持平;MMMU视觉推理验证测试得77.8%,虽落后于GPT-5(84.2%)与Gemini 2.5 Pro(82.0%),但较前代提升3.4个百分点,为后续视觉-文本融合任务打下基础。

(三)计算机操作:OSWorld测试登顶,浏览器操作如“真人”

AI能否像人类一样操作计算机?Claude Sonnet 4.5给出了肯定答案。在OSWorld真实计算机任务测试中,模型以61.4%的得分位居第一,较四个月前发布的Claude Sonnet 4(42.2%)提升近20个百分点,远超Claude Opus 4.1(44.4%)。这意味着它能独立完成文件管理、软件安装、网页导航等日常操作,甚至能通过Chrome插件自动填充表格、处理在线任务,操作逻辑与人类用户高度一致。

金融分析场景是另一大亮点。在Finance Agent金融分析测试中,Claude Sonnet 4.5得分55.3%,领先Claude Opus 4.1(50.9%)、GPT-5(46.9%)与Gemini 2.5 Pro(29.4%),成为首个在金融数据解读、风险评估任务中达到实用级别的AI模型。Anthropic透露,该模型已被部分金融机构用于自动化报表生成与市场趋势分析,效率较人工提升3-5倍。

二、开发者生态革新:从工具到SDK的全链路支持

Anthropic深知,优秀的AI模型需要完善的生态支撑。伴随Claude Sonnet 4.5发布,Anthropic同步推出一系列开发者工具与功能,覆盖代码编写、项目管理、智能体开发全流程,降低了AI编程工具的使用门槛。

(一)Claude Code 2.0:重构编程体验,新增“检查点”功能

作为面向开发者的核心工具,Claude Code 2.0在本次更新中迎来重大升级。最受关注的是新增的“检查点”功能——开发者在编写代码时可随时保存当前进度,若后续修改出现问题,一键即可回退到之前的稳定状态,避免因误操作导致的代码丢失。这一功能类似编程软件中的“版本控制”,但操作更简便,尤其适合新手开发者。

此外,Claude Code 2.0还优化了终端界面设计,采用更简洁的布局与实时语法高亮,降低视觉疲劳;同步发布的原生VS Code插件,让开发者无需切换平台,即可在熟悉的编程环境中调用Claude Sonnet 4.5的能力,支持代码补全、错误修复、注释生成等功能。实测显示,使用该插件后,开发者的代码编写效率平均提升40%,尤其在处理多文件项目时,模型能自动关联不同文件的逻辑关系,减少“跨文件调试”的时间成本。

(二)Claude API升级:上下文编辑与记忆工具上线

针对企业级用户,Claude API新增两大核心功能:上下文编辑记忆工具。上下文编辑功能允许开发者直接修改对话历史中的指令或代码片段,无需重新发起请求,大幅提升多轮对话的灵活性;记忆工具则能让模型长期保存项目信息,例如开发者可将项目需求、代码规范等内容存入“记忆库”,模型后续生成代码时会自动参考这些信息,避免重复沟通。

定价方面,Anthropic保持了极高的性价比——调用claude-sonnet-4-5的费用与Claude Sonnet 4一致,仍为每百万tokens输入$3、输出$15,相当于“加量不加价”。这一策略吸引了大量中小开发者与企业用户,发布首日API调用量较平日增长200%,部分编程工具厂商已宣布将Claude Sonnet 4.5作为默认AI引擎。

(三)Claude Agent SDK:开放底层能力,人人可做“AI开发者”

本次发布最具颠覆性的举措,是Anthropic开放了Claude Agent SDK——这是Anthropic内部用于搭建Claude Code的底层基础设施,如今免费向开发者开放。通过该SDK,开发者可自定义AI智能体的行为逻辑,例如设置智能体的记忆管理规则、设计多智能体协作流程、配置用户权限系统等,解决了传统AI开发中“自主性与可控性难以平衡”的痛点。

举个例子,某团队可利用Claude Agent SDK开发“客户服务智能体”:让一个智能体负责接收用户咨询,另一个智能体负责查询知识库,第三个智能体负责生成回复,三个智能体通过SDK的协作接口实时同步信息,最终形成高效的客户服务流程。Anthropic表示,SDK还支持与第三方工具集成,例如对接企业内部的CRM系统、数据库等,进一步拓展AI智能体的应用场景。

三、安全性能双保障:对齐度最高的前沿AI模型

AI能力越强,安全风险越高。Anthropic在提升Claude Sonnet 4.5性能的同时,将“安全性”作为核心目标,通过优化训练流程与防御机制,使该模型成为Anthropic史上“对齐度最高”的前沿模型。

(一)行为对齐:减少不当输出,提升可靠性

“对齐度”指AI模型的行为与人类价值观的匹配程度。为提升对齐度,Anthropic采用“多阶段安全训练”:首先通过人工标注筛选高质量训练数据,排除包含暴力、歧视、虚假信息的内容;然后在模型训练过程中加入“价值观引导”模块,让模型学习识别并拒绝不当请求;最后通过模拟测试,针对性优化模型在敏感场景中的响应逻辑。

测试数据显示,Claude Sonnet 4.5的不当行为得分(越低越好)远低于同类模型。在模拟场景中,模型出现阿谀奉承、欺骗、鼓励妄想等行为的概率较Claude Opus 4.1降低60%,较GPT-5降低45%,成为目前对齐度最高的AI模型之一。例如,当用户提出“如何获取他人隐私信息”时,模型会明确拒绝并提示用户遵守法律法规,而非模糊回避。

(二)安全防御:抵御提示注入,降低误判风险

“提示注入攻击”是AI安全的主要威胁之一——攻击者通过构造特殊指令,诱导模型执行未授权操作(如泄露敏感信息、生成恶意代码)。为应对这一风险,Claude Sonnet 4.5新增“多层防御机制”:第一层通过关键词识别与语义分析,拦截明显的攻击指令;第二层通过“指令溯源”,判断指令是否来自可信用户;第三层通过“沙盒测试”,在隔离环境中验证指令的安全性,再决定是否执行。

Anthropic透露,该防御机制能抵御98%以上的已知提示注入攻击,较前代模型提升30%。同时,模型在内容审核中的“误判率”也大幅降低——例如,在处理包含技术术语的合法请求时,误判为“违规内容”的概率从Claude Opus 4.1的8%降至2%,避免因过度审核影响正常使用。

(三)用户反馈:从“降智”风波到信任重建

值得关注的是,本次发布距离Claude系列的“降智”风波仅两个月。2025年7-8月,大量用户反映Claude模型的推理能力、代码质量大幅下滑,甚至付费的Max用户也受影响,导致GitHub、X平台出现退订潮。Anthropic随后紧急回滚Opus 4.1更新,并承认存在两个独立Bug,强调“绝非为节省成本故意降智”,但因未提供补偿,用户信任度受损。

Claude Sonnet 4.5的发布,被视为Anthropic“重建信任”的关键举措。从实际反馈来看,开发者对新模型的认可度显著提升:网友@vasumanmoza分享体验称,模型一次调用就完成了整个代码库的重构,新增3000多行代码与12个文件,虽最终运行存在问题,但代码结构的优雅度远超预期;编程工具Cursor官方表示,Claude Sonnet 4.5在长周期任务中的表现“刷新行业标杆”,已有60%的Cursor用户选择将其作为首选AI引擎。

四、创新功能预览:“Imagine with Claude”实时生成软件

除了核心性能与生态升级,Anthropic还推出了一项极具前瞻性的临时功能——“Imagine with Claude”,为AI编程的未来形态提供了全新想象空间。

(一)功能特点:实时互动生成,无预设代码

“Imagine with Claude”的核心亮点是“实时性”与“定制化”。与传统AI编程工具“根据指令生成固定代码”不同,该功能中,模型会与用户实时互动,根据用户的需求调整软件功能与代码逻辑,所有代码均为当场生成,无任何预设内容。

例如,用户提出“创建一个2025年的邮件客户端”,模型会先询问用户偏好的界面风格、核心功能(如是否支持加密发送、多账号管理),然后边沟通边生成代码,每完成一个模块就展示效果,用户可随时提出修改意见(如“将按钮颜色改为蓝色”“增加附件预览功能”),模型会立即调整代码。整个过程类似“与AI程序员协作开发”,大幅提升了软件定制的灵活性。

(二)开放范围:限时向Max订阅用户开放

目前,“Imagine with Claude”处于临时研究预览阶段,仅对Claude Max订阅用户开放,且开放时间仅限发布后的5天内(2025年9月30日-10月4日)。用户可通过官方链接claude.ai/imagine体验该功能,Anthropic表示,后续将根据用户反馈优化功能,计划2025年底向所有用户开放。

从早期体验来看,“Imagine with Claude”在小型工具开发场景中表现突出,例如生成待办清单、新闻聚合器、简单游戏等,平均开发时间仅需10-15分钟,较传统开发流程缩短90%以上。但在复杂项目(如电商平台、企业管理系统)中,模型仍存在逻辑漏洞与性能瓶颈,需进一步优化。

五、行业竞争与未来展望:AI编程赛道进入“白热化”

Claude Sonnet 4.5的发布,不仅是Anthropic的一次产品升级,更标志着AI编程赛道的竞争进入新阶段。从市场格局到技术趋势,本次发布都将产生深远影响。

(一)市场竞争:卡位OpenAI开发者大会,争夺编程用户

Anthropic选择在OpenAI年度开发者大会(预计10月7日召开)前一周发布Claude Sonnet 4.5,战略意图明显——通过抢先展示性能优势,吸引原本关注GPT系列的开发者。目前,AI编程工具的用户群体以程序员为主,市场规模预计2025年突破50亿美元,OpenAI的GPT-5 Codex、Google的Gemini 2.5 Pro均是主要竞争者。

从当前数据来看,Claude Sonnet 4.5已在多个核心测试中领先:SWE-bench Verified第一、Terminal-Bench第一、OSWorld第一,仅在视觉推理、研究生级推理等少数场景落后于GPT-5与Gemini 2.5 Pro。Anthropic联合创始人兼首席科学官Jared Kaplan表示,“Claude在大小模型的使用上都能占优势”,暗示后续还将推出更先进的Opus系列模型,进一步巩固市场地位。

值得注意的是,Anthropic的市场表现也支撑了其竞争底气。截至2025年8月,Anthropic估值已达1830亿美元,年化营收突破50亿美元,其中编程工具贡献了约40%的营收。但OpenAI与Google的实力同样不容小觑——GPT-5 Codex在生产环境Bug修复场景中仍占据优势,Gemini 2.5 Pro则在多模态任务中领先,未来三者的竞争将围绕“细分场景优势”展开。

(二)技术趋势:长续航、高安全、生态化成主流

Claude Sonnet 4.5的发布,也为AI编程工具的技术发展指明了三个方向:

  1. 长续航能力:连续工作30小时的突破,意味着AI模型将从“辅助工具”向“独立工作者”转变,未来有望承担更多长时间、高复杂度的任务(如大型软件开发、数据分析);
  2. 高安全性:对齐度提升与防御机制优化,证明“高性能与高安全可兼得”,后续模型将更注重“价值观对齐”与“风险防控”,避免因安全问题限制应用场景;
  3. 生态化发展:从API到SDK的全链路支持,降低了AI编程的使用门槛,未来行业将从“单一模型竞争”转向“生态体系竞争”,谁能构建更完善的开发者生态,谁就能占据市场主导地位。

(三)挑战与机遇:用户信任与技术突破的平衡

尽管Claude Sonnet 4.5表现亮眼,Anthropic仍面临两大挑战:一是用户信任的重建——“降智”风波后,部分用户对模型稳定性存疑,需通过长期可靠的表现赢回信任;二是技术瓶颈的突破——在视觉推理、复杂逻辑分析等场景,模型仍落后于竞品,需持续投入研发。

但机遇同样巨大。随着AI编程工具的普及,越来越多的企业开始将其纳入研发流程,市场需求持续增长;同时,“Imagine with Claude”等创新功能的探索,也为AI编程开辟了“实时互动开发”的新方向。若Anthropic能持续迭代技术、完善生态,未来有望在AI编程赛道占据领先地位。

结语

Claude Sonnet 4.5的发布,是2025年AI领域的里程碑事件。它不仅以“30小时续航”“77.2% SWE-bench得分”刷新了AI编程工具的性能上限,更通过开发者生态升级与安全优化,让“AI辅助编程”从“概念”走向“实用”。从代码生成到软件开发,从个人开发者到企业团队,Claude Sonnet 4.5正在重塑人们对AI的认知——它不再是简单的“工具”,而是能持续协作、自主思考的“伙伴”。

随着OpenAI、Google等巨头的后续动作,AI编程赛道的竞争将更加激烈,最终受益的将是全球开发者与企业。我们有理由期待,在不久的将来,AI将彻底改变软件开发生态,让编程变得更高效、更简单、更具创造力。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐