硅谷的 AI 巨头们似乎达成了一种默契:中国春节期间,必须搞点大动作。

就在阿里 Qwen 3.5 在除夕夜炸场之后,大洋彼岸的 Anthropic 也在大年初二(2月18日)凌晨突然发布了他们最新的“中杯”模型——Claude Sonnet 4.6

官方称其为“迄今为止最强大的 Sonnet 模型”。

这一次,Anthropic 没有仅仅停留在刷榜上,而是实打实地增强了 AI 的“动手能力”。从史诗级进化的电脑操作(Computer Use),到支持 100 万 Token 的超长上下文,再到动态过滤的网页搜索能力,Sonnet 4.6 都在试图告诉我们:AI 不仅要会聊天,更要会真正地替你干活。

更重要的是,价格维持不变。加量不加价,这让它直接成为了目前性价比最高的模型之一。

让我们一起来看看,这位新晋的“最强打工人”到底强在哪里。

电脑操作能力:断层式领先

如果说去年的 Computer Use 功能还只是一个“实验品”,那么在 Sonnet 4.6 上,它已经开始具备“熟练工”的潜质了。

在 AI 操作电脑的标准基准测试 OSWorld 中,Sonnet 4.6 的得分从上一代的 61.4% 直接飙升至 **72.5%**。

这个分数的提升意味着什么?

以前的 Claude 在操作电脑时,可能像是一个刚学会用鼠标的新手,容易点错、迷路。而现在的 Sonnet 4.6,表现得更像一个熟练的人类用户。

  • 处理复杂表格:它可以在复杂的 Excel 或 Google Sheets 中自如导航,定位数据。

  • 填写多步表单:面对那种需要点击多次“下一步”、填写大量信息的网页表单,它不再容易半途而废。

  • 跨应用协作:它可以在多个浏览器标签页之间切换,把这个网页的信息复制到那个系统里,完成跨应用的复杂任务。

对于企业来说,这意味着许多以前无法通过 API 自动化的老旧系统(比如只能通过点点点来操作的内部 ERP),现在真的可以交给 AI 来接管了。

编程与推理:逼近 Opus 极限

虽然 Sonnet 定位是“中杯”模型,但 4.6 版本的各项能力已经非常接近,甚至在某些方面超越了上一代的“大杯” Opus 4.5。

我们来看一眼这张密密麻麻的成绩单:

  • 编程能力(SWE-bench Verified):得分 **79.6%**,相比 Sonnet 4.5 (77.2%) 稳步提升。

  • 研究生水平推理(GPQA Diamond):得分 **89.9%**,这个分数相当惊人,意味着它在处理高难度学术问题时表现得非常可靠。

  • 数学与逻辑:在多项测试中都刷新了记录。

Anthropic 官方透露,在早期测试中,70% 的开发者更喜欢用 Sonnet 4.6 而不是 4.5。甚至有 59% 的用户认为,它比之前的旗舰模型 Opus 4.5 还要好用。

因为它治好了 AI 的“懒病”:它不再随意省略代码,指令遵循更严格,在修改代码前会更认真地阅读上下文。

100万 Token 上下文与“策略性”思考

Sonnet 4.6 Beta 版现在支持高达 100 万 Token 的上下文窗口。

这不仅仅是“能装”更多字的问题,更重要的是它能利用这些信息进行长周期的规划

Anthropic 分享了一个非常有意思的测试案例:Vending-Bench Arena(模拟经营游戏)。在这个测试中,AI 需要经营一家公司。Sonnet 4.6 展现出了惊人的“商战智慧”:

  • 在前十个月,它疯狂投入资金扩大产能,哪怕亏损也要抢占市场。

  • 在最后阶段,它果断转向追求利润,收割市场。

这种“放长线钓大鱼”的策略性思维,往往是人类高管才具备的特质,现在 AI 也学会了。

搜索与工具:更聪明地省钱

在连接外部世界方面,Sonnet 4.6 也带来了两个重要更新。

网页搜索支持“动态过滤”。

以前 AI 搜索网页,是把整个网页内容“生吞”下去,既费 Token 又容易被无关信息干扰。现在的 Sonnet 4.6 会自己写代码来过滤搜索结果,只提取真正有用的信息。这不仅让回答更准确,还能帮你省下不少 Token 的钱。

Excel 里的 Claude 更强了。

Claude for Excel 插件现在支持了 MCP(Model Context Protocol) 连接器。这意味着你可以在 Excel 里直接呼叫 Claude,让它去连接 S&P Global、Bloomberg 等外部金融数据库,把数据拉进表格里进行分析。对于金融从业者来说,这简直是神技。

行业大佬们的真实评价

除了官方的自卖自夸,硅谷各大科技公司的技术负责人也第一时间上手体验了 Sonnet 4.6,评价相当高:

  • GitHub 产品副总裁 Joe Binder:“Sonnet 4.6 在复杂代码修复方面表现出色,特别是当需要在大型代码库中搜索时。”

  • Replit 总裁 Michele Catasta:“它的性价比简直不可思议(extraordinary)。它能处理我们最复杂的 Agent 工作流。”

  • Cursor 联合创始人 Michael Truell:“在处理长周期任务和更困难的问题上,Sonnet 4.6 相比前代有了显著进步。”

  • Bolt CEO Eric Simons:“它是我们在复杂应用构建和 Bug 修复上的首选,以前这些工作通常需要更昂贵的模型。”

这波“商业互吹”含金量很高,因为这些工具(Cursor, Replit, Bolt)都是目前 AI 编程领域的一线玩家。

性价比之选

这次发布的 Claude Sonnet 4.6,用 Sonnet 的价格(输入  输出 15),提供了以前 Opus 级别才有的智商,同时附赠了目前最强的电脑操作能力。

对于大多数用户和开发者来说,Sonnet 4.6 无疑是目前综合性价比最高的选择。Free 和 Pro 用户现在已经可以在 Claude.ai 上直接使用它了。

AI 的进化速度并没有因为假期而放缓,反而越来越卷。作为用户,我们乐见其成。


参考资料:

  • Introducing Claude Sonnet 4.6 - Anthropic

  • Improved Web Search with Dynamic Filtering - Claude Blog

热点推荐

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐