刚刚！Claude Sonnet 4.6 震撼发布：最强“打工人”模型来了，电脑操作能力史诗级进化

五月君_

479人浏览 · 2026-02-18 08:43:01

五月君_ · 2026-02-18 08:43:01 发布

硅谷的 AI 巨头们似乎达成了一种默契：中国春节期间，必须搞点大动作。

就在阿里 Qwen 3.5 在除夕夜炸场之后，大洋彼岸的 Anthropic 也在大年初二（2月18日）凌晨突然发布了他们最新的“中杯”模型——Claude Sonnet 4.6。

官方称其为“迄今为止最强大的 Sonnet 模型”。

这一次，Anthropic 没有仅仅停留在刷榜上，而是实打实地增强了 AI 的“动手能力”。从史诗级进化的电脑操作（Computer Use），到支持 100 万 Token 的超长上下文，再到动态过滤的网页搜索能力，Sonnet 4.6 都在试图告诉我们：AI 不仅要会聊天，更要会真正地替你干活。

更重要的是，价格维持不变。加量不加价，这让它直接成为了目前性价比最高的模型之一。

让我们一起来看看，这位新晋的“最强打工人”到底强在哪里。

电脑操作能力：断层式领先

如果说去年的 Computer Use 功能还只是一个“实验品”，那么在 Sonnet 4.6 上，它已经开始具备“熟练工”的潜质了。

在 AI 操作电脑的标准基准测试 OSWorld 中，Sonnet 4.6 的得分从上一代的 61.4% 直接飙升至 **72.5%**。

这个分数的提升意味着什么？

以前的 Claude 在操作电脑时，可能像是一个刚学会用鼠标的新手，容易点错、迷路。而现在的 Sonnet 4.6，表现得更像一个熟练的人类用户。

处理复杂表格：它可以在复杂的 Excel 或 Google Sheets 中自如导航，定位数据。
填写多步表单：面对那种需要点击多次“下一步”、填写大量信息的网页表单，它不再容易半途而废。
跨应用协作：它可以在多个浏览器标签页之间切换，把这个网页的信息复制到那个系统里，完成跨应用的复杂任务。

对于企业来说，这意味着许多以前无法通过 API 自动化的老旧系统（比如只能通过点点点来操作的内部 ERP），现在真的可以交给 AI 来接管了。

编程与推理：逼近 Opus 极限

虽然 Sonnet 定位是“中杯”模型，但 4.6 版本的各项能力已经非常接近，甚至在某些方面超越了上一代的“大杯” Opus 4.5。

我们来看一眼这张密密麻麻的成绩单：

编程能力（SWE-bench Verified）：得分 **79.6%**，相比 Sonnet 4.5 (77.2%) 稳步提升。
研究生水平推理（GPQA Diamond）：得分 **89.9%**，这个分数相当惊人，意味着它在处理高难度学术问题时表现得非常可靠。
数学与逻辑：在多项测试中都刷新了记录。

Anthropic 官方透露，在早期测试中，70% 的开发者更喜欢用 Sonnet 4.6 而不是 4.5。甚至有 59% 的用户认为，它比之前的旗舰模型 Opus 4.5 还要好用。

因为它治好了 AI 的“懒病”：它不再随意省略代码，指令遵循更严格，在修改代码前会更认真地阅读上下文。

100万 Token 上下文与“策略性”思考

Sonnet 4.6 Beta 版现在支持高达 100 万 Token 的上下文窗口。

这不仅仅是“能装”更多字的问题，更重要的是它能利用这些信息进行长周期的规划。

Anthropic 分享了一个非常有意思的测试案例：Vending-Bench Arena（模拟经营游戏）。在这个测试中，AI 需要经营一家公司。Sonnet 4.6 展现出了惊人的“商战智慧”：

在前十个月，它疯狂投入资金扩大产能，哪怕亏损也要抢占市场。
在最后阶段，它果断转向追求利润，收割市场。

这种“放长线钓大鱼”的策略性思维，往往是人类高管才具备的特质，现在 AI 也学会了。

搜索与工具：更聪明地省钱

在连接外部世界方面，Sonnet 4.6 也带来了两个重要更新。

网页搜索支持“动态过滤”。

以前 AI 搜索网页，是把整个网页内容“生吞”下去，既费 Token 又容易被无关信息干扰。现在的 Sonnet 4.6 会自己写代码来过滤搜索结果，只提取真正有用的信息。这不仅让回答更准确，还能帮你省下不少 Token 的钱。

Excel 里的 Claude 更强了。

Claude for Excel 插件现在支持了 MCP（Model Context Protocol） 连接器。这意味着你可以在 Excel 里直接呼叫 Claude，让它去连接 S&P Global、Bloomberg 等外部金融数据库，把数据拉进表格里进行分析。对于金融从业者来说，这简直是神技。

行业大佬们的真实评价

除了官方的自卖自夸，硅谷各大科技公司的技术负责人也第一时间上手体验了 Sonnet 4.6，评价相当高：

GitHub 产品副总裁 Joe Binder：“Sonnet 4.6 在复杂代码修复方面表现出色，特别是当需要在大型代码库中搜索时。”
Replit 总裁 Michele Catasta：“它的性价比简直不可思议（extraordinary）。它能处理我们最复杂的 Agent 工作流。”
Cursor 联合创始人 Michael Truell：“在处理长周期任务和更困难的问题上，Sonnet 4.6 相比前代有了显著进步。”
Bolt CEO Eric Simons：“它是我们在复杂应用构建和 Bug 修复上的首选，以前这些工作通常需要更昂贵的模型。”

这波“商业互吹”含金量很高，因为这些工具（Cursor, Replit, Bolt）都是目前 AI 编程领域的一线玩家。