刚刚!Claude Sonnet 4.6 震撼发布:最强“打工人”模型来了,电脑操作能力史诗级进化
硅谷的 AI 巨头们似乎达成了一种默契:中国春节期间,必须搞点大动作。
就在阿里 Qwen 3.5 在除夕夜炸场之后,大洋彼岸的 Anthropic 也在大年初二(2月18日)凌晨突然发布了他们最新的“中杯”模型——Claude Sonnet 4.6。
官方称其为“迄今为止最强大的 Sonnet 模型”。
这一次,Anthropic 没有仅仅停留在刷榜上,而是实打实地增强了 AI 的“动手能力”。从史诗级进化的电脑操作(Computer Use),到支持 100 万 Token 的超长上下文,再到动态过滤的网页搜索能力,Sonnet 4.6 都在试图告诉我们:AI 不仅要会聊天,更要会真正地替你干活。
更重要的是,价格维持不变。加量不加价,这让它直接成为了目前性价比最高的模型之一。
让我们一起来看看,这位新晋的“最强打工人”到底强在哪里。
电脑操作能力:断层式领先
如果说去年的 Computer Use 功能还只是一个“实验品”,那么在 Sonnet 4.6 上,它已经开始具备“熟练工”的潜质了。
在 AI 操作电脑的标准基准测试 OSWorld 中,Sonnet 4.6 的得分从上一代的 61.4% 直接飙升至 **72.5%**。
这个分数的提升意味着什么?
以前的 Claude 在操作电脑时,可能像是一个刚学会用鼠标的新手,容易点错、迷路。而现在的 Sonnet 4.6,表现得更像一个熟练的人类用户。
-
处理复杂表格:它可以在复杂的 Excel 或 Google Sheets 中自如导航,定位数据。
-
填写多步表单:面对那种需要点击多次“下一步”、填写大量信息的网页表单,它不再容易半途而废。
-
跨应用协作:它可以在多个浏览器标签页之间切换,把这个网页的信息复制到那个系统里,完成跨应用的复杂任务。
对于企业来说,这意味着许多以前无法通过 API 自动化的老旧系统(比如只能通过点点点来操作的内部 ERP),现在真的可以交给 AI 来接管了。
编程与推理:逼近 Opus 极限
虽然 Sonnet 定位是“中杯”模型,但 4.6 版本的各项能力已经非常接近,甚至在某些方面超越了上一代的“大杯” Opus 4.5。
我们来看一眼这张密密麻麻的成绩单:
-
编程能力(SWE-bench Verified):得分 **79.6%**,相比 Sonnet 4.5 (77.2%) 稳步提升。
-
研究生水平推理(GPQA Diamond):得分 **89.9%**,这个分数相当惊人,意味着它在处理高难度学术问题时表现得非常可靠。
-
数学与逻辑:在多项测试中都刷新了记录。
Anthropic 官方透露,在早期测试中,70% 的开发者更喜欢用 Sonnet 4.6 而不是 4.5。甚至有 59% 的用户认为,它比之前的旗舰模型 Opus 4.5 还要好用。
因为它治好了 AI 的“懒病”:它不再随意省略代码,指令遵循更严格,在修改代码前会更认真地阅读上下文。
100万 Token 上下文与“策略性”思考
Sonnet 4.6 Beta 版现在支持高达 100 万 Token 的上下文窗口。
这不仅仅是“能装”更多字的问题,更重要的是它能利用这些信息进行长周期的规划。
Anthropic 分享了一个非常有意思的测试案例:Vending-Bench Arena(模拟经营游戏)。在这个测试中,AI 需要经营一家公司。Sonnet 4.6 展现出了惊人的“商战智慧”:
-
在前十个月,它疯狂投入资金扩大产能,哪怕亏损也要抢占市场。
-
在最后阶段,它果断转向追求利润,收割市场。
这种“放长线钓大鱼”的策略性思维,往往是人类高管才具备的特质,现在 AI 也学会了。
搜索与工具:更聪明地省钱
在连接外部世界方面,Sonnet 4.6 也带来了两个重要更新。
网页搜索支持“动态过滤”。
以前 AI 搜索网页,是把整个网页内容“生吞”下去,既费 Token 又容易被无关信息干扰。现在的 Sonnet 4.6 会自己写代码来过滤搜索结果,只提取真正有用的信息。这不仅让回答更准确,还能帮你省下不少 Token 的钱。
Excel 里的 Claude 更强了。
Claude for Excel 插件现在支持了 MCP(Model Context Protocol) 连接器。这意味着你可以在 Excel 里直接呼叫 Claude,让它去连接 S&P Global、Bloomberg 等外部金融数据库,把数据拉进表格里进行分析。对于金融从业者来说,这简直是神技。
行业大佬们的真实评价
除了官方的自卖自夸,硅谷各大科技公司的技术负责人也第一时间上手体验了 Sonnet 4.6,评价相当高:
-
GitHub 产品副总裁 Joe Binder:“Sonnet 4.6 在复杂代码修复方面表现出色,特别是当需要在大型代码库中搜索时。”
-
Replit 总裁 Michele Catasta:“它的性价比简直不可思议(extraordinary)。它能处理我们最复杂的 Agent 工作流。”
-
Cursor 联合创始人 Michael Truell:“在处理长周期任务和更困难的问题上,Sonnet 4.6 相比前代有了显著进步。”
-
Bolt CEO Eric Simons:“它是我们在复杂应用构建和 Bug 修复上的首选,以前这些工作通常需要更昂贵的模型。”
这波“商业互吹”含金量很高,因为这些工具(Cursor, Replit, Bolt)都是目前 AI 编程领域的一线玩家。
性价比之选
这次发布的 Claude Sonnet 4.6,用 Sonnet 的价格(输入 15),提供了以前 Opus 级别才有的智商,同时附赠了目前最强的电脑操作能力。
对于大多数用户和开发者来说,Sonnet 4.6 无疑是目前综合性价比最高的选择。Free 和 Pro 用户现在已经可以在 Claude.ai 上直接使用它了。
AI 的进化速度并没有因为假期而放缓,反而越来越卷。作为用户,我们乐见其成。
参考资料:
-
Introducing Claude Sonnet 4.6 - Anthropic
-
Improved Web Search with Dynamic Filtering - Claude Blog
热点推荐
更多推荐




所有评论(0)