Claude Sonnet 4.6与Gemini 3.1 Pro同步展现了人工智能在电脑操作与复杂逻辑推理层面的全新进化。

两个顶级闭源模型Claude Sonnet 4.6与Gemini 3.1 Pro在春节期间悄然发布。

它们同步展现了人工智能在电脑操作与复杂逻辑推理层面的全新进化。

Claude Sonnet 4.6在代码编写与电脑自主操作上表现出接近人类专家的水准,百万级Token上下文窗口让处理海量信息变得如履平地。

Gemini 3.1 Pro以翻倍的逻辑推理成绩验证了其解决复杂未知难题的能力。

核心能力的全面升维

Claude Sonnet 4.6全面升级了代码编写与长文本推理等各项核心技能。像一个刚刚结束全封闭特训的数字员工,它把过去Sonnet 4.5所有的能力都提升了一大截。

系统在测试阶段开放了百万Token的超大上下文窗口。你可以在它的大脑里同时塞进几十篇专业论文或整个项目的底层源代码。它能把这些堆积如山的信息梳理得井井有条,并且在里面进行极其严密的逻辑推演。

系统计费标准维持在与上一代完全相同的水平,定格在每百万Token输入3美元输出15美元。用户等同于花同样的价格雇佣到了一个全方位进化的高级助手。

开发者们在早期测试中明显更偏爱这个崭新版本。在代码辅助工具的内部测试里它以70%的胜率稳稳压倒了前代产品。

测试用户发现它甚至比去年11月发布的顶级大杯版本Opus 4.5还要好用。

工程师们在59%的工作场景下会坚定地选择使用这个新版本。模型极少出现过度设计代码或偷懒不干活的毛病。面对需要分多步去执行的繁杂系统指令它展现出惊人的专注力和服从性。

修改代码前它会认真读完所有相关的上下文背景资料。它学会了把重复的逻辑代码合并同类项,让整个程序的运行框架变得极为清爽。

开发者在长期的项目协作中再也不会感到焦躁乏味。那些令人头疼的虚假成功提示和凭空捏造的幻觉错误被大幅度压缩了。

它接手现实世界中那些具有实际经济价值的办公任务时游刃有余,展现出的综合素质完全达到了过去只有调用最高级别模型才能胜任的水平。

像人类一样熟练操作电脑

Sonnet 4.6在计算机操作上有了巨大提升。

它拥有了一双虚拟的眼睛去看屏幕,获得了一套虚拟的键盘鼠标去精准点击输入。

早期用户惊喜地看到它在复杂的电子表格里来回穿梭。它能极其熟练地跨越好几个浏览器标签页去收集信息并填完一套繁琐的多步骤网页表单。

这些过去只有熟练工人才能做好的精细活它都能独立完成。虽然它现在的操作速度和精准度还没有完全达到人类顶尖高手的境界,但不断攀升的进步曲线十分惊人。

直接操控电脑的能力客观上给系统底层带来了一些安全隐患。

恶意攻击者可能会在网页里隐藏一些特殊的指令去诱导模型干坏事。该手法在网络安全领域被称为提示词注入攻击。研发团队对新版本的防御机制进行了极为彻底的加固。它在面对各种伪装的恶意指令时表现得坚若磐石。

安全研究员经过反复评估给出了极高的安全评级。

测试结论指出它拥有温暖诚实和亲社会的人格底色,偶尔还会展现出一点幽默感。它在应对高风险任务时严守安全底线,没有暴露出任何核心价值观偏移的隐患。

商业直觉与生态工具融合

强大的长文本推理能力让模型在制定长远计划时表现出极高的天赋。

在一项专门测试模型经营模拟商业公司能力的竞技场评估中它大放异彩。

众多不同的AI模型在这个虚拟市场里互相竞争赚取利润。它在这个残酷的过程里展现出类似顶尖企业家的敏锐商业直觉。

在模拟经营的前10个月里它果断把大量资金砸在扩大产能上。它的早期资本支出远远超过了其他所有竞争对手。在游戏进入冲刺阶段时它又极其敏捷地调整方向,将全盘重心转向榨取利润。

开发者平台上的各项更新同样让人耳目一新。

新系统全面支持自适应思考和扩展思考模式。

平台还加入了一项名为上下文压缩的绝妙测试功能。

当用户的对话记录越来越长快要超出大脑容量时,系统会自动把早期的聊天内容浓缩成精华摘要。该设计变相成倍拉长了它能记住的历史信息长度。

在API层面,系统的网页搜索功能学会了自己写代码来过滤搜索结果。

它把没用的垃圾网页信息全部剔除出去,只把最核心的知识留在脑子里。这极大提升了回答质量并节约了算力资源。

执行代码、记忆保存以及程序化工具调用的功能都已跨出实验室全面开放给公众使用。

用户可以直接在微软表格处理软件里安装它的专属插件。

通过MCP连接器它能无缝接入各类知名金融与商业数据库。

系统原生支持调用标普全球、穆迪以及各大金融数据服务商的独家资讯。你坐在电子表格面前就能直接吩咐它去外部抓取并整理最新的商业数据。那些已经在网页端配置好的连接器在此处也会全自动生效互通。

Gemini 3.1 Pro核心智力跃迁

Gemini 3.1 Pro在第三代架构基础之上有了巨大进步。

在专门考察模型解决前所未见逻辑图案能力的ARC-AGI-2基准测试中它拿到了77.1%的傲人高分。

该测试就像是给系统递上一个完全未知的机械密码盒。它的解谜能力比上一代同级别产品实现了惊人的翻倍增长。

极高的智力水平专为应对那些找不到标准答案的棘手难题而设计。

你遇到难以理解的复杂专业课题时可以找它要一个图文并茂的通俗解释。

你面对庞杂混乱的海量数据时可以借它的脑力进行一次透彻的梳理融合。

它能极其自然地帮你把脑海中模糊的创意项目化为现实。

科技行业解决现代科学研究和工程难题需要更聪明的底层大脑。

它为此前发布的深度思考版本Gemini 3 Deep Think 提供了源源不断的算力基石与智慧支持。

现在普通用户和开发者已经可以在谷歌的全线产品之中体验。

全方位进化的数字生命正在以前所未有的速度融入人类工具生态。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐