突发!刚刚,谷歌发布 Gemini 3.1 Pro:推理翻倍,12 项第一,免费!
大善人谷歌继续发力。
几小时前,Gemini 3.1 Pro 正式发布。
ARC-AGI-2 得分 77.1%。三个月前 Gemini 3 Pro 发布时,这个数字是 31.1%。
直接翻了一倍多。

谷歌官方公布了 16 项基准测试,3.1 Pro 狂砍 12 项第一。
值得一提的是,这是谷歌 Gemini 系列第一次出现「.1」版本号。以前都是直接跳到「.5」。
很明显这次谷歌等不到那个时候了。
昨天我在评论区刚说完「应该先是 Gemini 3.1 Pro」,今天就来了。
「AI信息Gap」这一块,拿捏。觉得有用的小可爱们点个赞和在看,我们继续往下聊。

01|「ARC-AGI-2」77.1% vs 31.1%
ARC-AGI-2,目前公认最难的 AI 推理测试,考察模型解决「从未见过的逻辑模式」的能力。纯背答案没用,得靠推理。
人类平均正确率大概 60%。
上周我写过一篇 Deep Think 的文章,当时 Gemini 3 Deep Think 准确率 84.6%,断层第一。
而今天发布的 Gemini 3.1 Pro 拿了 77.1%。
但你要知道,Gemini 3.1 Pro 是基础模型,对所有用户免费开放;而 Deep Think 是「深度思考」模式,属于降维打击,且只有 Google AI Ultra 订阅用户能用,一天 10 次。
对比一下。Claude Opus 4.6 68.8%,Claude Sonnet 4.6 58.3%,GPT-5.2 52.9%,上一代的 Gemini 3 Pro 更是只有 31.1%。
77.1% vs 31.1%,三个月时间,同一个系列的模型,闭卷推理能力翻了一倍多。
下面是 Gemini 3.1 Pro 完整的基准测试结果。
16 项测试,12 项第一。一骑绝尘。

GPQA Diamond,博士难度的科学问答,3.1 Pro 得分 94.3%。Claude Opus 4.6 91.3%,GPT-5.2 92.4%。
代码,SWE-Bench Verified 80.6%,和 Claude Opus 4.6 的 80.8% 几乎持平。Terminal-Bench 2.0 68.5%,第一。
更有意思的是 APEX-Agents,测试长周期专业任务,模型需要自主规划、执行、验证一系列复杂操作。
3.1 Pro 得分 33.5%,几乎是 Gemini 3 Pro(18.4%)的两倍,也远高于 GPT-5.2 的 23.0% 和 Claude Opus 4.6 的 29.8%。
JetBrains 的 AI 负责人 Vladislav Tankov 说,内部测试里 3.1 Pro 比之前 Gemini 3 Pro Preview 版本强 15%。更快,token 用得更少,更可靠。
02|但,不「无敌」
但,Gemini 3.1 Pro 并不「无敌」。
16 项测试,4 项惜败。
在「干活」这件事上,Claude 目前还是更强。
GDPval-AA 测试 44 种职业的实际工作任务,做 PPT、做表格、写文档。
Claude Sonnet 4.6 得分 1633,远高于 3.1 Pro 的 1317。
HLE(Humanity's Last Exam,人类最后一场考试)带工具版,Claude Opus 4.6 准确率 53.1%,略高于 3.1 Pro 的 51.4%。差距不大,但确实不敌。
OpenAI 的 GPT-5.3-Codex 在 Terminal-Bench 2.0 拿到了惊人的 77.3%,在 SWE-Bench Pro (Public) 得分 56.8%,都高于 3.1 Pro。
不过 Codex 只公布了少数几个数据,没法做全面比较。
还有个冷知识。MMMU Pro 多模态理解测试,3.1 Pro 准确率 80.5%,居然输给了上一代 Gemini 3 Pro 的 81.0%。
谷歌赢了大多数,但并不是全部。
AI 领域,没有永远的「神」。
网上这张梗图总结得挺到位。

现在,轮到谷歌了。
03|为什么是「.1」不是「.5」
这个版本号很有意思。
以前谷歌 Gemini 的模型版本号规律是很固定的。
先出大版本,比如 Gemini 2.0、Gemini 3.0,过几个月再出个「.5」的中期升级,比如 Gemini 2.5 Pro。
这次直接出了个「.1」,Gemini 系列头一回。
谷歌官方这么说。
Deep Think能突破靠的就是3.1 Pro。先用Deep Think试探天花板在哪,再把能力下放到基础模型。
11 月 Gemini 3 Pro,12 月 Gemini 3 Flash,上周 Deep Think 升级,这周 3.1 Pro。
更新节奏越来越快。谷歌不想等到「Gemini 3.5」了。
04|怎么用 Gemini 3.1 Pro?
Gemini App 今天开始推送 3.1 Pro,网页端和手机端都有。
它长这样。

如果你还没有看到新模型,等等就好。
免费可用。但 Pro 和 Ultra 用户额度更高。
相比于时不时「降智」的 Gemini App,更推荐谷歌 AI Studio,同样免费,还不降智。
我从两年前就开始推荐 AI Studio 了,也出过很多期教程,感兴趣的小可爱自行去主页搜索。

NotebookLM 也同步上线了 3.1 Pro,Pro 和 Ultra 用户专享。
Gemini CLI、Vertex AI、Android Studio、还有谷歌最近主推的 AI 开发工具 Antigravity(俗称「反重力」),都能用。
来小试牛刀。
鹈鹕骑车,经典 SVG 测试题。
Create code for an SVG of a pelican riding a bicycle as nicely as you can

我这鹈鹕有点「飒」啊!
细节拉满,尤其是自行车,几乎没毛病。
就是明显感觉到 3.1 Pro 思考时间变长了。欢迎评论区交流一波。
三个月前,31.1%。今天,77.1%。
这就是 AI 的进化速度。
关注我,2026 才刚开始,好戏还在后头。
我是木易,Top2 + 美国 Top10 CS 硕,现在是 AI 产品经理。
关注「AI信息Gap」,让 AI 成为你的外挂。
更多推荐


所有评论(0)