突发！刚刚，谷歌发布 Gemini 3.1 Pro：推理翻倍，12 项第一，免费！

木易AI信息差

1583人浏览 · 2026-02-20 04:56:06

木易AI信息差 · 2026-02-20 04:56:06 发布

大善人谷歌继续发力。

几小时前，Gemini 3.1 Pro 正式发布。

ARC-AGI-2 得分 77.1%。三个月前 Gemini 3 Pro 发布时，这个数字是 31.1%。

直接翻了一倍多。

谷歌官方公布了 16 项基准测试，3.1 Pro 狂砍 12 项第一。

值得一提的是，这是谷歌 Gemini 系列第一次出现「.1」版本号。以前都是直接跳到「.5」。

很明显这次谷歌等不到那个时候了。

昨天我在评论区刚说完「应该先是 Gemini 3.1 Pro」，今天就来了。

「AI信息Gap」这一块，拿捏。觉得有用的小可爱们点个赞和在看，我们继续往下聊。

01｜「ARC-AGI-2」77.1% vs 31.1%

ARC-AGI-2，目前公认最难的 AI 推理测试，考察模型解决「从未见过的逻辑模式」的能力。纯背答案没用，得靠推理。

人类平均正确率大概 60%。

上周我写过一篇 Deep Think 的文章，当时 Gemini 3 Deep Think 准确率 84.6%，断层第一。

而今天发布的 Gemini 3.1 Pro 拿了 77.1%。

但你要知道，Gemini 3.1 Pro 是基础模型，对所有用户免费开放；而 Deep Think 是「深度思考」模式，属于降维打击，且只有 Google AI Ultra 订阅用户能用，一天 10 次。

对比一下。Claude Opus 4.6 68.8%，Claude Sonnet 4.6 58.3%，GPT-5.2 52.9%，上一代的 Gemini 3 Pro 更是只有 31.1%。

77.1% vs 31.1%，三个月时间，同一个系列的模型，闭卷推理能力翻了一倍多。

下面是 Gemini 3.1 Pro 完整的基准测试结果。

16 项测试，12 项第一。一骑绝尘。

GPQA Diamond，博士难度的科学问答，3.1 Pro 得分 94.3%。Claude Opus 4.6 91.3%，GPT-5.2 92.4%。

代码，SWE-Bench Verified 80.6%，和 Claude Opus 4.6 的 80.8% 几乎持平。Terminal-Bench 2.0 68.5%，第一。

更有意思的是 APEX-Agents，测试长周期专业任务，模型需要自主规划、执行、验证一系列复杂操作。

3.1 Pro 得分 33.5%，几乎是 Gemini 3 Pro（18.4%）的两倍，也远高于 GPT-5.2 的 23.0% 和 Claude Opus 4.6 的 29.8%。

JetBrains 的 AI 负责人 Vladislav Tankov 说，内部测试里 3.1 Pro 比之前 Gemini 3 Pro Preview 版本强 15%。更快，token 用得更少，更可靠。

02｜但，不「无敌」

但，Gemini 3.1 Pro 并不「无敌」。

16 项测试，4 项惜败。

在「干活」这件事上，Claude 目前还是更强。

GDPval-AA 测试 44 种职业的实际工作任务，做 PPT、做表格、写文档。

Claude Sonnet 4.6 得分 1633，远高于 3.1 Pro 的 1317。

HLE（Humanity's Last Exam，人类最后一场考试）带工具版，Claude Opus 4.6 准确率 53.1%，略高于 3.1 Pro 的 51.4%。差距不大，但确实不敌。

OpenAI 的 GPT-5.3-Codex 在 Terminal-Bench 2.0 拿到了惊人的 77.3%，在 SWE-Bench Pro (Public) 得分 56.8%，都高于 3.1 Pro。

不过 Codex 只公布了少数几个数据，没法做全面比较。

还有个冷知识。MMMU Pro 多模态理解测试，3.1 Pro 准确率 80.5%，居然输给了上一代 Gemini 3 Pro 的 81.0%。

谷歌赢了大多数，但并不是全部。

AI 领域，没有永远的「神」。

网上这张梗图总结得挺到位。

现在，轮到谷歌了。

03｜为什么是「.1」不是「.5」

这个版本号很有意思。

以前谷歌 Gemini 的模型版本号规律是很固定的。

先出大版本，比如 Gemini 2.0、Gemini 3.0，过几个月再出个「.5」的中期升级，比如 Gemini 2.5 Pro。

这次直接出了个「.1」，Gemini 系列头一回。

谷歌官方这么说。

Deep Think 能突破靠的就是 3.1 Pro。先用 Deep Think 试探天花板在哪，再把能力下放到基础模型。

11 月 Gemini 3 Pro，12 月 Gemini 3 Flash，上周 Deep Think 升级，这周 3.1 Pro。

更新节奏越来越快。谷歌不想等到「Gemini 3.5」了。

04｜怎么用 Gemini 3.1 Pro？

Gemini App 今天开始推送 3.1 Pro，网页端和手机端都有。

它长这样。

如果你还没有看到新模型，等等就好。

免费可用。但 Pro 和 Ultra 用户额度更高。

相比于时不时「降智」的 Gemini App，更推荐谷歌 AI Studio，同样免费，还不降智。

我从两年前就开始推荐 AI Studio 了，也出过很多期教程，感兴趣的小可爱自行去主页搜索。

NotebookLM 也同步上线了 3.1 Pro，Pro 和 Ultra 用户专享。

Gemini CLI、Vertex AI、Android Studio、还有谷歌最近主推的 AI 开发工具 Antigravity（俗称「反重力」），都能用。

来小试牛刀。

鹈鹕骑车，经典 SVG 测试题。

Create code for an SVG of a pelican riding a bicycle as nicely as you can

我这鹈鹕有点「飒」啊！

细节拉满，尤其是自行车，几乎没毛病。

就是明显感觉到 3.1 Pro 思考时间变长了。欢迎评论区交流一波。

三个月前，31.1%。今天，77.1%。

这就是 AI 的进化速度。

关注我，2026 才刚开始，好戏还在后头。

我是木易，Top2 + 美国 Top10 CS 硕，现在是 AI 产品经理。

关注「AI信息Gap」，让 AI 成为你的外挂。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

爆改增强 Codex App，API 用户不再尴尬

用 API 跑 Codex 的人，最烦的往往不是模型不够强，而是桌面体验少一块。官方账号的插件、Goal、Computer Use 是完整的，你走 API 或第三方模型，胜在自由，但很多体验不一定都有。Codex++ 火起来，就是因为它盯上了这个缝。先别误会，因为 Codex App 本来就有官方插件、集成和 MCP。Codex++ 这个项目不是 OpenAI 官方功能，也不是官方插件商店。它是玩

AI编程社区

2026 年 GPT Plus 充值怎么选？几种订阅方式和避坑建议

2026年ChatGPT Plus充值建议：优先考虑稳定与安全。官方订阅20美元/月（不含API费用），适合有海外支付能力的用户；手机端用户可通过应用商店订阅；支付困难者可选择靠谱第三方渠道，需关注开通方式、续费及售后保障。警惕低价陷阱、共享账号和"永久会员"噱头，区分Plus订阅与API计费。团队用户建议评估高阶方案。核心原则是长期使用的稳定性优于短期低价，根据自身需求选择合