Gemini 2.5 Pro 程序员向评测：代码生成 + 长文档问答能打吗？

笃北天涯

435人浏览 · 2026-06-25 08:23:08

笃北天涯 · 2026-06-25 08:23:08 发布

Google 的 Gemini 在程序员圈子里一直是个"背景板"——大家都知道它存在，但没几个人真用。

今年 3 月 Gemini 2.5 Pro 发布后，外网评价不错。我花了两个晚上实测，拿它跟 DeepSeek V4 Pro 和 GPT-4o 做了三个程序员高频场景的对比。

先说结论：Gemini 2.5 Pro 在超长文档问答上碾压，代码生成不如 DeepSeek，Code Review 能打但不如 Claude。它有一个别人没有的杀手场景。

复现口径

参数	值
测试时间	2026-05-23
Gemini	gemini-2.5-pro-preview-05-06（Google AI Studio，免费额度）
DeepSeek	deepseek-v4-pro（API，thinking: disabled）
GPT-4o	gpt-4o-2024-11-20（API）
温度	0.3 统一

场景一：从 Spec 生成完整 REST API

Prompt：“用 Go + Gin 实现一个博客系统的 REST API，包含：用户注册/登录（JWT）、文章 CRUD、评论、标签管理。需要数据库迁移脚本、中间件（认证 + 限流）、完整的项目目录结构。”

代码质量评分

维度	Gemini 2.5 Pro	DeepSeek V4 Pro	GPT-4o
编译通过	✅	✅	✅
项目结构完整性	4/5	4.5/5	5/5
中间件实现	4/5	4.5/5	4/5
数据库设计	3.5/5	4.5/5	4/5
代码风格	3.5/5	4.5/5	4/5
综合	3.8/5	4.5/5	4.25/5

Gemini 的问题：

数据库迁移脚本只给了 CREATE TABLE，没有 ALTER TABLE 和版本管理（DeepSeek 给了完整的迁移框架）
标签管理实现过于简单——只有 CRUD，没有多对多关联
代码风格有点"Google 内部风格"——变量名偏长，函数拆得很细，但对非 Google 背景的程序员不太友好

Gemini 的亮点：

中间件的错误处理写得很好，每个错误都有对应的 HTTP 状态码和 error code
给了一个 Makefile，包含了 lint / test / build / migrate 命令（DeepSeek 和 GPT-4o 都没给）

速度和成本

指标	Gemini 2.5 Pro	DeepSeek V4 Pro	GPT-4o
输出 token 数	4,821	3,856	4,102
耗时	18.2s	12.5s	14.1s
生成速度	265 t/s	308 t/s	291 t/s
成本	$0（免费额度）	$0.014	$0.016

Gemini 的生成速度不慢（265 t/s），但整体耗时更长——因为它倾向于输出更多代码。

场景二：Code Review —— 500 行 Go 文件

给了一份 500 行的 Go 支付回调处理代码（故意埋了 8 个问题：goroutine 泄漏、错误吞没、硬编码密钥、SQL 拼接、nil 指针、竞态条件、没有幂等性处理、日志泄露敏感信息）。

发现的问题数

问题	Gemini 2.5 Pro	DeepSeek V4 Pro	GPT-4o
goroutine 泄漏	✅	✅	✅
错误吞没	✅	✅	✅
硬编码密钥	✅	✅	✅
SQL 拼接	✅	✅	⚠️ 提到了但没说具体行号
nil 指针	❌	✅	✅
竞态条件	✅	✅	✅
无幂等性	✅	✅	❌
日志泄露敏感信息	✅	❌	❌
发现率	7/8 (87.5%)	7/8 (87.5%)	5/8 (62.5%)

Gemini 是唯一一个发现"日志泄露敏感信息"的——它在 review 里指出 log.Printf("payment callback: %+v", req) 会把支付回调里的银行卡后四位打到日志里。

但 Gemini 漏掉了 nil 指针问题——可能因为它更关注"安全"而不是"健壮性"。

Review 结构化程度

维度	Gemini 2.5 Pro	DeepSeek V4 Pro	GPT-4o
按严重性分级	✅ Critical/High/Medium/Low	✅ 高/中/低	❌
给出行号	✅	✅	⚠️ 部分
给出修复代码	✅	✅	✅
给出安全影响分析	✅	❌	❌

Gemini 的 Review 有个独特价值——安全影响分析。它不只是说"这里有 SQL 注入"，而是说"这个 SQL 注入可被攻击者通过构造订单号绕过，进而查询任意用户的支付记录"。

场景三：10 万 Token 长文档问答

这是 Gemini 的主场。我准备了一份 100,000 token 的测试材料——Kubernetes 1.32 的 CHANGELOG（拼接而成，包含大量 API 弃用信息、新特性、Breaking Changes），然后出 20 道事实性问题。

准确率（20 道事实题）

位置	题目数	Gemini 2.5 Pro	DeepSeek V4 Pro	GPT-4o
头部 0-20%	5 题	100%	100%	100%
中前 20-40%	5 题	100%	80%	100%
中部 40-60%	5 题	80%	60%	60%
中后 60-80%	5 题	80%	40%	40%
尾部 80-100%	5 题	60%	20%	20%
总计	20	84%	60%	64%

Gemini 的长上下文检索能力明显更强——尤其是文档中部和后部的内容，它比其他两个模型高出 20-40 个百分点。

20 题里 GPT-4o 直接拒答了 2 题（说"无法在提供的文档中找到相关信息"），DeepSeek 拒答了 1 题。Gemini 全部尝试回答了。但 Gemini 在尾部内容上有 2 题答得"似是而非"——它给了答案，但不够精确。

Google AI Studio 配置指南

Gemini 目前最好的使用方式是通过 Google AI Studio——免费，无需绑卡，开箱即用。

1. 访问 https://aistudio.google.com
2. Google 账号登录
3. 左侧菜单 → Create API Key
4. 选择模型 Gemini 2.5 Pro (experimental)
5. 免费额度：100 次/天（RPM: 10）

API 调用示例（兼容 OpenAI SDK）：

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-pro-exp-05-06")

response = model.generate_content(
    "Review this Go code for security issues:\n\n" + code,
    generation_config={"temperature": 0.3}
)
print(response.text)

也可以走 OpenAI 兼容端点：

curl https://generativelanguage.googleapis.com/v1beta/openai/chat/completions \
  -H "Authorization: Bearer $GEMINI_API_KEY" \
  -d '{"model":"gemini-2.5-pro-exp-05-06","messages":[...]}'

你的场景	选谁	理由
代码生成	DeepSeek V4 Pro	质量最高，Gemini 只能排第三
Code Review（安全向）	Gemini 2.5 Pro	唯一一个有安全影响分析的
Code Review（全面向）	Claude	上篇验证过，结构化和全面性最好
长文档问答（>50K token）	Gemini 2.5 Pro	碾压，84% vs 60%/64%
预算为零	Gemini 2.5 Pro	免费额度够日常用