Google 的 Gemini 在程序员圈子里一直是个"背景板"——大家都知道它存在,但没几个人真用。

今年 3 月 Gemini 2.5 Pro 发布后,外网评价不错。我花了两个晚上实测,拿它跟 DeepSeek V4 Pro 和 GPT-4o 做了三个程序员高频场景的对比。

先说结论:Gemini 2.5 Pro 在超长文档问答上碾压,代码生成不如 DeepSeek,Code Review 能打但不如 Claude。它有一个别人没有的杀手场景。


复现口径

参数
测试时间 2026-05-23
Gemini gemini-2.5-pro-preview-05-06(Google AI Studio,免费额度)
DeepSeek deepseek-v4-pro(API,thinking: disabled)
GPT-4o gpt-4o-2024-11-20(API)
温度 0.3 统一

场景一:从 Spec 生成完整 REST API

Prompt:“用 Go + Gin 实现一个博客系统的 REST API,包含:用户注册/登录(JWT)、文章 CRUD、评论、标签管理。需要数据库迁移脚本、中间件(认证 + 限流)、完整的项目目录结构。”

代码质量评分

维度 Gemini 2.5 Pro DeepSeek V4 Pro GPT-4o
编译通过
项目结构完整性 4/5 4.5/5 5/5
中间件实现 4/5 4.5/5 4/5
数据库设计 3.5/5 4.5/5 4/5
代码风格 3.5/5 4.5/5 4/5
综合 3.8/5 4.5/5 4.25/5

Gemini 的问题

  1. 数据库迁移脚本只给了 CREATE TABLE,没有 ALTER TABLE 和版本管理(DeepSeek 给了完整的迁移框架)
  2. 标签管理实现过于简单——只有 CRUD,没有多对多关联
  3. 代码风格有点"Google 内部风格"——变量名偏长,函数拆得很细,但对非 Google 背景的程序员不太友好

Gemini 的亮点

  • 中间件的错误处理写得很好,每个错误都有对应的 HTTP 状态码和 error code
  • 给了一个 Makefile,包含了 lint / test / build / migrate 命令(DeepSeek 和 GPT-4o 都没给)

速度和成本

指标 Gemini 2.5 Pro DeepSeek V4 Pro GPT-4o
输出 token 数 4,821 3,856 4,102
耗时 18.2s 12.5s 14.1s
生成速度 265 t/s 308 t/s 291 t/s
成本 $0(免费额度) $0.014 $0.016

Gemini 的生成速度不慢(265 t/s),但整体耗时更长——因为它倾向于输出更多代码。


场景二:Code Review —— 500 行 Go 文件

给了一份 500 行的 Go 支付回调处理代码(故意埋了 8 个问题:goroutine 泄漏、错误吞没、硬编码密钥、SQL 拼接、nil 指针、竞态条件、没有幂等性处理、日志泄露敏感信息)。

发现的问题数

问题 Gemini 2.5 Pro DeepSeek V4 Pro GPT-4o
goroutine 泄漏
错误吞没
硬编码密钥
SQL 拼接 ⚠️ 提到了但没说具体行号
nil 指针
竞态条件
无幂等性
日志泄露敏感信息
发现率 7/8 (87.5%) 7/8 (87.5%) 5/8 (62.5%)

Gemini 是唯一一个发现"日志泄露敏感信息"的——它在 review 里指出 log.Printf("payment callback: %+v", req) 会把支付回调里的银行卡后四位打到日志里。

但 Gemini 漏掉了 nil 指针问题——可能因为它更关注"安全"而不是"健壮性"。

Review 结构化程度

维度 Gemini 2.5 Pro DeepSeek V4 Pro GPT-4o
按严重性分级 ✅ Critical/High/Medium/Low ✅ 高/中/低
给出行号 ⚠️ 部分
给出修复代码
给出安全影响分析

Gemini 的 Review 有个独特价值——安全影响分析。它不只是说"这里有 SQL 注入",而是说"这个 SQL 注入可被攻击者通过构造订单号绕过,进而查询任意用户的支付记录"。


场景三:10 万 Token 长文档问答

这是 Gemini 的主场。我准备了一份 100,000 token 的测试材料——Kubernetes 1.32 的 CHANGELOG(拼接而成,包含大量 API 弃用信息、新特性、Breaking Changes),然后出 20 道事实性问题。

准确率(20 道事实题)

位置 题目数 Gemini 2.5 Pro DeepSeek V4 Pro GPT-4o
头部 0-20% 5 题 100% 100% 100%
中前 20-40% 5 题 100% 80% 100%
中部 40-60% 5 题 80% 60% 60%
中后 60-80% 5 题 80% 40% 40%
尾部 80-100% 5 题 60% 20% 20%
总计 20 84% 60% 64%

Gemini 的长上下文检索能力明显更强——尤其是文档中部和后部的内容,它比其他两个模型高出 20-40 个百分点。

20 题里 GPT-4o 直接拒答了 2 题(说"无法在提供的文档中找到相关信息"),DeepSeek 拒答了 1 题。Gemini 全部尝试回答了。但 Gemini 在尾部内容上有 2 题答得"似是而非"——它给了答案,但不够精确。


Google AI Studio 配置指南

Gemini 目前最好的使用方式是通过 Google AI Studio——免费,无需绑卡,开箱即用。

1. 访问 https://aistudio.google.com
2. Google 账号登录
3. 左侧菜单 → Create API Key
4. 选择模型 Gemini 2.5 Pro (experimental)
5. 免费额度:100 次/天(RPM: 10)

API 调用示例(兼容 OpenAI SDK)

import google.generativeai as genai

genai.configure(api_key="YOUR_API_KEY")
model = genai.GenerativeModel("gemini-2.5-pro-exp-05-06")

response = model.generate_content(
    "Review this Go code for security issues:\n\n" + code,
    generation_config={"temperature": 0.3}
)
print(response.text)

也可以走 OpenAI 兼容端点:

curl https://generativelanguage.googleapis.com/v1beta/openai/chat/completions \
  -H "Authorization: Bearer $GEMINI_API_KEY" \
  -d '{"model":"gemini-2.5-pro-exp-05-06","messages":[...]}'

你的场景 选谁 理由
代码生成 DeepSeek V4 Pro 质量最高,Gemini 只能排第三
Code Review(安全向) Gemini 2.5 Pro 唯一一个有安全影响分析的
Code Review(全面向) Claude 上篇验证过,结构化和全面性最好
长文档问答(>50K token) Gemini 2.5 Pro 碾压,84% vs 60%/64%
预算为零 Gemini 2.5 Pro 免费额度够日常用

Gemini 的杀手场景:读文档。

当你需要阅读一份超长的技术文档、CHANGELOG、或 RFC 并回答具体问题时,Gemini 2.5 Pro 是目前长上下文检索的王者。100 万 token 上下文窗口不是摆设——它真的能从中后段准确检索信息。

但它有两个短板:代码生成不如 DeepSeek,Code Review 虽然安全向强但全面性不如 Claude。所以日常代码还是用 DeepSeek,读文档掏出 Gemini,Code Review 请 Claude。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐