2025 年 11 月简直是 AI 编程领域的 “神仙打架” 月。

11 月 12 日,OpenAI 发布了 GPT-5.1 和 GPT-5.1-Codex-Max;

11 月 18 日,Google 推出了 Gemini 3.0;

11 月 24 日,Anthropic 发布了 Claude Opus 4.5。

三大科技巨头在同一个月内集体发力,让开发者们面临一个艰难的选择:到底哪个模型最适合实际编程工作?

国外知名 AI 编程工具 Kilo Code 团队设计了一套完整的评测方案,通过三个不同维度的编程任务,对这三个模型进行了深度对比,让我们来看看结果如何。

评测方法论

为了全面考察这三个模型的实战能力,Kilo Code 团队设计了三个测试场景:

测试 1:指令遵循测试
要求模型按照 10 条严格的规则实现一个 Python 限流器。这个测试的目的是看模型是否会严格遵守指令,还是会"自作主张"添加额外功能。

测试 2:代码重构测试
提供一个包含 365 行代码的"问题代码库",里面有 20+ 个 SQL 注入漏洞、命名混乱、类型不规范等问题。考察模型能否发现并修复这些架构问题。

测试 3:系统扩展测试
给出一个现有的通知系统,要求模型先理解架构,然后添加邮件处理功能。这测试了模型理解现有代码和保持架构一致性的能力。

所有测试都在 Kilo Code 平台上进行,使用相同的提示词和环境,确保公平性。

测试 1:Python 限流器 —— 谁最听话?

第一个测试给了三个模型一个包含 10 条严格规则的需求文档,要求实现一个令牌桶限流器。规则非常具体,包括类名必须是 TokenBucketLimiter、方法必须返回特定格式的元组、错误信息必须精确匹配等。

结果令人意外:

  • Gemini 3.0 得分最高(99/100),完全按照要求实现,代码简洁干净
  • Opus 4.5 得分 98/100,代码清晰,文档详细,只是一个内部变量命名稍有出入
  • GPT-5.1 得分 97/100,因为它添加了很多"没被要求"的功能

GPT-5.1 的"问题"在于它太"热心"了。它主动添加了输入验证,确保 tokens 参数为正数;在构造函数中检查 refill_rateinitial_tokens 的合法性。这些功能从工程角度来说很好,但确实偏离了"严格遵守规则"的要求。

Gemini 3.0 则完全照做,既不多也不少。如果你需要一个完全符合规格的实现,Gemini 是最佳选择。

测试 2:TypeScript API 重构 —— 谁更懂安全?

第二个测试提供了一个充满问题的 TypeScript API 处理器,要求模型进行全面重构,包括:

  • • 修复 SQL 注入漏洞
  • • 统一命名规范
  • • 添加输入验证
  • • 实现分层架构
  • • 添加速率限制

这次,Claude Opus 4.5 是唯一得到 100/100 满分的模型,因为它是唯一实现了速率限制功能的模型。

关键差异点

授权检查:

GPT-5.1 注意到 getUserTasks 端点在返回任务时,没有检查请求用户是否真的拥有这些任务。它主动添加了检查逻辑,防止数据泄露。而 Gemini 3.0 则遗漏了这个安全隐患。

数据库事务:

GPT-5.1 识别出某些操作(如归档任务)涉及多个数据库步骤,实现了完整的事务处理。Gemini 3.0 虽然意识到需要事务,但只是留了一个注释,并没有真正实现。

向后兼容性:

GPT-5.1 展现了对遗留系统的理解。在验证输入时,它同时支持旧字段名(如 Title)和新字段名(如 title),避免破坏现有客户端。Gemini 3.0 只支持新命名,可能导致现有应用崩溃。

速率限制(Opus 4.5 独家):

只有 Opus 4.5 实现了明确要求的速率限制功能,包括适当的限流头和 RateLimitError 类。GPT-5.1 和 Gemini 3.0 完全忽略了这个需求。

环境变量(Opus 4.5 独家):

GPT-5.1 和 Gemini 3.0 都硬编码了 JWT 密钥,而 Opus 4.5 使用了环境变量,这是生产环境的最佳实践。

小结:

  • • Claude Opus 4.5 提供了最完整的重构,实现了全部 10 项要求
  • • GPT-5.1 处理了 9/10 项规则,在安全性和防御性编程方面表现出色
  • • Gemini 3.0 处理了 8/10 项,代码生成速度最快,但遗漏了一些深层架构问题

测试 3:通知系统扩展 —— 谁最懂架构?

第三个测试提供了一个包含 Webhook 和 SMS 支持的通知系统(400 行代码),要求模型:

    1. 先解释现有架构的工作原理
    1. 添加一个符合现有模式的 EmailHandler

这个测试考察两方面能力:理解现有代码的能力,以及编写符合项目风格代码的能力。

性能表现

Claude Opus 4.5 速度最快(1 分钟),同时提供了最完整的实现,包含所有 7 种通知事件的模板。

代码理解能力

GPT-5.1 提供了一份详细的架构审计报告(306 行):

  • • 包含 Mermaid 序列图,清晰展示事件如何在系统中传播
  • • 引用具体代码行号来支持每个结论
  • • 发现了隐藏的 bug,比如硬编码的通道检测逻辑(添加新处理器时会出问题)

Gemini 3.0 提供了简洁的高级总结(51 行),正确识别了核心设计模式(策略模式、观察者模式)和缺失组件,但没有深入实现细节。

Opus 4.5 提供了平衡的分析(235 行),包含架构图和代码引用,详细程度介于两者之间。

实现质量

Opus 4.5 交付了最完整的解决方案:

  • • 为所有 7 种事件类型创建了模板
  • • 支持运行时自定义
  • • 完整的错误处理和重试机制

GPT-5.1 在理解阶段深入分析,识别了具体 bug 并创建了图表,然后实现了功能丰富的版本(支持 CC/BCC、附件)。

Gemini 3.0 理解了基础架构,但实现了一个"最小可用版本",缺少另外两个方案的完善度和灵活性。

综合表现对比

整体指标

Opus 4.5 速度最快(7 分钟),同时产出最完整。虽然成本最高($1.68),但如果需要首次就能得到完整实现,这个差价是值得的。

GPT-5.1 持续写出比 Gemini 多 1.5 到 1.8 倍的代码,因为它会添加:

  • • 大多数函数的 JSDoc 注释
  • • 函数参数的验证逻辑
  • • 边缘情况的错误处理
  • • 显式类型定义而不是推断类型

Gemini 3.0 整体成本最低,但在测试 3 中比 GPT-5.1 更贵,因为它在输出代码前进行了更长的内部推理。这表明对于复杂的系统理解任务,Gemini 可能会"思考"更久,即使最终输出更短。

代码风格对比

三个模型的代码风格差异明显:

GPT-5.1 倾向于详细风格。包含 JSDoc 注释,明确标注参数类型(使用 unknown[] 而不是 any[]),并将逻辑包装在类型化的 Promise 中。它的代码冗长但文档完善。

Gemini 3.0 倾向于最小风格。编写最短的可用实现,跳过注释,使用较宽松的类型(any[])。同样的结果,代码量只有 GPT-5.1 的一半,但缺少文档和类型安全特性。

Claude Opus 4.5 产出组织良好的代码,带有清晰的章节标题。它像 GPT-5.1 一样使用严格类型,但将代码组织成明确标注的部分。它将错误包装在自定义错误类中(如 DatabaseError),并使用泛型类型参数。代码量介于两者之间,但更注重组织性和完整性。

指令遵循 vs 主动性

在测试 1 中,Gemini 3.0 得分最高(99/100),因为它完全按要求执行。Opus 4.5 得分 98/100,实现简洁且文档更好。GPT-5.1 得分 97/100,因为它添加了额外功能:

  • • 改变方法行为的验证检查
  • • 我们没有指定的边缘情况处理
  • • 超出需求范围的逻辑

在测试 2 和 3 中,情况反转了。Claude Opus 4.5 得分最高,实现了所有需求(包括另外两个都遗漏的速率限制)并添加了额外功能。GPT-5.1 得分第二,添加了防御性功能。Gemini 3.0 得分最低,因为它坚持对每个需求的最小解释。

结论: 对于严格规格,Gemini 严格遵循提示。对于复杂任务,完整性很重要时,Claude Opus 4.5 提供最全面的实现。

实用建议

审查 Claude Opus 4.5 的代码时,注意:

  • 额外功能:它可能添加了你不需要的功能(如运行时模板管理),这些通常有用但增加了复杂性
  • 组织开销:编号的章节标题和大量错误类对大项目有帮助,但对小脚本可能过度
  • 最佳实践:它倾向于使用环境变量和适当的错误层次结构,你可能需要配置

审查 GPT-5.1 的代码时,注意:

  • 过度工程:它可能添加了你实际不需要的验证逻辑
  • 契约变更:它可能添加了约束(如"仅正整数"),可能破坏现有的灵活输入
  • 未请求的功能:它可能添加了你没要求的方法或参数

审查 Gemini 3.0 的代码时,注意:

  • 缺失防护:它可能在关键公共方法上跳过了输入验证
  • 边缘情况:它是否处理了 null、空数组或网络失败
  • 文档:它可能跳过了能帮助未来维护者的注释或类型定义
  • 跳过的需求:它是否实现了所有需求,还是只实现了明显的部分

提示词策略

  • 使用 Claude Opus 4.5 时:如果你想要最小代码,明确说明。否则,期待带有适当错误处理、环境变量和有组织的章节的完整实现
  • 使用 GPT-5.1 时:如果你需要特定的最小实现,明确告诉它_不要_做什么(例如,“不要添加额外验证”、“保持实现最小”)
  • 使用 Gemini 3.0 时:如果你需要生产就绪代码,明确要求"额外内容"(例如,“包含 JSDoc 注释”、“处理边缘情况”、“添加输入验证”、“实现所有 10 项要求”)

总结:选择适合你的模型

这三个模型都能够处理复杂的编程任务,每个都有独特的风格,使其更适合不同的使用场景。

Claude Opus 4.5 产出全面、有组织、可用于生产的代码。它在测试中速度最快(7 分钟),同时得分最高(平均 98.7%)。它实现所有需求,包括其他模型遗漏的需求,并自动添加环境变量、速率限制和运行时配置等功能。

GPT-5.1 产出彻底、防御性强、文档完善的代码。它倾向于在输出代码前进行更长时间的推理,并自动包含防护措施和文档,通常预见到超出明确需求的需求。

Gemini 3.0 产出精确、高效、最小的代码。它是最便宜的选择(总计 $1.10),准确实现提示中指定的内容,不添加未请求的功能或防护措施。

如何选择?

根据你的需求选择:

  • 如果你想要第一次就完整实现所有需求,Claude Opus 4.5 最合适
  • 如果你想要内置安全性和向后兼容性的防御性代码,GPT-5.1 最合适
  • 如果你想要以最低成本精确匹配规格的简单代码,Gemini 3.0 最合适

开发者现在拥有多个能够处理困难任务的强大模型。你的选择取决于哪些权衡对你最重要:完整性(Claude Opus)、防御性(GPT)还是精确性(Gemini)。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

在这里插入图片描述

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点
在这里插入图片描述

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线

在这里插入图片描述
在这里插入图片描述

03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的

在这里插入图片描述
在这里插入图片描述

04.大模型面试题目详解

在这里插入图片描述

在这里插入图片描述

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

在这里插入图片描述
在这里插入图片描述

智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

在这里插入图片描述
如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐