刚刚，GPT-5-Codex发布：独立工作7小时+，代码审查准确率飙升50%！

OpenAI发布GPT-5-Codex，这是GPT-5的软件工程优化版本，可动态调整思考时间，独立工作超7小时，在多项基准测试中准确率提升，代码审查能力显著增强。同时改进了Codex CLI和IDE扩展，使智能体编程工作流更自动化。此次升级彰显了AI编程工具竞争的白热化趋势。

程序员小猴紫

373人浏览 · 2025-09-16 14:07:12

程序员小猴紫 · 2025-09-16 14:07:12 发布

简介

GPT-5首款优化模型来了！

今日凌晨，OpenAI发布新模型GPT-5-Codex，这是其在GPT-5基础上专门为软件工程优化的模型版本，进一步提升了Codex中的智能体编程（Agentic Coding）能力。

OpenAI在博客中提到，GPT-5-Codex的训练侧重于实际的软件工程工作，其可以根据任务动态调整思考时间，在大型复杂任务上能够独立工作超过7个小时。

同时在基准测试中，相比于GPT-5，GPT-5-Codex在多项基准测试中的准确率、代码审查的高影响力评论概率都实现提升。

GPT-5-Codex发布后两个多小时，OpenAI联合创始人、CEO萨姆·阿尔特曼（Sam Altman）就在X中透露，GPT-5-Codex的流量占比已达到Codex总流量的40%左右，今天就能占到超一半流量比例。

在开发者使用Codex的所有场景中，GPT-5-Codex均可用，它是云端任务和代码审查的默认工具，开发者也可通过Codex命令行界面（CLI）或集成开发环境（IDE）进行扩展，选择将其用于本地任务。

OpenAI今年4月首次推出开源编程智能体Codex CLI和5月首次推出Codex的网页版，两周前将Codex整合为一个通过ChatGPT账户连接的单一产品体验，使得开发者可以在本地环境和云端之间无缝迁移工作，而不会丢失上下文。

Codex包含在ChatGPT Plus、Pro、Business、教育和企业用户的订阅套餐中，其中Plus、教育和Business套餐每周可支持几次重点编码课程，Pro套餐可支持一周内多个项目的使用。对于通过API密钥使用Codex CLI的开发人员，OpenAI计划很快在API中提供GPT-5-Codex。

在OpenAI的X评论区，开发者称OpenAI这一新发布对于处理复杂项目非常有前景，还有开发者对自己的AI工具订阅预算担忧。

一、根据任务动态调整思考时间

错误评论减少、高影响力评论增加

GPT-5-Codex针对复杂的实际工程任务进行了训练，例如从头构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。其可以更好遵循AGENTS.md的指令，并生成高质量的代码，开发者只需提出自己的需求，无需编写冗长的代码风格或代码整洁性说明。

此外GPT‑5-Codex会根据任务的复杂程度，动态调整思考时间，其执行任务的时间会从几秒到7个小时不等。该模型结合了编程智能体的两项基本技能：在交互式会话中与开发者配对，以及在较长的任务上持续、独立地执行。这意味着Codex在处理小型、定义明确的请求或与它聊天时会感觉更敏捷，并且在处理大型重构等复杂任务时也能工作更长时间。

从历史数据来看，包括GPT-5发布之时，OpenAI仅公布了477个衡量模型解决真实软件工程任务能力的基准测试集SWE-bench Verified的测试结果，这是因为当时部分任务无法在其基础设施环境中运行。如今，OpenAI已修复了这一问题，目前可公布全部500个任务的测试结果。GPT-5-Codex在该基准测试中的准确率为74.5%，GPT-5为72.8%。

OpenAI基于包含来自大型成熟代码库的重构风格任务测试了新模型的代码重构能力，涉及Python、Go、OCaml等编程语言。GPT-5-Codex在该测试中的准确率为51.3%，GPT-5为33.9%。

在测试中，研究人员发现GPT‑5-Codex能够独立处理大型复杂任务超过7小时，不断迭代实现、修复测试错误并最终交付成功。

基于OpenAI内部员工的使用情况，研究人员发现当按模型生成的token数对用户交互轮次进行排序时，其中生成token数最少的排名最后10%情况中，GPT-5-Codex使用的token比GPT-5少93.7%。

排名前10%的情况正好相反，GPT-5-Codex会进行更多思考，在推理、代码编辑、测试以及迭代上花费的时间是GPT-5的两倍。

GPT-5-Codex还可用于执行代码审查并查找关键缺陷。审查时，它会浏览开发者的代码库，推理依赖关系，并运行代码和测试以验证正确性。

OpenAI评估了热门开源存储库中近期提交的代码审查性能，经验丰富的软件工程师会在每次提交时评估审查意见的正确性和重要性。

GPT-5的错误评论有约13.7%，GPT-5-Codex仅为4.4%，高影响力评论占比中GPT-5有39.4%，GPT-5-Codex有52.4%，每个拉取请求的平均评论数中，GPT-5平均有1.32条，GPT-5-Codex有0.9条。

他们发现，GPT-5-Codex的意见不太可能出现错误或不重要的情况。

据TechCrunch报道，OpenAI Codex产品负责人Alexander Embiricos在一次简报会上称，GPT-5-Codex性能提升很大程度上得益于其动态思考能力。用户可能熟悉ChatGPT中GPT-5的实时路由器（Real-timerouter），它会根据任务的复杂性将查询定向到不同的模型，GPT-5-Codex的工作原理类似，但没有内置路由器，可以实时调整任务的处理时长。与路由器相比，这是一个优势，因为路由器一开始就决定了要用多少计算能力和时间来解决一个问题，而GPT-5-Codex可以在问题开始五分钟后就决定需要再花一个小时。

OpenAI的官方博客也提到，与通用模型GPT-5不同，他们建议开发者仅在Codex或类似Codex环境中执行智能体编程任务时使用GPT-5-Codex。

二、三大核心改进

智能体编程工作流更自动化

此外，OpenAI最近还进行了一些更新，包括改进的Codex CLI和新的Codex IDE扩展。

首先是针对Codex CLI。

基于开源社区对Codex CLI的反馈，OpenAI围绕智能体编程工作流重建了Codex CLI。现在，开发者可以直接在CLI中附加和共享图像，包括屏幕截图、线框图和图表等，从而构建基于设计决策的共享上下文，并准确获取所需内容。

在处理更复杂的工作时，Codex现在可以使用待办事项列表跟踪进度，并包含网页搜索和MCP等用于连接外部系统的工具，从而整体上提高工具使用准确性。

终端用户界面的升级包括工具调用和差异显示格式更佳、更易于理解。

审批模式简化为三个级别：只读（需明确审批）、自动（需完全访问工作区但需在工作区外审批）以及完全访问（可在任意位置读取文件并通过网络访问运行命令）。其还支持压缩对话状态，方便开发者管理较长的会话。

其次是Codex IDE扩展。

这一IDE扩展可将Codex智能体接入VS Code、Cursor以及其他基于VS Code衍生的编辑器，允许其与Codex共同预览本地代码变更、协同编辑代码。

当开发者在IDE中使用Codex时，只需输入更简短的指令就能获得结果，这是因为Codex可利用上下文信息，例如开发者已打开的文件或选中的代码片段。

Codex IDE扩展允许开发者在云端环境与本地环境之间切换工作流，开发者无需离开编辑器，就能创建新的云端任务、跟踪正在进行中的工作、查看已完成的任务。

若需对代码进行收尾调整，其还可以在IDE中直接打开云端任务，且Codex会完整保留相关上下文信息。

此外，OpenAI还一直在提升云基础设施的性能，通过缓存容器，其将新任务和后续任务的平均完成时间缩短了90%。Codex现在可以通过扫描并执行常用的安装脚本来自动设置环境；借助可配置的互联网访问权限，在运行时根据需要执行像pip install这样的命令来获取依赖项。

与CLI和IDE扩展中一样，开发者现在可以通过上传图像的方式，向Codex共享前端设计规范，如界面原型图、视觉稿，或上传界面错位、样式异常的截图说明UI漏洞。

Codex构建前端内容时，可以自行启动浏览器查看已构建的效果并进行迭代优化，最终会将结果截图附加到对应任务以及GitHub拉取请求中。

在代码审查中，Codex可以被用于发现关键缺陷。

与静态分析工具不同，它可以将拉取请求中声明的开发意图与实际差异进行匹配，结合整个代码库及依赖项展开推理分析，并通过执行代码与测试用例来验证实际运行行为。

一旦开发者在某个GitHub库启用了Codex，当拉取请求从草稿状态转为就绪状态时，Codex就会自动对其进行审查，并将分析结果发布在该拉取请求上。

如果Codex建议进行修改，开发者可以在同一个对话线程中让Codex直接实施这些修改。

开发者也可以在拉取请求中明确提及@codex review来请求审查，例如@codex review for security vulnerabilities（让Codex审查安全漏洞）或@codex review for outdated dependencies（让Codex审查过时的依赖项）。

Codex目前已在OpenAI内部，被用于审查其绝大多数的拉取请求，每天能发现数百个问题，而且往往是在人工审查开始之前就已发现。

三、结语：AI编程工具竞争白热化

当下，AI编程工具的竞争已经变得愈发激烈，既有OpenAI Codex、Claude Code、Anysphere Cursor、微软GitHub Copilot几大产品进场厮杀，还有Cursor年度经常性收入（ARR）在2025年初就超过5亿美元，更有AI代码编辑器Windsurf遭遇一场混乱收购，导致其团队被谷歌和Cognition两家公司瓜分。

OpenAI Codex此次升级，发布专门为智能体编程优化的全新模型，使得其自动化编程以及与用户协作的能力都大幅提升，证明了AI编程工具竞赛的激烈程度持续升温。

四、AI大模型学习路线

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

请添加图片描述
第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

请添加图片描述

大模型全套视频教程

请添加图片描述

200本大模型PDF书籍

请添加图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

请添加图片描述

大模型产品经理资源合集

请添加图片描述

大模型项目实战合集

请添加图片描述

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

AI编程社区

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

终端编程效率革命：Claude Code AI 实战指南，告别重复劳作！

AI编程社区

架构师指南：如何用AI辅助编程工具评估第三方组件的架构适配性（附工具推荐）

在评估第三方组件前，必须明确架构适配性的核心定义：第三方组件的设计、特性与当前架构的业务需求、技术约束、未来演进方向的匹配程度。架构师需要评估的五大核心维度目标：明确业务需求和架构约束，避免“为评估而评估”。传统痛点：业务需求模糊（比如“需要高可用”），导致评估方向偏差。AI解决方案：用大语言模型（LLM）梳理业务需求，提取可量化的约束条件。示例操作。

AI编程社区

人机协作成为AI编程主流：AI应用架构师如何设计“人-AI协同”的编程流程？

当GitHub Copilot的代码建议覆盖率达到46%、GPT-4 Code Interpreter能解决80%的常规编程问题时，“AI替代程序员”的焦虑曾一度蔓延。AI从不是“替代者”，而是“超级合作者”——它擅长处理重复劳动、快速生成初稿，却缺乏对业务上下文的理解、逻辑漏洞的判断力和创意决策的能力；而人类的优势恰恰是“定义目标”“校验对错”“创造规则”。本文将以AI应用架构师的视角，拆解“人