GPT‑5 疯狂刷屏：Cursor、Copilot、基准测试成绩，真相来了

木易AI信息差

653人浏览 · 2025-07-31 05:09:04

木易AI信息差 · 2025-07-31 05:09:04 发布

最近几天，被 GPT-5 连续刷屏。

Reddit、X、Hacker News 上同时出现了关于它的多个爆料：

有人说它已经能“一击（one-shot）解决几乎任何问题”；
有人说 macOS ChatGPT 客户端里已经出现了 GPT-5 模型的身影；
甚至还有人放出了 GPT-5 的基准测试对比图。

到底哪条是真的，哪条是“AI 圈八卦”？

今天来梳理一波。

01｜GPT‑5‑Alpha 悄然现身 Cursor

鉴定结果：99 真。

新模型上线前要经过多方、大量的测试。

这一次，是 Cursor。

Cursor 悄然上线了 GPT-5-Alpha，已有不少用户获得了内测权限。

最早的爆料来自 Cursor 的首席设计官 Ryo Lu，他用 Cursor 一次提示就生成了一个样式精美的“Emoji 水族箱”对话气泡，据传背后驱动的就是 GPT‑5‑Alpha 模型。

Ryo Lu 甚至附上了体验地址，浓浓的 GUI 复古风扑面而来。

https://os.ryo.lu/

也有拿到内测资格的 Cursor 用户晒出了截图，并直呼 GPT‑5 太强：“它一击就解决了其他模型搞不定的难题。我甚至觉得，到 2026 年初，我们可能都不再需要程序员了。”

从这些用户放出的 Cursor 模型选择页面截图来看，还是有一定可信度的。

02｜macOS ChatGPT 客户端提前曝出 GPT‑5

鉴定结果：99 真。

如果说 Alpha 内测属于“小道消息”，那接下来的这个爆料就更硬核了。

今天，有开发者在 macOS 版 ChatGPT 应用缓存目录中，发现了 GPT-5 相关条目：

~/Library/Caches/com.openai.chat/fsCachedData

在模型列表里赫然出现了两个新模型：

GPT-5-Auto
GPT-5-Reasoning

多位开发者在 X 和 Reddit 平台晒出了截图。

这意味着什么？

首先，GPT-5 的客户端集成已经在准备阶段，离官方发布不远了。

其次，模型命名暗示了新特性：

Auto：快速执行、可能整合代理功能；
Reasoning：思维链式推理，专门解决复杂问题。

结合此前 The Verge 和 BleepingComputer 的报道推测，8 月初 GPT-5 正式发布的概率很高。

03｜GPT-5 基准成绩“吊打全场”？

鉴定结果：8 成假。

这两天流传最广的，还有所谓“GPT-5 基准测试成绩”。

具体说来，是下面这张图（方便大家查看，我整合到了一张图里）。

它们分别是 GPT-5 在人类最后一场考试 HLE、代码 SWE‑Bench、知识推理 GPQA 及数学 AIME 2025 这几项测评中与其他前沿模型的对比结果。

下面则是 GPT-5 在 ARC-AGI 2 基准测试中的表现。横坐标是单次任务成本，纵坐标则是正确率百分比。

虽然看起来有模有样，结果也挺唬人，但可以负责任地讲：全是假图。

准确点说，它们都是预测值。

图表作者本人也在 X 上进行了澄清：“这些是我对 GPT‑5 的预测，内部人士 Satoshi 确认大多数是准确的，或者部分准确。”

04｜Copilot Smart Mode 提前用上 GPT-5

鉴定结果：99 真。

就在 GPT-5 话题持续发酵、谣言满天飞时，微软这边也放出了“实锤”：Copilot 的智能模式（Smart Mode）已开始小范围推送。

内部代码显示，它的核心引擎就是 GPT-5。

Smart Mode 有两个模式：

快速思考：简单问题秒回答；
深度思考：复杂任务先推理，再回答。

这其实就是 OpenAI 传闻已久的“路由器机制”：根据用户问题类型自动切换不同推理深度。

而用整合了 GPT 和 o 系列的 GPT-5 做底座模型，延迟和算力成本都更好控。

Copilot Smart Mode 长这样，截图来自职业爆料人 TestingCatalog。

实测切换了几个 Copilot 账号，都没有被推送到这个新功能。

结语

AI 圈从不缺热闹，缺的只是“实锤”。

从 Cursor 到 Copilot，从截图到基准成绩，GPT‑5 已经在“云端”徘徊了太久。

而这次，它是真的要来了。

所以，准备好你的 ChatGPT 了吗？

我是木易，一个专注 AI 领域的技术产品经理，国内 Top2 本科 + 美国 Top10 CS 硕士。

相信 AI 是普通人的“外挂”，致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。

欢迎关注“AI信息Gap”，用 AI 为你的未来加速。

精选推荐

AI编程社区

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

自然语言处理在AI原生应用中的性能优化技巧

在这个"万物皆可AI"的时代，AI原生应用（从出生就以AI为核心驱动力的应用，如ChatGPT、Siri、GitHub Copilot）已渗透到生活的每个角落。而自然语言处理（NLP）作为AI与人类沟通的"翻译官"，是这些应用的"灵魂"——没有NLP，智能音箱听不懂指令，聊天机器人无法对话，AI写作工具写不出通顺的文章。“笨重”：参数量从BERT的数亿到GPT-4的万亿，模型文件动辄几十GB，普通

AI编程社区

为Github Copilot创建自定义指令/说明/注意事项

GitHub Copilot 是一个强大的 AI 编程助手，通过合理配置自定义指令，可以让它更好地理解和遵循项目特定的编码规范，省的每次提问时输入重复提示语句。本文档详细介绍了如何为 GitHub Copilot 添加自定义注意事项的各种方法。

AI编程社区

AI 辅助编码工具测评：15 款工具中哪款让 Bug 率下降 60%

从降低 Bug 率的角度来看，腾讯云代码助手 CodeBuddy 表现卓越，通过其强大的代码评审和高质量的代码生成能力，有效减少了代码中的缺陷。这些工具利用先进的算法和大量的代码数据，为开发者提供代码自动生成、智能补全、错误检测与修复等功能，大大减轻了开发负担，提升了开发效率和代码质量。而大型企业在考虑工具时，除了功能，也会综合评估工具的性价比以及对企业整体开发效率提升带来的价值，如 GitHub