GPT‑5 疯狂刷屏:Cursor、Copilot、基准测试成绩,真相来了
GPT‑5 疯狂刷屏:Cursor、Copilot、基准测试成绩,真相来了
最近几天,被 GPT-5
连续刷屏。
Reddit、X、Hacker News 上同时出现了关于它的多个爆料:
-
有人说它已经能“一击(one-shot)解决几乎任何问题”;
-
有人说 macOS ChatGPT 客户端里已经出现了
GPT-5
模型的身影; -
甚至还有人放出了
GPT-5
的基准测试对比图。
到底哪条是真的,哪条是“AI 圈八卦”?
今天来梳理一波。
01|GPT‑5‑Alpha 悄然现身 Cursor
鉴定结果:99 真。
新模型上线前要经过多方、大量的测试。
这一次,是 Cursor。
Cursor 悄然上线了 GPT-5-Alpha
,已有不少用户获得了内测权限。
最早的爆料来自 Cursor 的首席设计官 Ryo Lu,他用 Cursor 一次提示就生成了一个样式精美的“Emoji 水族箱”对话气泡,据传背后驱动的就是 GPT‑5‑Alpha
模型。
Ryo Lu 甚至附上了体验地址,浓浓的 GUI 复古风扑面而来。
https://os.ryo.lu/
也有拿到内测资格的 Cursor 用户晒出了截图,并直呼 GPT‑5
太强:“它一击就解决了其他模型搞不定的难题。我甚至觉得,到 2026 年初,我们可能都不再需要程序员了。”
从这些用户放出的 Cursor 模型选择页面截图来看,还是有一定可信度的。
02|macOS ChatGPT 客户端提前曝出 GPT‑5
鉴定结果:99 真。
如果说 Alpha 内测属于“小道消息”,那接下来的这个爆料就更硬核了。
今天,有开发者在 macOS 版 ChatGPT 应用缓存目录中,发现了 GPT-5
相关条目:
~/Library/Caches/com.openai.chat/fsCachedData
在模型列表里赫然出现了两个新模型:
-
GPT-5-Auto
-
GPT-5-Reasoning
多位开发者在 X 和 Reddit 平台晒出了截图。
这意味着什么?
首先,GPT-5
的客户端集成已经在准备阶段,离官方发布不远了。
其次,模型命名暗示了新特性:
-
Auto:快速执行、可能整合代理功能;
-
Reasoning:思维链式推理,专门解决复杂问题。
结合此前 The Verge 和 BleepingComputer 的报道推测,8 月初 GPT-5
正式发布的概率很高。
03|GPT-5 基准成绩“吊打全场”?
鉴定结果:8 成假。
这两天流传最广的,还有所谓“GPT-5
基准测试成绩”。
具体说来,是下面这张图(方便大家查看,我整合到了一张图里)。
它们分别是 GPT-5
在人类最后一场考试 HLE、代码 SWE‑Bench、知识推理 GPQA 及数学 AIME 2025 这几项测评中与其他前沿模型的对比结果。
下面则是 GPT-5
在 ARC-AGI 2 基准测试中的表现。横坐标是单次任务成本,纵坐标则是正确率百分比。
虽然看起来有模有样,结果也挺唬人,但可以负责任地讲:全是假图。
准确点说,它们都是预测值。
图表作者本人也在 X 上进行了澄清:“这些是我对 GPT‑5
的预测,内部人士 Satoshi 确认大多数是准确的,或者部分准确。”
04|Copilot Smart Mode 提前用上 GPT-5
鉴定结果:99 真。
就在 GPT-5
话题持续发酵、谣言满天飞时,微软这边也放出了“实锤”:Copilot 的智能模式(Smart Mode)已开始小范围推送。
内部代码显示,它的核心引擎就是 GPT-5
。
Smart Mode 有两个模式:
-
快速思考:简单问题秒回答;
-
深度思考:复杂任务先推理,再回答。
这其实就是 OpenAI 传闻已久的“路由器机制”:根据用户问题类型自动切换不同推理深度。
而用整合了 GPT 和 o 系列的 GPT-5
做底座模型,延迟和算力成本都更好控。
Copilot Smart Mode 长这样,截图来自职业爆料人 TestingCatalog。
实测切换了几个 Copilot 账号,都没有被推送到这个新功能。
结语
AI 圈从不缺热闹,缺的只是“实锤”。
从 Cursor 到 Copilot,从截图到基准成绩,GPT‑5
已经在“云端”徘徊了太久。
而这次,它是真的要来了。
所以,准备好你的 ChatGPT 了吗?
我是木易,一个专注 AI 领域的技术产品经理,国内 Top2 本科 + 美国 Top10 CS 硕士。
相信 AI 是普通人的“外挂”,致力于分享 AI 全维度知识。这里有最新的 AI 科普、工具测评、效率秘籍与行业洞察。
欢迎关注“AI信息Gap”,用 AI 为你的未来加速。
精选推荐
更多推荐
所有评论(0)