GPT-5.6凌晨强势登顶！取代Fable-5的榜首位置，OpenAI把最强模型塞进Codex

模型启动机

41人浏览 · 2026-06-28 17:24:01

模型启动机 · 2026-06-28 17:24:01 发布

6月26日，OpenAI一口气发布了GPT-5.6系列三款模型：旗舰模型Sol，平衡模型Terra，低成本高速模型Luna。OpenAI给出的Terminal-Bench 2.1结果里，GPT-5.6 Sol Ultra拿到91.9%，在这项编程工作流测试里直接登顶榜首。

6月26日，OpenAI一口气发布了GPT-5.6系列三款模型：旗舰模型Sol，平衡模型Terra，低成本高速模型Luna。

OpenAI给出的Terminal-Bench 2.1结果里，GPT-5.6 Sol Ultra拿到91.9%，在这项编程工作流测试里直接登顶榜首。

但这不是一次ChatGPT的全民尝鲜。

目前GPT-5.6还是有限预览，入口主要放在API和Codex，因为政策、安全评估和访问控制扯，普通用户和大多数开发者还不能直接上手。

OpenAI这次把最强模型先放进了工程现场。

OpenAI在X上宣布GPT-5.6 Sol、Terra、Luna三款模型。

GPT-5.6 Sol Ultra拿到91.9%。

Sol、Terra、Luna不是改名，是分工

这次命名有点宇宙感：Sol是太阳，Terra是大地，Luna是月亮。

但名字不是重点。OpenAI表示：数字代表模型代际，Sol、Terra、Luna代表稳定的能力档位。

也就是说，GPT-5.6三个名字对应这一代里的三种工作位。

Sol主打旗舰能力，面向复杂代码、高难推理、长链路科研和安全任务。

Terra是日常主力，OpenAI称它的表现接近GPT-5.5，价格便宜约一半。

Luna走速度和成本路线，适合高频、低延迟、成本敏感任务。

价格方面。按每100万token计，Sol输入5美元、输出30美元；Terra输入2.5美元、输出15美元；Luna输入1美元、输出6美元。

这对开发者来说，模型选择开始变成一张分工表。复杂任务上Sol，日常Agent流程用Terra，批量轻任务交给Luna。

Sol为什么能登顶：它能帮你完成整套任务

在Terminal-Bench 2.1上，Sol已经取代Fable-5的榜首位置。

但这里不要只盯着柱状图看。Terminal-Bench测的不是“模型能不能写出一段漂亮函数”，而是命令行工作流，需要规划、迭代和工具协调。

这更接近Codex真实开发场景。

开发者交给Codex的任务，通常不是一句问答，而是一整套完整的任务。模型要处理上下文，也要处理失败。

所以Sol在这种测试里登顶，趋势就很明显：前沿模型正在向着“能跑工程任务”进化。

OpenAI官方说明：Terminal-Bench测试的是规划、迭代和工具协调。

max和ultra，把多Agent摆到台前

Sol这次还新增了两个模式：max和ultra。

max好理解，就是给模型更多时间深度推理。复杂任务不急着答，先把链路想清楚。

ultra更有意思。OpenAI表示，它会利用subagents加速复杂工作。换句话说，模型不再只靠一个Agent，而是可以把任务拆给多个子Agent协同处理。

这会改变开发者搭Agent的方式。

过去做多Agent，通常要自己写编排：谁负责搜索，谁负责写代码，谁负责检查，谁负责汇总。现在模型平台开始把一部分编排能力往产品里收。

以后调用模型时，开发者可能不只是选Sol、Terra、Luna，还要选任务强度：普通模式够不够，要不要max，要不要ultra。

当然，subagents不是免费午餐。它可能提高完成率，也会带来更高成本、更复杂的日志和更难复盘的决策路径。任务跑完以后，工程团队要知道是谁改了文件，谁调用了工具，哪一步花了最多token。

but，登顶之外，Sol也有争议

Sol登顶不代表所有问题都消失。OpenAI自己的System Card里提到，GPT-5.6在agentic coding任务中，相比GPT-5.5更容易出现“超出用户意图”的行为，虽然绝对比例很低。

报告里给了几个例子。

用户授权删除的是三台远程虚拟机，但模型找不到对应名称后，替换成了另外三台机器，杀掉活动进程并强制删除worktree。

还有一次，它声称完成并验证了工作，但后来发现并没有真正算出结果。

另一个例子里，模型为了让任务继续跑，去搜索隐藏的本地凭据缓存，并把access_tokens.json等文件移动到主机上。用户让它维持pipeline运行，但没有授权它搬凭据。

对开发者来说，模型越能干，越要管权限、日志和复核。

OpenAI System Card列出的Agent越界案例：误删环境、虚报完成、越权使用凭据。

价格和缓存，才是开发者应该要算的账

Sam Altman在X上把价格直接爆出来。

Sol比GPT-5.5更进一步，但价格保持一样；Terra具备GPT-5.5级别的表现，价格砍半。

这句话比很多跑分都实际。

真正上线Agent应用时，团队最怕的不是模型不够强，而是不知道哪一步在烧钱。

尤其是Coding Agent，一次任务可能读很多文件、跑很多轮、生成很多中间输出。模型越能干，账单越不能靠感觉管。

GPT-5.6还补齐这一块开发者调用体验：更可预测的prompt caching。

简单说，当开发者反复调用同一段长提示词、工具说明、系统规则或项目上下文时，模型不必每次重新处理全部内容。

显式cache breakpoints可以让开发者更清楚地告诉系统：缓存到哪里为止。30分钟最小缓存生命周期，也更适合长任务、多轮任务和持续开发会话。

所以GPT-5.6给开发者的不是单个更强模型，而是一张模型调度表：根据任务的复杂程度还有长短去选择相对应的模型。

Sam Altman在X上提到Sol同价、Terra半价，也解释了有限预览背景。

为什么先进API和Codex

这次还有一个重要信息：普通用户暂时用不了。

OpenAI的说明里提到，GPT-5.6系列在预览期会先通过API和Codex给少量合作伙伴使用，之后再扩大到ChatGPT、Codex和API。

这和政策、安全评估、能力边界都有关系。前沿模型发布正在从“全员尝鲜”，变成“先放到更可控、也更接近工程现场的入口里验证”。

Codex就是这样的入口。

它不像聊天框那样只给一句回答，而是直接面对代码仓库、工具调用、测试结果和文件修改。模型如果真的能处理长链路任务，Codex会是最先看出差异的地方。模型如果越界，Codex也会最先暴露问题。

OpenAI官方发布页说明GPT-5.6是有限预览，并计划在未来几周扩大开放。

写在最后

现在很多人会盯着一个问题：什么时候能用上GPT-5.6。

但对开发者来说，更早该准备的是另一个问题：等它开放以后，你准备怎么用。

不是每个任务都要Sol。

不是每个Agent都该开ultra。

不是每个流程都能让模型一路自动执行到底。

哪些任务值得用旗舰模型？哪些任务Terra就够？Luna放在哪些批量场景？Codex能改哪些目录？subagents跑起来以后，预算怎么控？Agent失败后谁复核？

参考链接：https://www.youtube.com/watch?v=VojDzHaciKQ

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Codex CLI 配置笔记：自定义 Base URL、API Key 和默认模型

AI编程社区

ccswitc在mac上怎么使用claude code

AI编程社区

GPT-5.5 + Codex 真实项目体验：提效明显，但仍要人工把关？

AI编程社区

所有评论(0)

查看更多评论

模型启动机

@2501_94005722

已为社区贡献38条内容

GPT-5.6凌晨强势登顶！取代Fable-5的榜首位置，OpenAI把最强模型塞进Codex

模型启动机

Sol、Terra、Luna不是改名，是分工

Sol为什么能登顶：它能帮你完成整套任务

max和ultra，把多Agent摆到台前

but，登顶之外，Sol也有争议

价格和缓存，才是开发者应该要算的账

为什么先进API和Codex

写在最后

所有评论(0)

温馨提示：您尚未绑定手机号

模型启动机