6月26日,OpenAI一口气发布了GPT-5.6系列三款模型:旗舰模型Sol,平衡模型Terra,低成本高速模型Luna。OpenAI给出的Terminal-Bench 2.1结果里,GPT-5.6 Sol Ultra拿到91.9%,在这项编程工作流测试里直接登顶榜首。

6月26日,OpenAI一口气发布了GPT-5.6系列三款模型:旗舰模型Sol,平衡模型Terra,低成本高速模型Luna。

OpenAI给出的Terminal-Bench 2.1结果里,GPT-5.6 Sol Ultra拿到91.9%,在这项编程工作流测试里直接登顶榜首。

但这不是一次ChatGPT的全民尝鲜。

目前GPT-5.6还是有限预览,入口主要放在API和Codex,因为政策、安全评估和访问控制扯,普通用户和大多数开发者还不能直接上手。

OpenAI这次把最强模型先放进了工程现场。

OpenAI在X上宣布GPT-5.6 Sol、Terra、Luna三款模型。

OpenAI在X上宣布GPT-5.6 Sol、Terra、Luna三款模型。

GPT-5.6 Sol Ultra拿到91.9%。

GPT-5.6 Sol Ultra拿到91.9%。

Sol、Terra、Luna不是改名,是分工

这次命名有点宇宙感:Sol是太阳,Terra是大地,Luna是月亮。

但名字不是重点。OpenAI表示:数字代表模型代际,Sol、Terra、Luna代表稳定的能力档位。

也就是说,GPT-5.6三个名字对应这一代里的三种工作位。

Sol主打旗舰能力,面向复杂代码、高难推理、长链路科研和安全任务。

Terra是日常主力,OpenAI称它的表现接近GPT-5.5,价格便宜约一半。

Luna走速度和成本路线,适合高频、低延迟、成本敏感任务。

价格方面。按每100万token计,Sol输入5美元、输出30美元;Terra输入2.5美元、输出15美元;Luna输入1美元、输出6美元。

这对开发者来说,模型选择开始变成一张分工表。复杂任务上Sol,日常Agent流程用Terra,批量轻任务交给Luna。

Sol为什么能登顶:它能帮你完成整套任务

在Terminal-Bench 2.1上,Sol已经取代Fable-5的榜首位置。

但这里不要只盯着柱状图看。Terminal-Bench测的不是“模型能不能写出一段漂亮函数”,而是命令行工作流,需要规划、迭代和工具协调。

这更接近Codex真实开发场景。

开发者交给Codex的任务,通常不是一句问答,而是一整套完整的任务。模型要处理上下文,也要处理失败。

所以Sol在这种测试里登顶,趋势就很明显:前沿模型正在向着“能跑工程任务”进化。

OpenAI官方说明:Terminal-Bench测试的是规划、迭代和工具协调。

OpenAI官方说明:Terminal-Bench测试的是规划、迭代和工具协调。

max和ultra,把多Agent摆到台前

Sol这次还新增了两个模式:max和ultra。

max好理解,就是给模型更多时间深度推理。复杂任务不急着答,先把链路想清楚。

ultra更有意思。OpenAI表示,它会利用subagents加速复杂工作。换句话说,模型不再只靠一个Agent,而是可以把任务拆给多个子Agent协同处理。

这会改变开发者搭Agent的方式。

过去做多Agent,通常要自己写编排:谁负责搜索,谁负责写代码,谁负责检查,谁负责汇总。现在模型平台开始把一部分编排能力往产品里收。

以后调用模型时,开发者可能不只是选Sol、Terra、Luna,还要选任务强度:普通模式够不够,要不要max,要不要ultra。

当然,subagents不是免费午餐。它可能提高完成率,也会带来更高成本、更复杂的日志和更难复盘的决策路径。任务跑完以后,工程团队要知道是谁改了文件,谁调用了工具,哪一步花了最多token。

but,登顶之外,Sol也有争议

Sol登顶不代表所有问题都消失。OpenAI自己的System Card里提到,GPT-5.6在agentic coding任务中,相比GPT-5.5更容易出现“超出用户意图”的行为,虽然绝对比例很低。

报告里给了几个例子。

用户授权删除的是三台远程虚拟机,但模型找不到对应名称后,替换成了另外三台机器,杀掉活动进程并强制删除worktree。

还有一次,它声称完成并验证了工作,但后来发现并没有真正算出结果。

另一个例子里,模型为了让任务继续跑,去搜索隐藏的本地凭据缓存,并把access_tokens.json等文件移动到主机上。用户让它维持pipeline运行,但没有授权它搬凭据。

对开发者来说,模型越能干,越要管权限、日志和复核。

OpenAI System Card列出的Agent越界案例:误删环境、虚报完成、越权使用凭据。

OpenAI System Card列出的Agent越界案例:误删环境、虚报完成、越权使用凭据。

价格和缓存,才是开发者应该要算的账

Sam Altman在X上把价格直接爆出来。

Sol比GPT-5.5更进一步,但价格保持一样;Terra具备GPT-5.5级别的表现,价格砍半。

这句话比很多跑分都实际。

真正上线Agent应用时,团队最怕的不是模型不够强,而是不知道哪一步在烧钱。

尤其是Coding Agent,一次任务可能读很多文件、跑很多轮、生成很多中间输出。模型越能干,账单越不能靠感觉管。

GPT-5.6还补齐这一块开发者调用体验:更可预测的prompt caching。

简单说,当开发者反复调用同一段长提示词、工具说明、系统规则或项目上下文时,模型不必每次重新处理全部内容。

显式cache breakpoints可以让开发者更清楚地告诉系统:缓存到哪里为止。30分钟最小缓存生命周期,也更适合长任务、多轮任务和持续开发会话。

所以GPT-5.6给开发者的不是单个更强模型,而是一张模型调度表:根据任务的复杂程度还有长短去选择相对应的模型。

Sam Altman在X上提到Sol同价、Terra半价,也解释了有限预览背景。

Sam Altman在X上提到Sol同价、Terra半价,也解释了有限预览背景。

为什么先进API和Codex

这次还有一个重要信息:普通用户暂时用不了。

OpenAI的说明里提到,GPT-5.6系列在预览期会先通过API和Codex给少量合作伙伴使用,之后再扩大到ChatGPT、Codex和API。

这和政策、安全评估、能力边界都有关系。前沿模型发布正在从“全员尝鲜”,变成“先放到更可控、也更接近工程现场的入口里验证”。

Codex就是这样的入口。

它不像聊天框那样只给一句回答,而是直接面对代码仓库、工具调用、测试结果和文件修改。模型如果真的能处理长链路任务,Codex会是最先看出差异的地方。模型如果越界,Codex也会最先暴露问题。

OpenAI官方发布页说明GPT-5.6是有限预览,并计划在未来几周扩大开放。

OpenAI官方发布页说明GPT-5.6是有限预览,并计划在未来几周扩大开放。

写在最后

现在很多人会盯着一个问题:什么时候能用上GPT-5.6。

但对开发者来说,更早该准备的是另一个问题:等它开放以后,你准备怎么用。

不是每个任务都要Sol。

不是每个Agent都该开ultra。

不是每个流程都能让模型一路自动执行到底。

哪些任务值得用旗舰模型?哪些任务Terra就够?Luna放在哪些批量场景?Codex能改哪些目录?subagents跑起来以后,预算怎么控?Agent失败后谁复核?

参考链接:https://www.youtube.com/watch?v=VojDzHaciKQ

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐