从模型到可执行Agent的技术跃升与定价逻辑

「 GPT-5.6的Agent化升级,是技术演进的必然方向,还是市场竞争倒逼的产物? 」

6月23日,OpenAI要发新旗舰模型了,代号iris-alpha,对外叫GPT-5.6。这消息最早是开发者在Codex后台日志里扒出来的,后来有人用探针测试,确认了几个关键参数:上下文窗口从100万tokens扩到150万,自主执行能力大幅强化,还加了原生多模态UI生成。

定价方面也有意思。多方消息显示,新模型的token价格可能只有Claude Fable 5的三分之一左右。这个定价时机很微妙——Anthropic刚在5月完成H轮融资,估值9650亿美元,头一回反超OpenAI的8520亿。用低价抢开发者市场的意图很明显,同时靠自主执行能力做差异化。

这篇拆的是技术架构层面的东西:自主执行升级、上下文扩展、定价逻辑。不构成任何产品推荐或使用建议。性能数据均来自公开信息汇总,实际表现以官方发布后的独立测试为准。

01  从模型到可执行Agent核心跃升在哪

150万上下文窗口与Agent化能力的技术含义

这次升级我关注两个点:上下文窗口和自主执行能力。窗口从100万tokens扩到约150万,增幅大概43%。数字看着不大,但实际意义在于——模型能处理更长周期的编码任务和更复杂的推理链路了。


◆  自主执行意味着模型从被动回答转向主动完成多步任务

150万tokens是什么概念?一本《三体》约30万字,折合40万tokens左右。150万tokens相当于近四本《三体》的文本量。编程场景下,这意味着模型能同时吃下一个大型项目的多个源文件、依赖库文档和测试用例,不用反复截断拼接上下文。

但窗口扩展不是简单加内存。长上下文模型有个核心难题:注意力衰减。模型处理超长文本时,对中间部分信息的关注度会下降,出现"中间遗忘"。我判断,GPT-5.6能不能在150万tokens范围内保持稳定的检索精度,才是衡量这次升级价值的关键。目前公开测试信息显示,实测输入90万token时模型仍能流畅响应,但150万上限的完整表现还没验证。

窗口扩展的价值,取决于模型在超长范围内能否保持稳定的检索精度,而非单纯的数字增长。

自主执行能力是另一个核心升级方向。传统大模型的工作模式是"输入问题、输出回答",新一代模型能自主拆解任务、调用工具、执行多步操作。新模型在编程工作流上的提升,意味着它可以更独立地完成"理解需求、编写代码、运行测试、修复Bug、提交代码"这一完整链路。

自主执行对模型能力的要求远高于传统问答。模型得具备长程规划能力(把复杂目标拆成可执行步骤)、工具调用能力(正确使用API和命令行等外部工具)、状态管理能力(在多步操作中保持上下文一致性)和自我纠错能力(识别错误并调整策略)。这些维度上的具体表现,得等官方发布后的系统性评测。
 

原生多模态UI生成是泄露信息里提到的另一个能力。模型能在零指令条件下生成简洁风格的UI界面。这里的关键是——模型不仅理解代码逻辑,还能把交互设计意图直接转化为可视化界面。SVG生成能力据称已超过Claude Fable 5,但这个对比结论来自非官方测试,参考价值有限。

上述能力信息主要来自Codex日志泄露和开发者探针测试,并非官方确认。模型正式发布后,实际能力可能与泄露信息有差异。泄露信息提供了有价值的参考线索,但不宜作为最终判断依据。

02  三分之一定价价格策略与技术成本

token定价对比与低价策略的底层逻辑

定价是这次最受关注的市场策略。目前Claude Fable 5和Mythos 5的官方定价为:每百万输入token 10美元,每百万输出token 50美元。这个价格是Opus 4.8的两倍,在主流大模型里属于较高水平。

多方消息显示,新模型的token定价可能只有Claude Fable 5的三分之一左右。如果属实,输入价格可能在3美元上下,输出价格可能在15美元上下。这延续了当前token价格约为Anthropic一半的优势,并进一步拉大了差距。

能搞低价策略,背后是规模效应和资本支撑的双重作用。今年OpenAI启动了IPO,估值8520亿美元。Anthropic估值虽然反超,但OpenAI在用户规模和API调用量上仍占优势。大规模推理带来的边际成本下降,给低价留了空间。另外,自研推理芯片的进展也可能在降低硬件成本方面发挥了作用。

低价策略的可持续性,取决于推理成本的下降速度能否匹配定价的降幅。

对开发者来说,定价差异直接影响应用的成本结构。拿一个日均处理100万token的RAG应用算笔账:用Claude Fable 5,月成本约300美元输入加1500美元输出,合计1800美元。如果新模型定价为三分之一,月成本能降到约600美元。这种成本差异对初创团队和独立开发者有实质性影响。

但价格不是选型的唯一考量。模型的能力边界、安全对齐水平、API稳定性、生态工具链成熟度,都是开发者要综合考量的维度。低价能不能转化为市场份额,取决于新模型在性能上是否撑得住开发者的核心需求。如果在复杂推理、代码生成等关键任务上表现不如竞品,低价反而可能被开发者视为"便宜没好货"的信号。

行业角度看,大模型API定价持续下降是个结构性趋势。2024年GPT-4 Turbo输入价格10美元/百万token,2025年GPT-5降到5美元,2026年可能进一步降到3美元上下。两年降幅约70%。驱动力包括:模型架构优化降低推理计算量、硬件性能提升降低单位成本、市场竞争迫使厂商让利。对开发者而言,这意味着AI应用的商业可行性在持续提升。

03  性能争议与三巨头路线分歧

信息可靠性分析与路线对比

新模型的性能表现目前有争议。从泄露数据看,其表现似乎已优于Anthropic的Mythos系列,SVG生成能力超过Claude Fable 5。但这些信息来源主要是泄露数据和开发者测试,缺乏第三方独立验证。模型正式发布前,任何性能对比结论都应谨慎对待。

◆  三家在同一窗口期密集发布,技术路线分歧日益明显

GPT-5.5版本中存在的部分对齐问题从泄露信息看已在新版本中得到了修复。对齐问题指模型输出与人类意图不一致的情况,比如生成有害内容、偏离指令要求等。对齐问题的修复对自主执行场景尤为重要——当模型自主执行多步任务时,对齐失误的后果会被放大。一个未对齐的执行体可能在执行任务时产生连锁错误,导致难以追溯的副作用。

信息来源可靠性方面,技术信息主要通过三个渠道流出:一是Codex后台日志中的模型代号和参数;二是开发者通过探针测试发现的上下文窗口数据;三是Polymarket预测市场上新模型在6月30日前发布的概率飙升至85%以上。三个渠道的信息指向一致,但都缺乏官方背书。

泄露信息提供了有价值的参考线索,但技术评估应以官方发布后的独立测试为准。

同期,Anthropic的Claude Fable 5/Mythos 5和Google的Gemini 3.5 Pro也在同一窗口期发布或测试。三家的技术路线分歧很明显:OpenAI押注自主执行和低价规模化,Anthropic强调安全对齐和高定价策略,Google继续推进多模态和搜索整合。

路线分歧背后,是三家公司对AI商业化路径的不同判断。OpenAI认为自主执行是下一个增长点,靠低价吸引开发者构建应用生态;Anthropic认为安全性和模型质量是核心壁垒,高定价筛选高质量客户;Google则试图把AI能力整合到现有产品矩阵中,通过搜索、办公等场景实现商业化。

对行业格局而言,新模型的发布将加剧三家之间的竞争。Anthropic估值反超带来的资本压力,可能促使OpenAI在定价和技术路线上采取更积极的策略。这种竞争对开发者意味着更多选择和更低成本,但也增加了技术选型的不确定性——当三家路线分化时,开发者押注任何一方都面临路线被淘汰的风险。

技术演进角度看,自主执行可能是大模型发展的一个关键节点。如果新模型的自主执行能力达到实用水平,意味着AI从"工具"向"助手"的转变加速。开发者要关注的不仅是模型的单次推理能力,更是其在多步任务中的规划、执行和纠错能力。这一转变对应用架构、测试方法和安全机制都提出了新要求。

本文是对GPT-5.6相关公开信息的技术分析,不构成任何产品推荐、使用建议或商业评价。模型实际能力以官方发布后的独立测试为准。读者如需选用大模型服务,应结合自身场景做独立评估。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐