5万亿参数打通四大模态，GPT-6这次不是缝合怪

香蕉AEcru

409人浏览 · 2026-04-13 20:10:46

香蕉AEcru · 2026-04-13 20:10:46 发布

我上周试了一下让 AI 同时"看"一段产品演示视频、"听"里面的讲解、再对照 PDF 说明书写竞品分析。

结果呢？视频理解调一个模型，语音识别调另一个，文字处理又是第三个。三套 API 下来，光是处理数据格式对齐就花了两小时。中间还踩了个坑——视觉模型输出的 JSON 结构跟语言模型期望的格式对不上，排查了半天。

当时就想：这破玩意什么时候能一个模型全搞定？

答案是4月14号。OpenAI 确认 GPT-6——内部代号"Spud"（土豆）——将在那天全球同步发布。

这次不一样：不是"缝合"，是"融合"

之前的多模态模型怎么做的？简单粗暴——一个文本模型当大脑，外挂视觉模块、音频模块、视频模块。就像给一辆汽车硬焊上飞机翅膀和船桨，理论上能跑能飞能游，实际上哪个都不精。

GPT-6 换了个路子。它用了代号"Symphony"的底层架构，把文本、图像、音频、视频全部映射到同一个向量空间里。

什么意思？以前 AI 看到一张猫的图片，得先"翻译"成文字"这是一只猫"，再把文字丢给语言模型处理。现在不用了——图片里的猫和文字里的"猫"在底层就是同一个数学表示，AI 天生就知道它们是同一个东西。

从"翻译官模式"升级到"母语模式"。

跨模态推理终于不靠"传话"了。

以前让 AI “看这个视频，回答音频里提到的问题”，它得先用视觉模型看画面，再用语音模型听声音，然后用语言模型把两者串起来。中间每一步都可能丢信息——就像你让三个人传一句话，传到第三个人耳朵里已经面目全非。

Symphony 架构下，视频画面里的产品外观、音频里的技术参数、文字文档里的规格表——在同一个空间里直接产生关联。不需要中转，不需要翻译，不丢信息。

据 Epsilla 4月5日发布的分析，这种"原生多模态"被行业视为 AGI 路上的关键一跳。因为真正的通用智能，本来就不该有"我只会处理文字"这种限制。

在这里插入图片描述

5到6万亿参数，但每次只用十分之一

GPT-6 的参数规模在5到6万亿之间。听着吓人——但它用的是 MoE 架构（Mixture of Experts，混合专家），每次推理只激活大约10%的参数。

打个比方：你有一个6万人的专家团队，但每次开会只叫相关的6000个人。不用全员到场，效率高，成本也低。

对比一下前几代的数字就更有感觉了：

GPT-4 大约2000亿参数。GPT-5系列参数规模没公开，但多方估计在万亿级。GPT-6 直接干到5-6万亿——活跃参数大约5000到6000亿，跟 GPT-4 全量参数一个量级，但每次推理的"大脑密度"远超前辈。

训练投入超过20亿美元，用了大约10万块 H100 GPU。这个烧钱速度，放眼全球也就 OpenAI 有这个底气——他们刚以8520亿美元估值完成史上最大私募融资，亚马逊一家就投了500亿美元。据 The Information 报道，其中350亿还绑定着 IPO 或 AGI 里程碑的条件。

在这里插入图片描述

200万 Token 上下文

GPT-6 的上下文窗口扩展到200万 Token。

200万 Token 大概是3000页英文文本，翻译成中文差不多是一部《三体》三部曲的体量。把整部小说丢进去，它还记得第一章里那个不起眼的伏笔。

对企业用户来说这意味着什么？你公司的全部产品文档、用户手册、API 文档、历史邮件——一股脑全塞进去，不会"忘"。之前用 RAG 做文档问答，经常因为检索不准答非所问。现在直接全塞上下文里，省了检索环节，准确性上一个台阶。

当然，200万 Token 的推理成本不会便宜。普通用户日常聊天大概率用不到这个上限，但对企业级场景——法律合同审查、代码仓库级重构、跨年份数据分析——这是刚需。

比 GPT-5.4 强40%是什么概念

据多家媒体报道，GPT-6 在主流基准测试上比 GPT-5.4 提升了约40%。

40%听起来不够炸？GPT-5.4 本身已经是当前最顶级模型之一。在这个基础上再提40%，相当于百米跑从9秒58进到8秒以内——到了这个级别，每0.01秒都难如登天。

具体到能力上：编程方面，据泄露的基准测试信息，GPT-6 在 SWE-bench 上的表现大幅领先前代；复杂逻辑链条的错误率显著下降；而多模态协同——看图写代码、听音频做总结、看视频写分析——这些跨模态任务的流畅度提升非常明显。

更关键的细节是，GPT-6 集成了 GPT-5.3-Codex 的编程能力，在电子表格、演示文稿和文档处理上也有明显加强。这不是"什么都能干但什么都一般"的万金油，而是在保持广度的同时往专业深度又挖了一层。

但 GPT-6 不是唯一的主角

4月6号，一个叫 Mythos 的模型匿名发布，直接叫板 GPT-6。还有个 Happy House，在视频生成领域把 Seedance 2.0 的垄断给破了——VideoGen 专业评分96.7分 vs 78.3分，不是小赢，是碾压。

这三件事凑在一起，其实画出两条路：

全能通用派以 GPT-6 为代表，先把基础能力做到极致，什么都能干。代价是某个细分领域可能不如专门优化的模型。

专业垂直派以 Mythos、Claude Opus 4.6 为代表，只在一个领域做到极致。Claude Opus 4.6 聚焦金融、法律、代码，定价是 GPT 系列的两倍，付费用户却翻番了——市场愿意为"专业"买单。Seedance 2.0 聚焦视频生成，单月营收超3亿，企业 API 最低消费1000万一年，照样排队。

所以呢？短期看，垂直模型在特定领域确实更香。但长期看，当通用模型的基础能力足够强，"专业优势"会被逐步侵蚀。就像 iPhone 的相机不一定比单反好，但90%的场景已经够用了。

GPT-6 最大的杀手锏不是5万亿参数，是 Symphony 架构——四种模态底层打通，意味着它可以同时看、听、读、写，而且这些能力之间不再是各自为战，而是会互相增强。

“AGI最后一公里”？先别开香槟

OpenAI 内部把 GPT-6 定位为"AGI 的最后一公里"。OpenAI 总裁 Greg Brockman 最近公开说：“我觉得我们已经到70-80%了，非常接近了。还有一两年就能实现 AGI。”

我持保留意见。

“最后一公里"这个说法在 AI 圈已经被用了至少三年。每次新一代模型出来，都有人说"AGI 快了”。但 AGI 的定义本身就模糊——如果标准是"能在大多数认知任务上达到人类水平"，GPT-6 确实迈了一大步。但如果标准是"真正理解世界而不只是模式匹配"，那我们离终点可能比 OpenAI 愿意承认的更远。

OpenAI CEO Sam Altman 2月份在印度 AI 峰会上说 OpenAI “基本上已经构建了 AGI”。CFO Sarah Friar 却公开表示公司还没达到上市所需的合规和治理透明度标准。内部口径都不统一，AGI 就先别急着宣布了。

有一件事倒是确定的：Symphony 架构解决了多模态 AI 最根本的问题——不同感官之间的"语言障碍"。这是正确方向上的一大步。至于 AGI 到底什么时候来，我赌2028年之前没人敢真正宣布"我们做到了"——不是因为技术不够，是因为没人敢下这个定义。

4月14号 GPT-6 就发布，到时候自己去试。你觉得 Symphony 的四模态底层融合是真突破还是噱头？评论区扣1（真货）扣2（噱头），我押1。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

打通OpenClaw与Claude Code会话链路，实现AI全自动编码落地

这套双AI智能体协同方案，完美解决当前AI编码工具半自动、会话中断、上下文丢失三大落地痛点，中小型研发团队可直接上线承接日常后端、前端全品类开发需求，把重复性编码、任务跟进、工单提报工作全部托管给AI集群。在官方原生多Agent调度能力完善之前，该方案是兼容性、稳定性、落地成本最优的无人AI开发实施方案。

AI编程社区

Fable 5代理编码的瓶颈转移地图领土与四类未知的系统拆解

2026年，用Claude Fable 5做长周期代理编码的人越来越多。模型本身已经强大到能持续工作数小时而不迷失方向，但实际项目里，很多人还是会遇到同一个问题：任务做到一半突然偏离预期、实现方式次优、或者后期发现关键约束根本没被考虑。问题往往不在模型“不够聪明”，而在我们给它的和真实之间存在巨大落差。地图是你提供的prompt、技能描述和上下文。领土是真实的代码库、业务约束、历史实现和边缘情况。

AI编程社区

用 Ace Data Cloud 快速接入 OpenAI Chat Completion API：对话、流式输出、多轮上下文一次搞定

# 用 Ace Data Cloud 快速接入 OpenAI Chat Completion API：对话、流式输出、多轮上下文一次搞定想把 ChatGPT 能力接入自己的产品，但又不想在账号、额度、模型切换、接口调试和多语言对接上反复折腾？如果你正在开发智能客服、内容生成、代码助手、知识库问答、数据分析助手，或者任何需要大模型对话能力的应用，**Ace Data Cloud 的 OpenAI