OpenAI 首席科学家最新采访:为何思维链不能公开、首位 AI 实习生将到来、通用 harness

来源:AGI Hunt
Jakub Pachocki 是 OpenAI 现任首席科学家,GPT-4、o1、o3 系列模型的主要设计者之一,也是历史上最年轻的 IOI(国际信息学奥林匹克)金牌得主之一。

他很少公开接受采访,但这一次,他在 Redpoint AI 的播客上坐下来,聊了将近一个小时。
话题包括 AGI 时间线、OpenAI 内部如何跑实验、为什么故意把 chain of thought 藏起来、以及他对 AI 改变科学研究的真实判断。

节目叫「Unsupervised Learning」,主持人 Jacob Effron 是 Redpoint Ventures 的管理合伙人,聊的是他「最想问的那些问题」。

OpenAI Newsroom 转发了该采访,配文称:「算力驱动 AI 的每一层,而 @merettm 正在谈论构建自动化 AI 研究员的进展。」
下面是整场对话里,核心的内容整理。
01
2026 年 9 月
四个月前,Jakub 和 OpenAI 团队公开说过一个时间表:
• 今年 9 月:达到「研究实习生级别」的 AI 系统
• 2028 年 3 月:实现完全自动化的 AI 研究员
这次他接受采访,第一个问题就是:四个月过去了,还在轨道上吗?
“ 「我们在 OpenAI 内部,现在已经用 Codex 完成了大部分实际编程。编程这件事,对大多数人来说,已经发生了相当大的变化。我把这视为一个信号,说明某些东西是在轨道上的。」
另一个让他觉得「进展超预期」的领域,是数学和物理。
他说,过去那套靠数学比赛来衡量模型能力的方法,已经快要不够用了。模型已经解决了 IMO 第 6 题,进入了「研究级数学」的领域。他们正在把注意力移向「模型在真实世界里有多有用」这个维度。
“ 「我们相信,模型现在的能力已经足够,虽然不是在每个方面都比人聪明,但已经足以实质性地改变经济运转方式。我们对此感到非常紧迫。」
02
什么叫「实习生」
Jacob 追问:你怎么知道自己到达了那个门槛?
Jakub 的区分方式,倒是很简单明确。
他说,「研究实习生」和「完全自动化研究员」的区别,在于任务的时间跨度和具体程度。
不要指望今年的系统能接受「去提升你的模型能力」或者「去解决对齐问题」这种指令,然后自己去干。这今年还做不到。
但如果任务足够具体,比如「我有一个改进模型的特定想法,帮我跑这个实验,把这个评估用不同的方式跑一遍」,他认为现在已经有了大部分需要的组件。
“ 「我认为我们主要需要的,只是把这些组件拼在一起。」
Karpathy 那篇用这些模型改进自己「小得多的模型」的文章,他觉得是对这类工具未来样子的一个预演。
03
数学是北极星
OpenAI 为什么一直盯着数学比赛跑?
这不是因为数学本身有多重要,而是因为数学是验证「模型有没有真的变聪明」的最好工具。
可以验证(对就是对,错就是错),可以无限变难,还能告诉你模型在「推理」这件事上到底进步了多少。
他说,这条路线引出了 reasoning 模型的整套方法论。现在,这个「北极星」本身快到顶了。
数学没有变得没用,团队的注意力开始移向更实际的问题:模型在真实科研、真实经济活动里到底能做多少事。
有个特别的细节是,他提到了一个叫「first proofs」的挑战,是几位受尊敬的数学家/理论计算机科学家发布的一批未曾发表的研究级问题,给模型来解。
这个挑战发布时没有提前通知,只有一周时间。
OpenAI 当时手上正好有一个训练中的模型,一位叫 James Lee 的工程师直接开始手动提示那个模型,然后发现它真的在解那些题。
Jakub 说,其中一道题来自他自己博士研究的领域。
“ 「看到模型想出了我可能需要一两周才能想到的那些思路,而它用了大概一个小时,那是一种很奇怪的感受。就像以前看我们的 Dota 机器人用非常有趣的方式下棋,感觉有什么魔法在发生……那类东西不应该是无穷尽的。」
「而现在,这件事发生在了数学上。发生在了我认为真正具有代表性的领域上。这大大增加了我的紧迫感。」
04
RL 的下一站
代码和数学,是 RL 最好发挥的地方,因为验证答案很容易。
但医疗、法律、金融呢?
Jakub 的看法:他相当乐观,但承认这是「下一个真正的前沿」。
问题的本质,他认为和「长时间任务」高度重合。想想看,一个数学题如果要研究一年,那第一天做什么,本来就是一个开放性问题。所以「难以验证」和「长时间跨度」这两个难点,其实是同一件事。
“ 「我们在这些更通用的领域扩展 RL,已经看到非常鼓舞人心的迹象。」
对于那些问「我们应不应该自己做 RL」的公司,他的建议:RL 确实是一种数据效率很高的方式让模型专注于某个任务。但还有一种更数据高效的方式,那就是上下文学习(in-context learning)。只要把你的例子、你的指令放进去,模型就能学。
他的直觉是:与其复制目前 OpenAI 的 RL 流程,不如先把精力放在搞清楚什么 eval 是对的、积累什么数据,未来直接喂进模型上下文,效果可能更好。
05
通用 harness
关于「要不要自己搭 harness」,他也给了个明确的判断。
“ 「harness 的实现,在很长一段时间内都不应该成为限制。我们会有更通用的 harness,可以被用于各种各样的领域。Codex 其实如果你拿去用在编程以外的地方,效果还不错。」
他描述的未来图景是:AI 应该主动来到你所在的地方,而不是让你去迁就它的限制。
比如,AI 应该出现在 Slack 里,接入你的上下文,能够学习、能够执行。不是说有这个功能是因为它能做,而是说没有这个功能就表示它存在局限。
“ 「长期来看,AI 应该默认出现在你所在的地方。如果没有,那只应该是因为它有了新的能力,而不是因为它有局限。」
06
推理链的秘密
这是整场对话里,最有深度的部分之一。
OpenAI 在发布早期 reasoning 模型时,做了一个决定:不向用户展示 chain of thought(推理链)。
这个决定有争议,也有很多人不理解。
Jakub 解释了他当时的主要动机。
核心逻辑是这样的:这类 reasoning 模型的推理过程,在训练时没有被直接监督(不像 ChatGPT 那样被训练成「礼貌、友好」)。训练信号只作用于最终输出,而不作用于中间推理。
这就意味着,推理链是模型在没有「表演压力」下真实运行的地方。
“ 「这其实是一种非常强大的范式,可以用来解读模型在做什么。这和机制可解释性(mechanistic interpretability)的想法并不太不同,后者是分析那些没有被直接监督的模型激活值……但推理链的优势在于,它默认是用英文写的,所以理解起来容易得多。」
他说,如果 OpenAI 在产品里展示 chain of thought,最终就不可避免地会用它来做训练。而一旦这样做,chain of thought 就会开始被「优化」,就会开始变成另一种表演,而不是模型真实的内部运行。
“ 「如果你想长期理解模型的行为,但你在扩展的方法却在直接对抗这个目标,那你大概不会有什么好结果。」
他把让模型拥有「私人空间」这件事,视为维持长期可监控性的关键设计。
目前的过渡方案是「推理链摘要」,但他认为长期解决方案是让模型实时和你对话,而不是展示原始推理链。
最新版本的 Codex 和推理型 GPT 模型,已经在往这个方向走了。
07
跑几天都没问题
多久以后,我们会看到模型可以自主工作几天?
“ 「我认为,模型能够自主工作几天的那个阶段,并不太远。也许需要用到比现在更多的算力,然后能自主产出质量更高的成果。」
至于是否需要工程师背景才能有效监督这些运行几天的 agent:他觉得对于很多输出,你现在就已经不需要太多专业经验了。但如果你想构建更大的东西,你仍然需要「整体设计感」,需要能判断哪些模块合适、哪些不合适。
“ 「我确实预计这种技能需求会发生相当大的转变。」
方向是:向「设定方向、把控全局」的那种能力。
08
model scheming 研究
Jakub 提到了一项他认为「非常令人兴奋」的跨实验室合作研究:
Model scheming,即:在不同训练环境下,模型是否会发展出隐藏目标并开始「假装」对齐?
而值得注意的是,这项研究是 OpenAI、Anthropic 和 DeepMind 合作完成的。
他们发现,chain of thought monitoring 正是这类研究得以进行的关键工具,因为它让研究者真正能够检查模型的动机。
“ 「这种能力对于研究长期对齐很有帮助。它可能会把我们带向完全不同的缓解方向,比如修改预训练数据,或者采用接种提示(inoculation prompting)这类想法。能够理解,对于评估这些方法非常有帮助。」
09
对齐的真正难题
Jakub 认为,对齐问题的长期挑战,本质上是一个泛化问题。
在分布内的场景,他们大体上能控制模型行为。真正令人担忧的,是模型遇到训练时从未见过的情况时会怎样,比如面对一个完全不同的处境,或者变得比以往任何时候都聪明得多。
“ 「值得泛化的价值观是什么?当模型陷入非常不同的处境时,它会退回到哪些价值观?对我来说,这是一条让我相当兴奋的研究线索。」
他说,过去几年他对对齐问题的看法,从「这是一个模糊的、难以界定的问题」,演变成了「我们可以通过非常具体的技术方案来取得进展」。
他的整体判断是:乐观。
他相信存在一条技术路径能把我们带到一个「极其美好的世界」。但他同样清楚,能力时间线在压缩,准备时间不多。
“ 「我们必须做好准备,必要时接受权衡,甚至根据我们所看到的,放慢发展速度。」
10
AI 为科学
Jakub 对于 AI 驱动科学研究的判断,分几个层面。
关于架构的问题:他认为,LLM 加持物理世界和特定领域专用架构(比如蛋白质折叠用不同模型)并不矛盾。两条路可以并行。
“ 「我不认为大型语言模型是训练出最优蛋白质折叠模型的最高效方式,尽管它们最终也许会产出最好的模型。」
至于哪些科学领域会最快被 AI 改变:他没有给出具体答案,但他认为关键在于「模型能不能接入现有的生态系统」。
那些实验室能够快速改造自身、接纳这些新工具的领域,会跑得更快。
他描述的图景,不是一个「全自动 AI 科学家」独自跑通一切,而是:
“ 「一个非常自然地与 AI 科学家合作的世界,这些 AI 科学家正在努力解决一个问题。」
AI 驱动设计和创意,人类在回路中。
11
财富的归宿
快问快答环节,Jakub 被问到:作为一个社会,我们在哪些事上想得还不够?
他说的是「财富集中」。
“ 「大量脑力工作可以被自动化这件事,带来了一些我认为没有明显解决方案的大问题。其中一个是工作和财富集中的问题,我猜这需要政策制定者的参与。」
他还说了另一件事,让人更警觉一些:
“ 「如果你真的有一个自动化研究实验室,一个可以做很多事情的自动化公司,它可能会被非常少数的人控制……这些组织如此强大,却可能只由几个人组成。如何思考对这类组织的治理,是我们作为社会必须面对的新问题。」
机器人部分,他也提了一句:时间线比虚拟 AI 要长,但算法上已经有非常有希望的思路了。
12
OpenAI 的几个阶段
他回顾了 OpenAI 的演变:
2017 年:学术实验室,追求各种想法,还不太相信 scaling。
GPT 时代:转向,买大计算机,开始做 scaling science 和基础设施。
ChatGPT 时刻:他坦言当时预计会是视频/生成式 AI 先爆发,没想到是文本对话先跑出来。但这个张力,他们其实预见到了:你有一个当下很火的产品,但你相信它会演变很多。
现在:他们认为,已经开始进入「部署 AGI」的阶段。不是「在所有方面都比人聪明」那种 AGI,而是足以「实质性改变经济运转方式」的那种。
关于 Codex 和 Anthropic 的 Claude Code 的竞争,他也说了真话:在 OpenAI 内部,编程工具一直是「次要优先级」,主要精力放在「未来那件事」上。这就给了专注于此的 Anthropic 一个先手。
“ 「我对我们在研究和模型智能侧正在构建的东西,非常有信心。我们现在对产品侧加大投入,是因为我们相信:现在这些东西真正重要了。」
13
结尾
采访的最后,他说的是这个:
“ 「我们刚才谈到的那些问题,关于对齐、可监控性,我认为它们正在变得非常紧迫。而且这些问题不只是 AI 研究员的问题,是政策制定者的问题,也是我们所有人需要思考的问题。我很高兴看到一些讨论开始出现,但我们需要更多。」
58 分钟的对话,Jakub 全程干货输出。
2026 年 9 月,「实习生」正在到来。
2028 年 3 月,「研究员」即将问世。
那些我们以为是十年后的问题,终于已经,快到门口了!
◇ ◆ ◇
🎬 YouTube 完整视频:https://youtu.be/vK1qEF3a3WM
🎙️ 播客:Unsupervised Learning by Redpoint AI (@RedpointAI)
🐦 Jacob Effron:https://x.com/jacobeffron/status/2042234897134162077
阅读最新前沿科技趋势报告,请访问21世纪关键技术研究院的“未来知识库”

未来知识库是“21世纪关键技术研究院”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。
截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告
(加入未来知识库,全部资料免费阅读和下载)
-
牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》
-
麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力
-
AAAI 2025 关于人工智能研究未来研究报告
-
斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)
-
壳牌:2025 能源安全远景报告:能源与人工智能(57 页)
-
盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)
-
Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)
-
IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)
-
DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt
-
联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)
-
TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)
-
NAVEX Global:2024 年十大风险与合规趋势报告(42 页)
-
《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页
-
2025 - 2035 年人形机器人发展趋势报告 53 页
-
Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)
-
【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 ppt
-
Tracxn:2025 全球飞行汽车行业市场研究报告(45 页)
-
谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)
-
【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习
-
《基于传感器的机器学习车辆分类》最新 170 页
-
美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)
-
罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)
-
兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)
-
康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)
-
国际能源署:2025 迈向核能新时代
-
麦肯锡:人工智能现状,组织如何重塑自身以获取价值
-
威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)
-
牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)
-
国际能源署(IEA):能效 2024 研究报告(127 页)
-
Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)
-
CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)
-
世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告
-
迈向推理时代:大型语言模型的长链推理研究综述
-
波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)
-
安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)
-
IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)
-
IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)
-
CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)
-
《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页
-
《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》
-
全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)
-
美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)
-
艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)
-
NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)
-
IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)
-
AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)
-
2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)
-
华为:2025 鸿蒙生态应用开发白皮书(133 页
-
《超级智能战略研究报告》
-
中美技术差距分析报告 2025
-
欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)
-
美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)
-
罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)
-
兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)
-
GTI:2024 先进感知技术白皮书(36 页)
-
AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)
-
安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告
-
威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)
-
兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)
-
哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)
-
德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)
-
奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)
-
HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)
-
Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)
-
《无人机辅助的天空地一体化网络:学习算法技术综述》
-
谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)
-
《新兴技术与风险分析:太空领域与关键基础设施》最新报告
-
150 页!《DeepSeek 大模型生态报告》
-
军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)
-
真格基金:2024 美国独角兽观察报告(56 页)
-
璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)
-
国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)
-
RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)
-
国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)
-
RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)
-
未来今日研究所 2025 年科技趋势报告第 18 版 1000 页
-
模拟真实世界:多模态生成模型的统一综述
-
中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)
-
浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)
-
人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)
-
大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)
-
北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)
-
欧盟委员会 人工智能与未来工作研究报告
-
加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用
-
电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)
-
RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)
-
FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)
-
Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)
-
【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt
-
《21 世纪美国的主导地位:核聚变》最新报告
-
沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)
-
斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)
-
国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)
-
光子盒:2025 全球量子计算产业发展展望报告(184 页)
-
奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)
-
Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)
-
《人类与人工智能协作的科学与艺术》284 页博士论文
-
《论多智能体决策的复杂性:从博弈学习到部分监控》115 页
-
《2025 年技术展望》56 页 slides
-
大语言模型在多智能体自动驾驶系统中的应用:近期进展综述
-
【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用
-
皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)
-
空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)
-
Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)
-
北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)
-
北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)
-
CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)
-
中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)
-
AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)
上下滑动查看更多
更多推荐


所有评论(0)