调查研究-214 OpenAI：Agent 不是更聪明的聊天框，而是新的工作组织方式

武子康

152人浏览 · 2026-07-04 22:00:41

武子康 · 2026-07-04 22:00:41 发布

Agent 不是更聪明的聊天框，而是新的工作组织方式

读 OpenAI Economic Research《How agents are transforming work》和论文《The Shift to Agentic AI: Evidence from Codex》

Agent 不是聊天框：戴眼镜黄色卫衣女孩坐在木桌前用 MacBook 工作，旁边机器人助手举着清单板，下方三张卡片——问答 / 委托 / 复用

TL;DR

OpenAI 在 2026 年 6 月 25 日发布的文章和论文，真正值得关注的不是"Codex 用户增长很快"，而是它给出了一个更底层的变化：AI 的使用单位正在从"对话"迁移到"任务"。

聊天式 AI 解决的是回答、解释、润色、生成片段。Agentic AI 解决的是委托：理解代码库、操作文件、运行命令、调用工具、产出 artifact，并在人的监督下迭代到可交付状态。这个变化会影响工程团队、非技术岗位、组织流程和 SaaS 产品形态。

我的判断是：Agent 的长期价值不在于单次回答更聪明，而在于把隐性的工作流程变成可委托、可并行、可验证、可复用的系统。

1. 这项研究研究的不是效率口号，而是真实工作流

OpenAI 的公开文章《How agents are transforming work》发布于 2026 年 6 月 25 日，同日相关论文《The Shift to Agentic AI: Evidence from Codex》出现在 arXiv。论文作者来自 OpenAI、Columbia Business School、Wharton 和 Duke Fuqua。

它没有停留在"AI 会不会提高生产力"这种抽象问题上，而是研究 Codex 的真实使用数据：谁在用、用来做什么、任务是不是变复杂了、是否出现并行 Agent、是否开始复用 skills、Codex 是否替代原来的 ChatGPT 工作入口。

论文说明，研究使用自动化、隐私保护的数据处理管线，通过分类器对任务类型、复杂度和使用方式做聚合分析，研究者并不直接阅读用户原始消息。这一点很关键，因为它比产品演示和主观体验更接近真实工作流。

可以把这篇研究压缩成一句话：

Codex 正在从"程序员写代码的工具"，变成一种可委托工作的基础设施。

2. 核心变化：AI 使用单位从"消息"变成"任务"

从对话到任务：左侧"消息"框（用户头像 + AI 头像两个对话气泡）→ 中央黄色大箭头 → 右侧"任务"框（四步流程：读上下文 / 改文件 / 跑测试 / 交付物 artifact + 长时运行 + 产出物）

ChatGPT 时代，我们很习惯用消息数量、对话轮次、活跃用户和 token 消耗来理解 AI 使用。但 Agent 时代，这些指标会变得不够用。

原因很简单：一次 Agent 请求可能不是一句问答，而是一段完整工作。

例如你让 Codex：

读一个陌生仓库；
定位某个 bug 的触发路径；
修改多个文件；
补测试；
跑 lint 和单元测试；
根据报错继续修；
最后整理变更说明。

这不是"问答"。这是一个有上下文、有步骤、有反馈、有产物的工作任务。

OpenAI 文章也强调，Agentic AI 会把知识工作的单位从单次交互改成 delegated, long-horizon tasks。换句话说，真正的指标不只是"聊了多少"，而是"委托了多少复杂任务"“Agent 运行了多久”“是否并行推进”“是否复用了 workflow”“最后交付了什么 artifact”。

这就是 Agent 与聊天机器人的根本差异：

聊天机器人提升人的思考和表达速度；
Agent 提升人的可调度执行能力。

前者让你更快拿到答案。后者让你同时推进更多事情。

3. Codex 的增长说明：它正在越过"写代码"边界

论文报告，Codex 在 2026 年上半年周活跃用户增长超过 5 倍。更值得注意的是，增长不只发生在开发者群体里。自 2025 年 8 月以来，非开发者个人用户增长 137 倍，组织账户中的非开发者用户增长 189 倍，OpenAI 内部非开发者用户增长 12 倍。

这组数字说明一件事：Codex 虽然从 coding tool 起步，但它正在越过"写代码"的边界。

OpenAI 公开文章提到，Codex 已经成为 OpenAI 内部每个部门的主要 AI 工具。工程部门最早迁移，法律、财务、招聘等部门在 2026 年 4 月左右也跨过临界点，把 Codex 当成主要 AI 工具。OpenAI 内部平均员工超过 85% 的输出 token 来自 Codex；按 overall weekly output tokens 看，Codex 占 OpenAI 内部 ChatGPT 与 Codex 输出 token 的 99.8%。

当然，这个数字不能直接外推到普通公司。论文也明确提醒：OpenAI 是一个极端有利于 Agent 采用的环境。员工熟悉前沿模型，边际使用成本低，组织支持强，内部知识分享密集，很多工作流天然靠近模型和工具本身。

但它仍然有参考价值。它展示的是一个低摩擦环境下的前沿样本：当模型能力、权限、工作流、文化和评审机制都跟上之后，Agent 会从辅助工具变成默认工作入口。

4. Agent 吃掉的不是"写代码"，而是软件生产链路

很多人仍然把 Codex 理解成"代码生成器"。这个理解已经偏窄了。

从软件工程视角看，真实工作并不是"写一段代码"这么简单。一个功能从想法到上线，中间有大量连续动作：

理解旧代码；
找调用入口；
修改实现；
补测试；
跑测试；
修 lint；
处理依赖和配置；
更新 README；
写迁移脚本；
生成 PR 描述；
根据 review 再改一轮。

这些任务单个看未必难，但非常消耗上下文切换和执行时间。Agent 的价值恰恰在这里：它适合处理连续、数字化、可验证、可拆分的任务链。

不只是写代码：五步开发工作流（理解仓库 → 修改实现 → 运行测试 → 更新文档 → 交付 PR）+ 戴眼镜黄色卫衣女孩在用 MacBook

软件工程天然适合 Agent 爆发，因为代码可以运行，测试可以验证，diff 可以审查，日志可以反馈。这里的关键不是模型"像不像人"，而是任务环境能不能给 Agent 提供反馈闭环。

这也是为什么软件开发会成为 Agentic AI 最先爆发的场景。但它不会停在软件工程。OpenAI 内部的使用已经扩展到研究、规划、沟通、招聘、销售、产品和数据分析。

软件开发是领先场景，不是终点。

5. 为什么非技术岗位也会开始用 Codex

非技术岗位使用 Codex，表面上看有点反直觉。法律、财务、招聘、运营人员为什么要用一个从代码工具演化出来的 Agent？

答案是：现代知识工作里有大量"半技术工作"。

财务人员需要整理表格、处理 CSV、生成分析脚本、校验数据口径。招聘人员需要批量整理候选人信息、生成报告、分析招聘漏斗。法律人员需要比对文档、提取条款、生成结构化摘要。运营人员需要整理数据、批量改文案、生成内部工具。

以前这些任务往往卡在 Excel、脚本、权限和工程资源之间。要么手工做，要么等工程师支持，要么做成一次性脆弱流程。

Agent 降低了跨越任务边界的成本。OpenAI 文章提到，在 OpenAI 内部商业职能部门中，超过四分之一由 Codex 完成的工作属于工程或编码类任务。这不是说每个人都会变成程序员，而是说"会不会写代码"这个边界开始变薄。

未来很多岗位的核心能力，不是亲手写每一行脚本，而是：

能不能定义任务；
能不能提供上下文；
能不能审查结果；
能不能把 Agent 产出整合进业务流程。

6. 高级用法：长任务、并行 Agent、skills 复用

这篇研究最有价值的地方，是它不只观察到用户变多，还观察到使用方式变成熟。

第一，任务更长。

OpenAI 文章提到，到 2026 年 5 月，80.6% 的 sampled individual users 至少提交过一个估计超过 30 分钟人类工作量的 Codex 请求，70.2% 提交过超过 1 小时的请求，25.6% 提交过超过 8 小时的请求。这说明用户正在把更完整、更复杂的工作交给 Agent。

第二，任务更并行。

论文提到，超过 10% 的用户每周某个时点会同时管理 3 个或更多 Codex agents。OpenAI 内部最重度用户在 2026 年 6 月每天可以产生超过 60 小时的 Codex agent turns，分布在多个并行 Agent 中。

第三，工作流开始被固化。

论文报告，到 2026 年 6 月 11 日，26.6% 的活跃 Codex 用户使用了 skills。skills 可以理解为可复用的任务说明、能力封装或工作流模板。成熟用户不是把 Agent 当一次性聊天框，而是在建设自己的工作流系统。

普通用户问：“帮我改一下这个问题。”

高级用户会设计：“这是我的仓库规范、测试要求、代码风格、提交格式、审查清单。以后所有类似任务都按这个流程执行。”

组织级用户会进一步设计：“这是我们团队的文档规范、数据口径、发布流程、权限边界、审查要求。把它沉淀成可复用技能，让团队成员共享。”

这才是 Agent 的长期价值：组织的隐性流程可以被编码、复用和扩散。

7. 对工程师的真正影响：从执行者到工作系统设计者

对工程师来说，这篇研究释放的信号很直接：只会"手写代码"的价值会下降，但能驾驭复杂系统的人价值会上升。

Agent 会逐步吃掉大量低层执行：

样板代码；
简单 bugfix；
文档补全；
测试补齐；
配置迁移；
依赖升级；
格式整理；
PR 描述；
重复性排查。

这些事情仍然重要，只是越来越适合委托给 Agent。

工程师的竞争点会迁移到更高层：

能否把需求拆成 Agent 可执行的任务；
能否提供足够清晰的上下文和边界；
能否设计测试、日志、回滚和验证机制；
能否审查 Agent 输出，而不是盲信；
能否把一次性操作沉淀成可复用流程；
能否同时管理多个 Agent 并整合结果；
能否判断哪些任务适合自动化，哪些任务必须由人决策。

会用 Agent 的人五步流程（定义任务 → 给上下文 → 设验证 → 审结果 → 复用流程）+ 机器人助手举着清单 + 戴眼镜黄色卫衣女孩桌前整理流程

这也是为什么 Codex、Claude Code、Devin、OpenHands 这类工具对工程师的影响，不只是"写代码更快"。它改变的是工程师的操作系统。

未来强工程师更像 technical lead + reviewer + workflow designer + system integrator，而不是单纯的代码录入者。

8. 对组织和产品的启发：不要只买账号，要重组流程

很多公司对 AI 的理解还停留在"给员工买账号"。这远远不够。

论文强调，Agentic AI 的价值不只取决于模型能力，还取决于组织是否具备配套条件：

文件和系统访问权限；
管理预期；
员工技能；
评审流程；
工作流重组；
责任边界；
协作机制；
安全与审计。

如果一个公司只是让员工自由试用 Agent，但没有代码权限隔离、任务模板、测试体系、review 机制、数据访问规范和回滚机制，那么 Agent 很容易停留在"个人效率工具"。它可能提升局部效率，但很难改变组织产出。

真正的变化发生在三个层面。

第一，任务重新切分。

过去按岗位切分任务，未来会更多按"可委托、可验证、可并行、可复用"切分任务。

第二，人的角色上移。

人从执行者变成任务定义者、上下文提供者、审查者、集成者和风险负责人。

第三，组织资产形态变化。

过去组织资产是代码库、文档、流程制度和人的经验。未来还会包括 Agent skills、prompt templates、workflow recipes、评审基准、自动化验证环境和上下文包。

对 SaaS 产品也是一样。未来不是所有软件都会被 Agent 替代，而是很多软件会被迫变成 Agent-ready workflow：提供结构化数据、可调用 API、权限控制、审计日志、任务状态、回滚机制和沙盒环境。

9. 不能过度解读：token 不等于生产率，OpenAI 也不是普通样本

这篇研究很重要，但不能把它读成"Agent 已经全面替代人类工作"。

首先，研究对象是 Codex 用户，本身存在选择偏差。愿意使用 Codex 的人更可能技术敏感、任务数字化程度更高、工作流更适合 Agent。

其次，OpenAI 内部不是普通组织。OpenAI 员工对模型更熟悉，使用成本更低，组织支持更强，内部工具和流程也更贴近 Agent。这是前沿样本，不是平均样本。

再次，token 增长不等于真实生产率增长。论文报告了不同职能的输出 token 大幅增长，例如 2026 年 6 月法律岗位中位员工的月输出 token 是 2025 年 11 月的 13 倍，研究岗位超过 50 倍。但 token 是活动量和产出量的代理指标，不等于利润、质量、客户价值或最终生产率。

最后，Agent 执行越多，监督成本、验证成本和风险成本也越重要。没有测试、权限、审计、回滚和责任边界的 Agent 化，很容易制造新的技术债和组织风险。

10. 我的结论：Agent 是新的劳动组织接口

工作变成系统：四个核心原则（可委托 / 可验证 / 可并行 / 可复用）+ 戴眼镜黄色卫衣女孩把任务卡 A/B/C 收入"可复用工作流"箱中

这篇研究最重要的结论不是"Codex 增长很快"，而是 Agentic AI 正在改变工作的基本组织方式。

聊天式 AI 的核心动作是 asking：用户问，AI 答。

Agentic AI 的核心动作是 delegation：用户分配任务，AI 执行，人监督、审查、整合。

这看似只是交互方式变化，实际是生产关系变化。因为一旦任务可以被委托、并行、复用、模板化，人的工作重心就会从"亲自完成每个步骤"转向"设计工作系统"。

这对个人的要求更高，不是更低。低质量执行会被压缩，高质量判断会更重要。模糊表达、缺少上下文、不会验收、不会拆任务的人，会觉得 Agent 不稳定、不好用、总出错。能把任务定义清楚、把验证机制设计好、把流程沉淀下来的人，会获得远超普通用户的杠杆。

所以，2026 年的关键问题已经不是"AI 会不会帮我写代码"。

真正的问题是：

你能不能把自己的工作，改造成适合 Agent 执行、适合人类审查、适合组织复用的系统。

这就是 Agent 时代的分水岭。

参考来源

OpenAI Economic Research: How agents are transforming work
arXiv: The Shift to Agentic AI: Evidence from Codex

版本矩阵

事实点	状态	说明
OpenAI 文章《How agents are transforming work》发布日 2026-06-25	✅ 已验证	文章页本次 fetch 返回 403，但 arXiv 论文同日提交（2026-06-25 12:32 UTC），时间高度一致
arXiv 论文编号 2606.26959（econ.GN 类别）	✅ 已验证	直接核实 arXiv 页面
论文标题 The Shift to Agentic AI: Evidence from Codex	✅ 已验证	arXiv 摘要原文
论文作者：Drew Johnston, David Holtz, Alex Martin Richmond, Christopher Ong, Prasanna Tambe, Aaron Chatterji	✅ 已验证	arXiv 作者列表
作者机构：OpenAI、Columbia Business School、Wharton、Duke Fuqua	⚠️ 待精确	用户原文表述；论文作者名单已确认，但具体机构归属需从正文 footnote 确认（本次 fetch 仅拿到摘要页）
论文摘要原文：“active users has grown more than fivefold in the first half of 2026”	✅ 已验证	与用户原文"周活跃用户增长超过 5 倍"框架一致
论文摘要原文：“the most rapid increase occurring outside the initial audience of software developers”	✅ 已验证	与"加速增长在非开发者群体"框架一致
论文摘要原文：“26.6% use skills, which allow users to share instructions for complex workflows”	✅ 已验证	与用户原文完全一致
论文摘要原文：“More than 10% of users manage three or more concurrent Codex agents at some point each week”	✅ 已验证	与用户原文一致
论文摘要原文：“share of individual Codex users who submit at least one request for a task estimated to require more than eight hours … increased nearly tenfold”	✅ 已验证	摘要确认"8 小时"门槛 + "近 10 倍"增长
论文摘要原文：“median OpenAI employee in a legal role generated 13 times more monthly output tokens… researcher generated more than 50 times as many”	✅ 已验证	与用户原文一致（2026-06 vs 2025-11）
用户原文：“80.6% / 70.2% / 25.6%（30 分钟 / 1 小时 / 8 小时任务占比，截至 2026-05）”	⚠️ 待精确	论文摘要只提了"8 小时门槛增长近 10 倍"，这三个具体的百分比需要从 OpenAI 文章原文中精确核对，本次 fetch 文章 403
用户原文：“非开发者个人用户增长 137 倍 / 组织账户非开发者 189 倍 / OpenAI 内部非开发者 12 倍”（2025-08 以来）	⚠️ 待精确	论文摘要只确认"加速增长在开发者之外"，这三个倍数需从文章正文或论文表格精确核对
用户原文：“OpenAI 内部 ≥85% 输出 token 来自 Codex”	⚠️ 待精确	论文摘要只说"Codex usage is nearly universal and has largely replaced business usage of ChatGPT"，85% 数字需从正文 / 文章核对
用户原文：“99.8% OpenAI 内部 ChatGPT+Codex 输出 token 来自 Codex”	⚠️ 待精确	同上，需从正文核对
用户原文：“OpenAI 内部最重度用户每天 60+ 小时 Codex agent turns（2026-06）”	⚠️ 待精确	摘要未明确提此具体数字，需从文章 / 正文确认
用户原文：“工程部门最早迁移，法律/财务/招聘等 2026-04 跨过临界点”	⚠️ 待精确	时间点叙述来自用户解读，文章未单独公开披露该数字
用户原文：“Codex 上线以来累积数据 + 使用自动化、隐私保护的数据处理管线”	✅ 已验证	论文摘要明确：“automated, privacy-protecting pipeline to contrast usage”
论文提交时间：2026-06-25 12:32:46 UTC	✅ 已验证	arXiv submission history
论文分类：Economics > General Economics (econ.GN)	✅ 已验证	arXiv 元数据
DOI：10.48550/arXiv.2606.26959	✅ 已验证	arXiv 元数据
用户原文：“2026 年下半年 Codex 周活跃用户增长 5 倍”	⚠️ 待核实表述	实际是"2026 年上半年"——摘要原文 “in the first half of 2026”，用户原文"在 2026 年上半年"是对的，但不要误读为"下半年"
论文学术价值：顶级名校 + 产业研究机构联合署名	✅ 已验证	Drew Johnston, David Holtz, Prasanna Tambe 等是 OpenAI 经济研究知名作者

错误速查卡（Agent × 工作流组织）

症状	根因	定位	修复
团队买了 Agent 账号，但三个月后活跃度掉到个位数	没有把任务改造成"可委托 / 可验证 / 可复用"形态，员工依然手动跑流程	统计过去 30 天内跨团队复用率、PR-like review 覆盖率、模板调用次数	强制把高频任务沉淀成 skills：仓库规范 / 测试要求 / 代码风格 / 提交格式 / 审查清单
Agent 写出来的代码能跑，但 review 时被发现不满足组织规范（无错误处理 / 无日志 / 无 a11y）	只有"功能正确性"的反馈，缺"组织规约"的反馈	看 review 反馈里有没有反复出现同一类规约问题	在 skills 中显式声明规约条款，并让 CI / lint 卡住；review 反馈直接喂回 skills
同一条 Agent 工作流每月从零写一遍，没沉淀	skills 没版本化、没共享、没归属人	看团队是不是把 prompt 写在私人 gist 而不是组织仓库	把 skills 当成一等公民：单一存储仓库 + 命名空间 + 维护人 + 使用统计
并行开 5 个 Agent，结果上下文互相干扰、结果冲突	Agent 之间没有状态共享或隔离边界	看 5 个 Agent 是不是写同一个 repo/同一个 branch	引入"任务域"概念：每个 Agent 绑定目录 / branch / db schema，分任务域互不干扰
任务越来越长，Agent 跑到中途开始"失忆"，忽略前面约束	上下文窗口有限 + 没有结构化压缩	看 Agent turn 数 / token 总量 / 是否在中段丢失早期约束	引入 checkpoint：每完成 N 个动作触发"目标-边界-已完成"三段总结，写回工作记忆
Agent 改完代码后留下"我现在不能继续了"的中断状态	没有"工作持续性"机制（断点恢复 / 状态序列化）	看 session 重启率 + 手动 re-prompt 比例	实现会话持久化 + 重启恢复 prompt；任务状态独立于会话窗口
不同员工写的 Agent prompt 风格差异巨大，结果口径不可比	没有 prompt 模板库 + 没有团队级 guardrails	用 LLM-as-judge 对 prompt 做风格归一化评分	设置 2-3 个团队级 boilerplate（任务定义模板 / 上下文模板 / 验收模板）
单条 Agent 输出量大，但实际产生业务价值的不多	把"token 增长"误读为"业务生产率"	看 token / 业务 result ratio，比如 100 万 token 贡献多少 PR/commit/Customer ticket	把指标体系切到"业务可衡量产出"：交付的 PR 数 / 修复的 ticket 数 / 缩短的 lead time
把 Agent 当聊天助手，问啥答啥	没有任务化抽象、没有 deliverable 意识	看用户给 Agent 的输入里有没有"目标 + 上下文 + 验收标准 + 工件要求"四要素	强制要求任务描述四件套：必须含目标、可量化验收标准、上下文边界、最终工件
团队引入 Agent 后安全事故增加（误改 prod / 权限过宽）	没有按风险给 Agent 权限分层	看有没有给 Agent 配最小权限、有没有 audit log、有没有 human-in-the-loop checkpoint	按任务风险分层：只读 / 沙盒写入 / 受限 prod 写入，并强制 review checkpoint
用了 Agent 后团队反而更忙（要写 prompt、要审结果、要修回归）	低估了 review 和验证的时间成本	看 Agent 输出到 finalize 的转化时间	把 review 和验证时间纳入项目排期；不要按"Agent 跑得多快"算容量

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

2026最新2款高阶AI编程工具平替实测｜Claude Code国产替代权威深度对比

2026年最新实测来看，Claude Code 凭借长上下文推理能力，在英文大型架构重构场景具备一定优势，但终端形态的短板、高昂的用量成本、薄弱的中文场景适配能力，完全不适合国内开发者常态化 vibe coding 迭代。TRAE 作为字节跳动出品的国内首款 AI 原生 IDE，凭借 VS Code 同源无缝迁移、Work 模式（原 SOLO 模式）高效Agent迭代、CUE智能预测、行业领先的中