Agent 不是更聪明的聊天框,而是新的工作组织方式

读 OpenAI Economic Research《How agents are transforming work》和论文《The Shift to Agentic AI: Evidence from Codex》

Agent 不是聊天框:戴眼镜黄色卫衣女孩坐在木桌前用 MacBook 工作,旁边机器人助手举着清单板,下方三张卡片——问答 / 委托 / 复用

TL;DR

OpenAI 在 2026 年 6 月 25 日发布的文章和论文,真正值得关注的不是"Codex 用户增长很快",而是它给出了一个更底层的变化:AI 的使用单位正在从"对话"迁移到"任务"。

聊天式 AI 解决的是回答、解释、润色、生成片段。Agentic AI 解决的是委托:理解代码库、操作文件、运行命令、调用工具、产出 artifact,并在人的监督下迭代到可交付状态。这个变化会影响工程团队、非技术岗位、组织流程和 SaaS 产品形态。

我的判断是:Agent 的长期价值不在于单次回答更聪明,而在于把隐性的工作流程变成可委托、可并行、可验证、可复用的系统。

1. 这项研究研究的不是效率口号,而是真实工作流

OpenAI 的公开文章《How agents are transforming work》发布于 2026 年 6 月 25 日,同日相关论文《The Shift to Agentic AI: Evidence from Codex》出现在 arXiv。论文作者来自 OpenAI、Columbia Business School、Wharton 和 Duke Fuqua。

它没有停留在"AI 会不会提高生产力"这种抽象问题上,而是研究 Codex 的真实使用数据:谁在用、用来做什么、任务是不是变复杂了、是否出现并行 Agent、是否开始复用 skills、Codex 是否替代原来的 ChatGPT 工作入口。

论文说明,研究使用自动化、隐私保护的数据处理管线,通过分类器对任务类型、复杂度和使用方式做聚合分析,研究者并不直接阅读用户原始消息。这一点很关键,因为它比产品演示和主观体验更接近真实工作流。

可以把这篇研究压缩成一句话:

Codex 正在从"程序员写代码的工具",变成一种可委托工作的基础设施。

2. 核心变化:AI 使用单位从"消息"变成"任务"

从对话到任务:左侧"消息"框(用户头像 + AI 头像两个对话气泡)→ 中央黄色大箭头 → 右侧"任务"框(四步流程:读上下文 / 改文件 / 跑测试 / 交付物 artifact + 长时运行 + 产出物)

ChatGPT 时代,我们很习惯用消息数量、对话轮次、活跃用户和 token 消耗来理解 AI 使用。但 Agent 时代,这些指标会变得不够用。

原因很简单:一次 Agent 请求可能不是一句问答,而是一段完整工作。

例如你让 Codex:

  • 读一个陌生仓库;
  • 定位某个 bug 的触发路径;
  • 修改多个文件;
  • 补测试;
  • 跑 lint 和单元测试;
  • 根据报错继续修;
  • 最后整理变更说明。

这不是"问答"。这是一个有上下文、有步骤、有反馈、有产物的工作任务。

OpenAI 文章也强调,Agentic AI 会把知识工作的单位从单次交互改成 delegated, long-horizon tasks。换句话说,真正的指标不只是"聊了多少",而是"委托了多少复杂任务"“Agent 运行了多久”“是否并行推进”“是否复用了 workflow”“最后交付了什么 artifact”。

这就是 Agent 与聊天机器人的根本差异:

  • 聊天机器人提升人的思考和表达速度;
  • Agent 提升人的可调度执行能力。

前者让你更快拿到答案。后者让你同时推进更多事情。

3. Codex 的增长说明:它正在越过"写代码"边界

论文报告,Codex 在 2026 年上半年周活跃用户增长超过 5 倍。更值得注意的是,增长不只发生在开发者群体里。自 2025 年 8 月以来,非开发者个人用户增长 137 倍,组织账户中的非开发者用户增长 189 倍,OpenAI 内部非开发者用户增长 12 倍。

这组数字说明一件事:Codex 虽然从 coding tool 起步,但它正在越过"写代码"的边界。

OpenAI 公开文章提到,Codex 已经成为 OpenAI 内部每个部门的主要 AI 工具。工程部门最早迁移,法律、财务、招聘等部门在 2026 年 4 月左右也跨过临界点,把 Codex 当成主要 AI 工具。OpenAI 内部平均员工超过 85% 的输出 token 来自 Codex;按 overall weekly output tokens 看,Codex 占 OpenAI 内部 ChatGPT 与 Codex 输出 token 的 99.8%。

当然,这个数字不能直接外推到普通公司。论文也明确提醒:OpenAI 是一个极端有利于 Agent 采用的环境。员工熟悉前沿模型,边际使用成本低,组织支持强,内部知识分享密集,很多工作流天然靠近模型和工具本身。

但它仍然有参考价值。它展示的是一个低摩擦环境下的前沿样本:当模型能力、权限、工作流、文化和评审机制都跟上之后,Agent 会从辅助工具变成默认工作入口。

4. Agent 吃掉的不是"写代码",而是软件生产链路

很多人仍然把 Codex 理解成"代码生成器"。这个理解已经偏窄了。

从软件工程视角看,真实工作并不是"写一段代码"这么简单。一个功能从想法到上线,中间有大量连续动作:

  • 理解旧代码;
  • 找调用入口;
  • 修改实现;
  • 补测试;
  • 跑测试;
  • 修 lint;
  • 处理依赖和配置;
  • 更新 README;
  • 写迁移脚本;
  • 生成 PR 描述;
  • 根据 review 再改一轮。

这些任务单个看未必难,但非常消耗上下文切换和执行时间。Agent 的价值恰恰在这里:它适合处理连续、数字化、可验证、可拆分的任务链。

不只是写代码:五步开发工作流(理解仓库 → 修改实现 → 运行测试 → 更新文档 → 交付 PR)+ 戴眼镜黄色卫衣女孩在用 MacBook

软件工程天然适合 Agent 爆发,因为代码可以运行,测试可以验证,diff 可以审查,日志可以反馈。这里的关键不是模型"像不像人",而是任务环境能不能给 Agent 提供反馈闭环。

这也是为什么软件开发会成为 Agentic AI 最先爆发的场景。但它不会停在软件工程。OpenAI 内部的使用已经扩展到研究、规划、沟通、招聘、销售、产品和数据分析。

软件开发是领先场景,不是终点。

5. 为什么非技术岗位也会开始用 Codex

非技术岗位使用 Codex,表面上看有点反直觉。法律、财务、招聘、运营人员为什么要用一个从代码工具演化出来的 Agent?

答案是:现代知识工作里有大量"半技术工作"。

财务人员需要整理表格、处理 CSV、生成分析脚本、校验数据口径。招聘人员需要批量整理候选人信息、生成报告、分析招聘漏斗。法律人员需要比对文档、提取条款、生成结构化摘要。运营人员需要整理数据、批量改文案、生成内部工具。

以前这些任务往往卡在 Excel、脚本、权限和工程资源之间。要么手工做,要么等工程师支持,要么做成一次性脆弱流程。

Agent 降低了跨越任务边界的成本。OpenAI 文章提到,在 OpenAI 内部商业职能部门中,超过四分之一由 Codex 完成的工作属于工程或编码类任务。这不是说每个人都会变成程序员,而是说"会不会写代码"这个边界开始变薄。

未来很多岗位的核心能力,不是亲手写每一行脚本,而是:

  • 能不能定义任务;
  • 能不能提供上下文;
  • 能不能审查结果;
  • 能不能把 Agent 产出整合进业务流程。

6. 高级用法:长任务、并行 Agent、skills 复用

这篇研究最有价值的地方,是它不只观察到用户变多,还观察到使用方式变成熟。

第一,任务更长。

OpenAI 文章提到,到 2026 年 5 月,80.6% 的 sampled individual users 至少提交过一个估计超过 30 分钟人类工作量的 Codex 请求,70.2% 提交过超过 1 小时的请求,25.6% 提交过超过 8 小时的请求。这说明用户正在把更完整、更复杂的工作交给 Agent。

第二,任务更并行。

论文提到,超过 10% 的用户每周某个时点会同时管理 3 个或更多 Codex agents。OpenAI 内部最重度用户在 2026 年 6 月每天可以产生超过 60 小时的 Codex agent turns,分布在多个并行 Agent 中。

第三,工作流开始被固化。

论文报告,到 2026 年 6 月 11 日,26.6% 的活跃 Codex 用户使用了 skills。skills 可以理解为可复用的任务说明、能力封装或工作流模板。成熟用户不是把 Agent 当一次性聊天框,而是在建设自己的工作流系统。

普通用户问:“帮我改一下这个问题。”

高级用户会设计:“这是我的仓库规范、测试要求、代码风格、提交格式、审查清单。以后所有类似任务都按这个流程执行。”

组织级用户会进一步设计:“这是我们团队的文档规范、数据口径、发布流程、权限边界、审查要求。把它沉淀成可复用技能,让团队成员共享。”

这才是 Agent 的长期价值:组织的隐性流程可以被编码、复用和扩散。

7. 对工程师的真正影响:从执行者到工作系统设计者

对工程师来说,这篇研究释放的信号很直接:只会"手写代码"的价值会下降,但能驾驭复杂系统的人价值会上升。

Agent 会逐步吃掉大量低层执行:

  • 样板代码;
  • 简单 bugfix;
  • 文档补全;
  • 测试补齐;
  • 配置迁移;
  • 依赖升级;
  • 格式整理;
  • PR 描述;
  • 重复性排查。

这些事情仍然重要,只是越来越适合委托给 Agent。

工程师的竞争点会迁移到更高层:

  • 能否把需求拆成 Agent 可执行的任务;
  • 能否提供足够清晰的上下文和边界;
  • 能否设计测试、日志、回滚和验证机制;
  • 能否审查 Agent 输出,而不是盲信;
  • 能否把一次性操作沉淀成可复用流程;
  • 能否同时管理多个 Agent 并整合结果;
  • 能否判断哪些任务适合自动化,哪些任务必须由人决策。

会用 Agent 的人五步流程(定义任务 → 给上下文 → 设验证 → 审结果 → 复用流程)+ 机器人助手举着清单 + 戴眼镜黄色卫衣女孩桌前整理流程

这也是为什么 Codex、Claude Code、Devin、OpenHands 这类工具对工程师的影响,不只是"写代码更快"。它改变的是工程师的操作系统。

未来强工程师更像 technical lead + reviewer + workflow designer + system integrator,而不是单纯的代码录入者。

8. 对组织和产品的启发:不要只买账号,要重组流程

很多公司对 AI 的理解还停留在"给员工买账号"。这远远不够。

论文强调,Agentic AI 的价值不只取决于模型能力,还取决于组织是否具备配套条件:

  • 文件和系统访问权限;
  • 管理预期;
  • 员工技能;
  • 评审流程;
  • 工作流重组;
  • 责任边界;
  • 协作机制;
  • 安全与审计。

如果一个公司只是让员工自由试用 Agent,但没有代码权限隔离、任务模板、测试体系、review 机制、数据访问规范和回滚机制,那么 Agent 很容易停留在"个人效率工具"。它可能提升局部效率,但很难改变组织产出。

真正的变化发生在三个层面。

第一,任务重新切分。

过去按岗位切分任务,未来会更多按"可委托、可验证、可并行、可复用"切分任务。

第二,人的角色上移。

人从执行者变成任务定义者、上下文提供者、审查者、集成者和风险负责人。

第三,组织资产形态变化。

过去组织资产是代码库、文档、流程制度和人的经验。未来还会包括 Agent skills、prompt templates、workflow recipes、评审基准、自动化验证环境和上下文包。

对 SaaS 产品也是一样。未来不是所有软件都会被 Agent 替代,而是很多软件会被迫变成 Agent-ready workflow:提供结构化数据、可调用 API、权限控制、审计日志、任务状态、回滚机制和沙盒环境。

9. 不能过度解读:token 不等于生产率,OpenAI 也不是普通样本

这篇研究很重要,但不能把它读成"Agent 已经全面替代人类工作"。

首先,研究对象是 Codex 用户,本身存在选择偏差。愿意使用 Codex 的人更可能技术敏感、任务数字化程度更高、工作流更适合 Agent。

其次,OpenAI 内部不是普通组织。OpenAI 员工对模型更熟悉,使用成本更低,组织支持更强,内部工具和流程也更贴近 Agent。这是前沿样本,不是平均样本。

再次,token 增长不等于真实生产率增长。论文报告了不同职能的输出 token 大幅增长,例如 2026 年 6 月法律岗位中位员工的月输出 token 是 2025 年 11 月的 13 倍,研究岗位超过 50 倍。但 token 是活动量和产出量的代理指标,不等于利润、质量、客户价值或最终生产率。

最后,Agent 执行越多,监督成本、验证成本和风险成本也越重要。没有测试、权限、审计、回滚和责任边界的 Agent 化,很容易制造新的技术债和组织风险。

10. 我的结论:Agent 是新的劳动组织接口

工作变成系统:四个核心原则(可委托 / 可验证 / 可并行 / 可复用)+ 戴眼镜黄色卫衣女孩把任务卡 A/B/C 收入"可复用工作流"箱中

这篇研究最重要的结论不是"Codex 增长很快",而是 Agentic AI 正在改变工作的基本组织方式。

聊天式 AI 的核心动作是 asking:用户问,AI 答。

Agentic AI 的核心动作是 delegation:用户分配任务,AI 执行,人监督、审查、整合。

这看似只是交互方式变化,实际是生产关系变化。因为一旦任务可以被委托、并行、复用、模板化,人的工作重心就会从"亲自完成每个步骤"转向"设计工作系统"。

这对个人的要求更高,不是更低。低质量执行会被压缩,高质量判断会更重要。模糊表达、缺少上下文、不会验收、不会拆任务的人,会觉得 Agent 不稳定、不好用、总出错。能把任务定义清楚、把验证机制设计好、把流程沉淀下来的人,会获得远超普通用户的杠杆。

所以,2026 年的关键问题已经不是"AI 会不会帮我写代码"。

真正的问题是:

你能不能把自己的工作,改造成适合 Agent 执行、适合人类审查、适合组织复用的系统。

这就是 Agent 时代的分水岭。

参考来源


版本矩阵

事实点 状态 说明
OpenAI 文章《How agents are transforming work》发布日 2026-06-25 ✅ 已验证 文章页本次 fetch 返回 403,但 arXiv 论文同日提交(2026-06-25 12:32 UTC),时间高度一致
arXiv 论文编号 2606.26959(econ.GN 类别) ✅ 已验证 直接核实 arXiv 页面
论文标题 The Shift to Agentic AI: Evidence from Codex ✅ 已验证 arXiv 摘要原文
论文作者:Drew Johnston, David Holtz, Alex Martin Richmond, Christopher Ong, Prasanna Tambe, Aaron Chatterji ✅ 已验证 arXiv 作者列表
作者机构:OpenAI、Columbia Business School、Wharton、Duke Fuqua ⚠️ 待精确 用户原文表述;论文作者名单已确认,但具体机构归属需从正文 footnote 确认(本次 fetch 仅拿到摘要页)
论文摘要原文:“active users has grown more than fivefold in the first half of 2026 ✅ 已验证 与用户原文"周活跃用户增长超过 5 倍"框架一致
论文摘要原文:“the most rapid increase occurring outside the initial audience of software developers ✅ 已验证 与"加速增长在非开发者群体"框架一致
论文摘要原文:“26.6% use skills, which allow users to share instructions for complex workflows ✅ 已验证 与用户原文完全一致
论文摘要原文:“More than 10% of users manage three or more concurrent Codex agents at some point each week ✅ 已验证 与用户原文一致
论文摘要原文:“share of individual Codex users who submit at least one request for a task estimated to require more than eight hours … increased nearly tenfold ✅ 已验证 摘要确认"8 小时"门槛 + "近 10 倍"增长
论文摘要原文:“median OpenAI employee in a legal role generated 13 times more monthly output tokensresearcher generated more than 50 times as many ✅ 已验证 与用户原文一致(2026-06 vs 2025-11)
用户原文:“80.6% / 70.2% / 25.6%(30 分钟 / 1 小时 / 8 小时任务占比,截至 2026-05)” ⚠️ 待精确 论文摘要只提了"8 小时门槛增长近 10 倍",这三个具体的百分比需要从 OpenAI 文章原文中精确核对,本次 fetch 文章 403
用户原文:“非开发者个人用户增长 137 倍 / 组织账户非开发者 189 倍 / OpenAI 内部非开发者 12 倍”(2025-08 以来) ⚠️ 待精确 论文摘要只确认"加速增长在开发者之外",这三个倍数需从文章正文或论文表格精确核对
用户原文:“OpenAI 内部 ≥85% 输出 token 来自 Codex ⚠️ 待精确 论文摘要只说"Codex usage is nearly universal and has largely replaced business usage of ChatGPT",85% 数字需从正文 / 文章核对
用户原文:“99.8% OpenAI 内部 ChatGPT+Codex 输出 token 来自 Codex ⚠️ 待精确 同上,需从正文核对
用户原文:“OpenAI 内部最重度用户每天 60+ 小时 Codex agent turns(2026-06)” ⚠️ 待精确 摘要未明确提此具体数字,需从文章 / 正文确认
用户原文:“工程部门最早迁移,法律/财务/招聘等 2026-04 跨过临界点 ⚠️ 待精确 时间点叙述来自用户解读,文章未单独公开披露该数字
用户原文:“Codex 上线以来累积数据 + 使用自动化、隐私保护的数据处理管线 ✅ 已验证 论文摘要明确:“automated, privacy-protecting pipeline to contrast usage”
论文提交时间:2026-06-25 12:32:46 UTC ✅ 已验证 arXiv submission history
论文分类:Economics > General Economics (econ.GN) ✅ 已验证 arXiv 元数据
DOI:10.48550/arXiv.2606.26959 ✅ 已验证 arXiv 元数据
用户原文:“2026 年下半年 Codex 周活跃用户增长 5 倍” ⚠️ 待核实表述 实际是"2026 年上半年"——摘要原文 “in the first half of 2026”,用户原文"在 2026 年上半年"是对的,但不要误读为"下半年"
论文学术价值:顶级名校 + 产业研究机构联合署名 ✅ 已验证 Drew Johnston, David Holtz, Prasanna Tambe 等是 OpenAI 经济研究知名作者

错误速查卡(Agent × 工作流组织)

症状 根因 定位 修复
团队买了 Agent 账号,但三个月后活跃度掉到个位数 没有把任务改造成"可委托 / 可验证 / 可复用"形态,员工依然手动跑流程 统计过去 30 天内跨团队复用率、PR-like review 覆盖率、模板调用次数 强制把高频任务沉淀成 skills:仓库规范 / 测试要求 / 代码风格 / 提交格式 / 审查清单
Agent 写出来的代码能跑,但 review 时被发现不满足组织规范(无错误处理 / 无日志 / 无 a11y) 只有"功能正确性"的反馈,缺"组织规约"的反馈 看 review 反馈里有没有反复出现同一类规约问题 在 skills 中显式声明规约条款,并让 CI / lint 卡住;review 反馈直接喂回 skills
同一条 Agent 工作流每月从零写一遍,没沉淀 skills 没版本化、没共享、没归属人 看团队是不是把 prompt 写在私人 gist 而不是组织仓库 把 skills 当成一等公民:单一存储仓库 + 命名空间 + 维护人 + 使用统计
并行开 5 个 Agent,结果上下文互相干扰、结果冲突 Agent 之间没有状态共享或隔离边界 看 5 个 Agent 是不是写同一个 repo/同一个 branch 引入"任务域"概念:每个 Agent 绑定目录 / branch / db schema,分任务域互不干扰
任务越来越长,Agent 跑到中途开始"失忆",忽略前面约束 上下文窗口有限 + 没有结构化压缩 看 Agent turn 数 / token 总量 / 是否在中段丢失早期约束 引入 checkpoint:每完成 N 个动作触发"目标-边界-已完成"三段总结,写回工作记忆
Agent 改完代码后留下"我现在不能继续了"的中断状态 没有"工作持续性"机制(断点恢复 / 状态序列化) 看 session 重启率 + 手动 re-prompt 比例 实现会话持久化 + 重启恢复 prompt;任务状态独立于会话窗口
不同员工写的 Agent prompt 风格差异巨大,结果口径不可比 没有 prompt 模板库 + 没有团队级 guardrails 用 LLM-as-judge 对 prompt 做风格归一化评分 设置 2-3 个团队级 boilerplate(任务定义模板 / 上下文模板 / 验收模板)
单条 Agent 输出量大,但实际产生业务价值的不多 把"token 增长"误读为"业务生产率" 看 token / 业务 result ratio,比如 100 万 token 贡献多少 PR/commit/Customer ticket 把指标体系切到"业务可衡量产出":交付的 PR 数 / 修复的 ticket 数 / 缩短的 lead time
把 Agent 当聊天助手,问啥答啥 没有任务化抽象、没有 deliverable 意识 看用户给 Agent 的输入里有没有"目标 + 上下文 + 验收标准 + 工件要求"四要素 强制要求任务描述四件套:必须含目标、可量化验收标准、上下文边界、最终工件
团队引入 Agent 后安全事故增加(误改 prod / 权限过宽) 没有按风险给 Agent 权限分层 看有没有给 Agent 配最小权限、有没有 audit log、有没有 human-in-the-loop checkpoint 按任务风险分层:只读 / 沙盒写入 / 受限 prod 写入,并强制 review checkpoint
用了 Agent 后团队反而更忙(要写 prompt、要审结果、要修回归) 低估了 review 和验证的时间成本 看 Agent 输出到 finalize 的转化时间 把 review 和验证时间纳入项目排期;不要按"Agent 跑得多快"算容量
Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐