智能体编程与专业知识的持续回报
智能体编程与专业知识的持续回报
Anthropic 经济研究 · 2026年6月16日
作者:Zoe Hitzig、Maxim Massenkoff、Eva Lyubich、Shaoyi Zhang、Ryan Heller、Peter McCrory
核心发现
-
基于先前研究,我们引入了一个研究交互式智能体编程的框架,该框架基于对2025年10月至2026年4月间约40万次 Claude Code 会话的隐私保护分析。我们评估了任务构成、人机协作以及成功率。
-
在一次典型的会话中,人类做出大部分规划决策(做什么),而 Claude 做出大部分执行决策(怎么做)。一个人带到会话中的领域专业知识越丰富,Claude 在每条指令下完成的工作就越多。在编程任务上,每个主要职业的人都能取得成功——即完成这个人设定的目标,并有可验证的证据(如通过测试或提交的代码)——其成功率平均与软件工程师几乎相同。
-
一个人的领域专业知识越丰富,会话最终成功的频率就越高——尽管中级用户与专家用户之间的差距并不大。在我们观察的七个月中,用于调试的会话占比下降了近一半,使用方式转向了更加端到端的智能体用法:部署和运行代码、分析数据以及撰写非代码文档。
-
在这七个月中,典型任务的价值——我们通过与自由职业招聘信息的对比来估算——在几乎所有类型的工作中都有所上升,平均约上升25%。
引言
智能体编程已经起飞。自2025年末以来,有编程智能体活动的 GitHub 项目占比已翻了一倍以上,1 Claude Code 用户现在平均每周花20小时使用该工具。2 没有正式编程经验的人能否成功地指挥一个智能体完成复杂的技术工作?这些工具的快速普及和改进对知识工作整体意味着什么?虽然我们对这些问题还没有完整的答案,但我们通过 Claude Code 使用数据来寻找早期信号。
本报告基于对2025年10月至2026年4月间约23.5万人的约40万次交互式会话的隐私保护分析,提供了关于 Claude Code 在实践中如何使用的证据。它建立在先前关于 Claude Code 会话中自主性度量以及Claude Code 如何改变 Anthropic 工作方式的研究基础之上。3 在此,我们引入了一个描述交互式 AI 编程助手使用情况的框架:正在完成什么类型的工作、谁在做、以及是否成功。我们重点关注通过命令行界面(CLI)、claude.ai 或 Claude Code 桌面应用使用 Claude Code 的情况。4 通过跟踪智能体编程使用方式随模型能力提升而发生的变化,我们可以更好地理解这些工具如何影响编程专业人士和知识工作者的劳动力市场。
Claude Code 上发生的事情或许是知识工作未来走向的一个预演,随着智能体嵌入非编程工作。我们发现 Claude 正在处理更复杂、更有价值的任务。与此同时,智能体编程中存在一个清晰的分工:人类决定构建什么,智能体决定如何构建。
我们还看到证据表明,是领域专业知识而非编程熟练程度放大了工具的有效使用。特别是,领域专家更常取得成功,并且更容易从错误和误解中恢复。然而,专家与中级用户之间的差距并不大——这表明在一个领域的熟练程度足以几乎像拥有深厚造诣的人一样有效地使用该工具。
这些发现为我们提供了关于劳动力市场可能转变的早期解读。在我们的数据中,成功取决于一个人对其试图解决的问题的理解程度,而非他们是否受过编程训练。如果这些模式在整个经济中成立,那么这表明虽然智能体编程工具可能正在吸收一些以实现为主的工作,但它们也在奖励那些对自己工作中所解决问题有牢固理解的人。编程智能体并非在替代领域专业知识——工作者带给智能体的理解越多,智能体能够完成的优质工作就越多。
分工
人们使用 Claude Code 做什么
为了理解人们使用 Claude Code 做什么,我们将每个会话分类为九种工作模式之一——即最能描述该会话试图完成什么的单一活动。5 四种模式涉及直接编写或维护代码:构建新东西、修复损坏的东西、测试代码,以及编排其他智能体或自动化流水线。另一类是操作软件——部署、配置、运行流水线、监控系统。两类更多是关于弄清楚要做什么:理解现有系统如何工作,以及在做出更改之前进行规划。还有两类涉及与代码无关或代码仅作为最终产品附带部分的操作:分析数据,以及通过演示文稿和其他基于文本的文档进行交流。
约56%的会话包括编写(25%)、修复(26%)、测试和编排代码(5%)。操作软件占17%,14%的会话是规划或探索,13%产出分析或文本。
图1:九种工作模式。每个交互式会话被分类为最能描述其试图完成什么的单一模式。
我们通过让模型阅读会话记录来对每个会话进行分类,然后使用我们的隐私保护分析工具,将其与每个会话自动记录的遥测数据进行核对,包括是否有任何代码行被添加或删除。两个来源具有高度一致性——例如,我们的分类器标记为创建或修改代码的会话中,超过90%在遥测数据中显示了代码更改。详细信息请参见附录。
谁决定什么
Claude Code 有多自主?能力评估表明上限很高且在不断上升:在诸如 METR 的时间范围评估等基准测试中,前沿模型现在可以自主完成需要一个人数小时才能完成的软件任务,并在过程中自主克服障碍。但在实际使用中,情况究竟如何?在这里,我们考察在实际会话中,人类和 Claude 各自进行了多少引导。
我们从两个角度研究这个问题。首先,我们关注人们在多大程度上将决策委托给 Claude;其次,我们看他们给了 Claude 多少操作。为了理解一个会话中的决策分工,我们基于会话内容构建了一个隐私保护的决策归因分类器。我们让分类器列出会话中所有有意义的决策。我们将这些决策分为规划(做什么、采用哪种方法、什么算完成)和执行(更改哪些文件、写什么代码、用什么语言写、运行哪些命令)。然后分类器将每个决策归因于 Claude 或用户,为每个会话给出两个数字:用户在规划决策中的占比和用户在执行决策中的占比。
平均而言,人们做出约70%的规划决策,但仅做出约20%的执行决策。 在实践中,智能体编程中存在着明确的分工——人们决定构建什么,智能体决定如何构建。
图2:Claude 在规划和执行决策中的占比。各会话中归因于 Claude(而非用户)的规划决策(做什么)和执行决策(怎么做)占比分布。在典型会话中,用户做出约70%的规划决策,而 Claude 做出约80%的执行决策。
为了理解会话中操作的委托情况,我们考察会话的结构而非内容。一次 Claude Code 会话涉及 Claude 和用户之间来回交换提示(来自用户)和操作(由 Claude 执行)——用户写一个提示,Claude 去完成一些工作,然后用户再写一个提示,如此往复。在一次典型会话中,大约有四次这样的回合。在我们从10月到4月的历史数据中,用户发送的每条提示平均触发 Claude 约10个操作——有时超过100个。6 在每个回合中,Claude 读取文件、编辑代码、运行命令,并平均输出2,400个词。
Claude 在两次检查之间完成的工作量在很大程度上与谁在做决策相一致。当用户保持对执行的控制(即做出超过80%的执行决策)时,Claude 每个回合的操作较少(约8个操作)。而当 Claude 接管规划控制(即做出超过80%的规划决策)时,它的操作数量最高(约16个)。
专业水平
从每个会话记录中,Claude 按照从新手到专家的五级量表评估用户在任务中的表现出的专业水平。专业水平分类器寻找三种信号:用户表述指令的精确程度、他们要求 Claude 验证什么、以及用户倾向于纠正 Claude 还是 Claude 倾向于纠正用户。需要注意的是,专业水平捕捉的内容与职位头衔或一般能力有很大不同,而且至关重要的是,它是特定于任务的。一位高级工程师第一次问 Rust 问题,在 Rust 方面是初学者。一位从未使用过 Python 的会计师,如果准确地告诉 Claude Python 脚本必须执行哪些对账规则,并在月末结账时发现它处理不当的边缘情况,那么他就是该任务的专家。
表1:专业水平分类器。示例是对我们分类器标记的真实会话的改写、匿名化和浓缩。表中使用的许多会话来自智能体编程会话的公开数据集 SWE-chat。
我们量化了专业水平与 Claude 每次提示的输出和活动之间的关系。在典型的新手会话中,每条提示触发约5个 Claude 操作和大约600词输出,而专家会话触发的操作链长度是其两倍以上(12个操作),输出量是其五倍(3,200词)。新手与专家会话之间的这种差距出现在每一种工作类型和每一个任务价值档次中。
图3:Claude 为更专业的用户完成了更多每次提示的工作。Claude 为更专业的用户产生更多的操作(左柱)和每次提示的文本输出(右柱)。箱体跨度四分位距(在中位数处分割)。须线代表第5至第95百分位。白点表示几何平均值。两个上升趋势均具有统计显著性(p < 0.001),每个相邻级别的跃升也是如此,并且在控制了工作模式、任务价值、月份、职业和模型系列的回归中,它们仍然显著(每个专业水平级别操作+9%,输出+13%),标准误按用户聚类。
这些度量补充了我们先前关于 Claude Code 的报告中的自主性度量,该报告跟踪了智能体运行多长时间以及人们自动批准其操作的频率。相比之下,我们的决策归因度量捕捉了在整个会话中谁做出了实质性决策,而我们对每次提示输出和操作的度量则衡量了每条人类提示触发了多少 Claude 的自主活动。
谁在使用 Claude Code,以及用于什么
用户
为了理解谁在做这些工作,我们从会话记录中推断每个用户的职业,将其映射到劳工统计局标准职业分类(SOC)分类法中23个主要组别之一。分类器被指示仅依赖诸如智能体在会话开始时加载的项目上下文、文件的名称和结构、他们引用的任何工件(例如法律文件、临床数据、财务报告、课程等)及其使用的词汇等信号。7 它被明确指示不要将编程行为视为编程职业的证据。只有当有明确信号表明软件或数据工作是用户的工作时,会话才会被分类到编程 SOC 代码(计算机和数学职业)。一个律师构建脚本以自动标记合同文件夹中缺失条款的会话,即使其工作主要是软件,也会被映射到法律职业。当没有关于用户职业的信号时,会话不进行分类。
我们能够推断出约70%会话的职业。在这个集合中,计算机和数学职业(涵盖大多数软件相关工作)不出所料是最大的群体。接下来是商业和金融运营;艺术、设计和媒体;管理;以及生命、物理和社会科学。我们样本中增长最快的非软件职业群体是管理、销售和法律职业。
工作
Claude Code 完成的工作构成在2025年10月至2026年4月间发生了实质性变化。最明显的变化是修复损坏代码的会话占比从33%下降到19%。取而代之的是,围绕代码的工作占比增加了。操作软件从会话的14%增长到21%。撰写和数据分析大约翻了一番,从会话的约10%增长到约20%。
任务本身也变得更有价值。我们通过询问该工作在自由职业市场上需要多少成本来近似每个会话的经济价值,并以真实发布信息的公开数据集进行校准。按照这个衡量标准,10月至4月间,平均会话的估算价值上升了27%。这一上升涵盖了许多类型的工作。构建、操作和修复类任务的价值都增长了约三分之一或更多(分别约为43%、34%和32%)。这些价格估计是粗略的,因此我们主要用它们来比较不同时间的任务,而不是作为按字面理解的美元价值。8 关于任务估算器的构建详情,请参见附录。

图4:Claude Code 工作的构成和价值,2025年10月至2026年4月。七个月窗口中各工作模式的会话占比。修复损坏代码的会话占比从33%降至19%,而操作软件、分析数据和撰写文档有所增长。
成功取决于用户带来的东西
任务的估算价值是了解 Claude Code 如何帮助人们完成工作的一种方式。另一个角度是看有多少会话是成功的,以及会话的哪些特征与成功相关。在我们所有的成功度量中,我们看到了一个清晰的模式:一个人在一次会话中表现出的专业水平越高,成功的可能性就越高。 大部分收益集中在专业水平量表的低端——新手会话与中级会话之间的差距大于中级与专家之间的差距。
在转向成功会话的特征之前,我们应该精确说明我们如何衡量成功。我们无法观察用户在真实世界中的结果,也无法直接询问他们是否从 Claude 那里得到了他们想要的东西。相反,我们依赖两种互补的基于会话记录的度量。
第一种是判定成功,来自一个分类器,它阅读完整的会话记录并判断这个人是否成功地完成了他们设定的目标(选项包括:成功、部分成功、失败、没有明确目标)。
然后,两个配套分类器评估该判断的证据强度,以确定已验证成功。成功信号分类器寻找可验证的成功证据。特别是,它寻找 git 活动(如与工作匹配的提交和拉取请求),以及通过测试套件和用户的明确确认。它将会话从"无信号"到"弱信号"(1)到"多个强信号"(5)进行评分。平行的失败信号评分体现了出错的证据——错误、失败的测试、重试、用户对输出的不满。
已验证成功要求会话既被判定为成功,又有至少一个强可验证的成功信号。对于以下侧重于会话成功或失败程度的分析,我们排除了被分类为"没有明确目标"的会话,这些会话约占我们全部样本的7.7%。
表2:从分类器得出的成功和失败定义。示例是对来自智能体编程交互公开数据集 SWE-chat、由我们分类器标记的真实会话的改写和总结。
专业知识的回报
那么,什么样的会话最成功呢?事实证明,上文描述的会话专业水平评级对会话的成功至关重要。
有人可能会担心专业水平并非真正的驱动因素——也许专家只是选择了不同的任务,或在其他方面有所不同。在本节中,我们通过比较同一类型工作、同一估算价值、同一月份、同一主题、来自同一广泛职业群体的人的会话,并询问结果如何因人的评定专业水平而异,来部分解决这一担忧。
在我们所有的成功度量中,一个人在一次会话中表现出的专业水平越高,该会话成功的可能性就越大。被评定为新手的会话达到我们最严格度量——已验证成功——的比例为15%,至少达到部分成功的比例为77%。被评定为中级或以上的会话达到已验证成功的比例为28-33%,达到部分成功的比例为91-92%。
在每一项度量中,大部分收益来自从新手到中级的跃升;在中级和专家之间,斜率递减。在附录中,我们给出了图5背后回归的详细信息。
图5:专业水平与会话如何结束。按用户在任务中的评定专业水平(从新手到专家的五级量表)划分的会话结果。左面板包括所有会话。中间和右面板限制为遇到麻烦(失败信号 > 3)的会话,并显示仍以各种成功和失败定义结束的占比。每个点都是调整后的比率——我们仅通过比较共享相同工作模式、相同任务价值档次、相同月份、相同任务主题和相同用户类型(是否软件相关职业)的会话来估计专业水平之间的差异。这些点背后的回归详细信息见附录。须线是样本均值的置信区间(大多数太小以至于在此图中不可见)。这些图排除了被成功结果分类器判定为没有明确目标的会话。
类似的梯度也出现在那些过程中遇到挑战的会话中。当失败信号记录了可验证的失败证据时,我们称一个会话遇到了麻烦。这可能是错误、失败的测试、多次尝试做同一件事,或用户表达沮丧或不满意。在遇到麻烦的会话中,达到已验证成功的占比从新手评级会话的4%上升到专家评级会话的15%,并考虑了上述所有控制变量。查看较宽松的度量,我们发现至少部分成功的占比在新手会话中为60%,在中级到专家会话中为80-81%。
我们还跟踪了反向关系——专业水平与各种失败度量之间的关系。请注意,在此分析中,被判定为失败的会话是指那些甚至没有部分成功的会话。如果一个遇到麻烦的会话被判定为失败且零行代码被编写,我们称其为被放弃:19%的用户看起来是新手的会话以放弃告终,而其他所有人则为5-7%。换句话说,经验最少的用户在努力获得他们想要的结果时更可能放弃。专业知识的价值部分似乎在于能够引导智能体朝着正确的方向前进。9
职业可能不如专业水平重要
软件相关职业的人总体上约30%的会话达到已验证成功,而来自其他职业的用户约26%的会话达到已验证成功。在产出代码的会话中(即至少添加或修改一行代码的会话),这些数字分别为34%和29%。在我们较宽松的成功定义下,软件相关职业与其他职业之间的差距缩小——两组在产出代码的会话中至少达到部分成功的比例分别为89%和88%。
这五个百分点的差距很小,并且在七个月中既没有扩大也没有缩小,即使两组的成功率都有所上升。在产出代码的会话中,我们数据集中十大职业中的每一个在成功率方面都在软件工程师的七个百分点以内。管理职业在已验证成功方面最高,略高于软件工程职业。他们较高的已验证成功率可能反映了管理技能可迁移到指挥智能体上。但也可能部分反映了我们的度量方式:验证部分依赖于会话记录中的明确确认,而管理者可能更倾向于在得到他们要求的东西时进行沟通。10
图6:按推断职业划分的编程会话中的已验证和判定成功率。在添加或更改至少一行代码的会话中,按用户推断的职业群体划分,满足严格成功定义——判定成功和已验证成功——的会话占比,针对十大群体。每个群体都在软件/数学用户(SOC 代码计算机和数学职业)的七个百分点以内。误差线是基于不同账户计算的95%置信区间。
展望
本报告的结果提供了智能体编程如何放大某些形式的知识和技能,同时替代其他形式的初步图景。在产出代码的会话中,每个主要职业的成功率都在软件相关职业的几个百分点之内。编程智能体似乎正在使编程背景对成功编程的相关性降低。
与此同时,成功的会话更有可能展现出领域专业知识。被评为专家的会话达到已验证成功的频率是新手的两倍以上,而当会话遇到麻烦时,新手放弃会话的比例是其他所有人的数倍。协作的形态为这幅图景增添了更多色彩——领域专家能够用他们给出的每条指令指挥 Claude 完成更多工作。因此,引导 Claude 走向成功的能力更多来自对某个领域的掌控,而非编写代码的能力。
在任何领域拥有这种掌控力的人,现在可能能够完成他们以前无法完成的技术工作。没有任何此类专业知识的人从同一工具中获得的东西将少得多。而且收益主要来自胜任力,而非精通——对领域的工作性掌握就能带来大部分好处,而深度专业化在此之上只增加了一点点。
这些发现是初步的。与我们大多数研究一样,我们无法衡量真实世界的结果,比如会话中编写的代码是否实际被使用或在之后被丢弃,或者它是否产生了具有经济价值的工件。此外,本报告排除的非交互式使用占了活动的相当大份额。开发一个框架来衡量它是未来工作的优先事项。而且我们对会话的所有分类都依赖于模型对会话记录的阅读。在附录中,我们展示了我们的分类器在预期方向上跟踪独立遥测数据,并在大多数会话上与一个强大的参考模型一致。但分类器在大规模验证方面仍然具有挑战性,而 Claude Code 会话增加了进一步的难度,因为它们可能太长太复杂,以至于人类标签无法作为真实标准。
随着模型、用户以及他们之间的分工发生变化,本报告中的图景将会更新。我们希望这些度量能让我们在重大转变发生时进行跟踪。例如,如果专业知识的回报开始随时间下降,这将表明模型开始提供用户目前带来的关键判断力,并且这些工具的收益正在扩展到领域专家之外。如果非软件职业用户成功完成编程会话的比例继续增长,这可能表明软件生产正在成为每个领域日常工作的一部分,而非单一职业的产物。这些转变将改变谁从智能体编程中受益以及受益多少,并将对劳动力市场中最受重视的东西产生影响。
引用
@online{hitzig2026agentic,
author = {Zoe Hitzig and Maxim Massenkoff and Eva Lyubich and Shaoyi Zhang and Ryan Heller and Peter McCrory},
title = {Agentic coding and persistent returns to expertise},
date = {2026-06-16},
year = {2026},
url = {https://www.anthropic.com/research/claude-code-expertise},
}
致谢
感谢:Jake Eaton、Sarah Pollack、Hanah Ho、Szymon Sacher、Anton Korinek、Santi Ruiz、Kerry Persen、Ankur Rathi、Alex Tamkin、Heather Whitney、Cat Wu、Kacie Jenkins、Jennifer Martinez、Amie Rotherham、Boris Cherny、Eleanor Dorfman、Miles McCain 和 Jack Clark。
脚注
来源:https://www.anthropic.com/research/claude-code-expertise
PDF:下载含附录的完整 PDF
附录:下载附录 PDF
附录的完整 PDF](https://cdn.sanity.io/files/4zrzovbb/website/0af218b2552ce823c86892cbf03f3a4a75709766.pdf)附录:下载附录 PDF
-
第一项研究覆盖了128,000个公共仓库,估计截至2025年10月底,16-23%的项目中检测到了编程智能体活动。使用相同方法的后续研究发现,在该时期之后创建的项目中,采用率翻了一番以上。编程智能体活动的检测依赖于智能体共同作者标签和配置文件,这可能会低于实际使用量。 ↩︎
-
注意,这衡量的是 Claude Code 活跃运行的小时数,而非用户实际打字与 Claude 交互的时间。 ↩︎
-
此外,Sarkar(2026)和 Baumann 等人(2026)分别通过研究 Cursor IDE 会话和公开会话,提供了理解智能体编程的视角。 ↩︎
-
注意,我们排除了通过第三方集成开发环境和软件开发工具包运行的 Claude Code 使用。因此,我们也排除了"无头"模式下的会话,即用户在 CLI 中通过
claude -p "<prompt>"运行单条提示。我们排除这种使用方式是因为它在两个关键方面有所不同——其中很多是程序化的,Claude Code 嵌入在自动化工具和流水线中,而非与人对话;即使有用户在场,我们也无法像在涵盖的平台上那样端到端地看到用户的会话。 ↩︎ -
除非另有说明,本报告中所有分类器均使用 Claude Sonnet 4.6。分类器的详细信息,包括其确切的完整文本和验证结果,可在附录中找到。 ↩︎
-
每次提示的操作分布尾部很长。约2%的会话平均每次提示超过100个操作,约每270个中有1个平均超过200个,约每2,300个中有1个平均超过500个。 ↩︎
-
与本报告中的所有度量一样,这些推断是使用我们的隐私保护分析工具产生的。没有研究人员阅读单个会话记录,职业标签永远不会链接到可识别的用户,我们只观察超过最低独立用户数的聚合数据。 ↩︎
-
我们这里采用的估算方法旨在获取会话价值的相对差异,而非绝对价值。美元金额基于与自由职业市场的比较——而非受薪工作——并且来自 Claude Code 会话与招聘信息之间最终模糊的匹配。由于相对估算会消除这些问题带来的任何一致性偏差,我们更加强调相对差异。 ↩︎
-
以遇到麻烦为条件会为不同用户选择不同的会话。总体上专家遇到麻烦的频率较低,因此他们确实遇到的麻烦会话很可能是更困难的问题——使用会话的价格估计作为会话复杂性的代理,我们看到一个遇到麻烦的会话的平均估算价值从专业水平量表的底部到顶部大约翻了一番。因此,恢复率差距的部分原因可能反映了新手在常规问题上卡住,而专家在具有挑战性的难题上卡住。 ↩︎
-
即使模型误分类了管理者,用来确定用户可能是管理者的信号——也许体现在任务的委托和指定方式上——往往与更高的成功率相关联。换句话说,也许像管理者一样行事会带来更高的成功率。 ↩︎
更多推荐



所有评论(0)