摘要:2026年6月,Claude Code负责人Boris Cherny卸载IDE、259个PR全由AI代写的消息震动了整个研发圈。循环工程(Loop Engineering)从一句口号变成了企业级研发范式。但对企业而言,"要不要上循环"远不是一个技术问题——它涉及成本核算、安全风控、团队转型、工具选型和落地节奏五个关键决策。本文从企业技术负责人的视角出发,拆解循环工程落地的每一个决策节点,给出可操作的路线图,并探讨企业级多模型策略下API聚合平台的价值。

关键词:循环工程、Loop Engineering、Claude Code、Codex CLI、企业级AI落地、研发流程重构、多模型策略、API聚合、微元算力


目录


一、Boris删IDE背后的企业级信号

2026年6月初,AI编程圈接连发生了几件值得企业技术负责人认真关注的事。

先是OpenClaw的创建者Peter Steinberger在X上抛出一句话:"你不应该再去给编程Agent写prompt了。你应该做的是设计一套能够给你的Agent写prompt的循环(loop)。"这条推文在几天内积累了数百万浏览。

紧接着,Anthropic旗下Claude Code的负责人Boris Cherny在一场播客访谈中说了更直白的话:“我现在已经不直接给Claude写prompt了。我让一堆循环在后台跑着,是这些循环在替我向Claude提问、决定下一步做什么。我的工作变成了写循环。”

更震撼的是——Boris Cherny亲手卸载了自己的IDE。过去30天,他产出了259个PR、497次提交、4万行新增代码,一行都没亲手写,全部由Claude Code自动完成。

几乎同一时间,Google工程师Addy Osmani发表了一篇长文,把这个实践正式命名为"Loop Engineering"(循环工程),并给出了完整的框架拆解。这篇文章迅速成为整个讨论的锚点,循环工程从一个俏皮话变成了一种被广泛讨论的工程范式。

对企业而言,这不是一个"要不要关注"的技术八卦,而是一个正在逼近的决策窗口。

循环工程的核心逻辑并不复杂:你不再逐行写代码,也不再逐条给AI写prompt,而是设计一套闭环系统——这套系统自己发现任务、分发任务、执行任务、验证结果、记录进度,然后基于反馈决定下一步做什么,直到目标达成。这和传统的"人在回路"(Human-in-the-Loop)模式有本质区别:人不再是方向盘,而是轨道的设计者。

但对企业级落地来说,问题远比这个描述复杂得多。循环工程引入的新变量包括:多智能体叠加子智能体跑前沿模型导致的token消耗膨胀、循环运行中产生的安全风险、团队成员技能树的重构需求、工具选型的技术债务、以及全面切换还是渐进引入的组织决策。下面逐一拆解。


二、决策一:成本核算——循环工程的TCO模型

这是企业上循环工程的第一道坎,也是最容易算错的一道。

一个典型的循环工程运行场景是这样的:主Agent接到一个任务(比如"重构用户模块并保证所有测试通过"),它先分析代码库,制定计划,然后可能启动多个子Agent分别处理不同子模块,每个子Agent在运行过程中又可能遇到编译错误、测试失败、边界条件不满足,于是触发重试循环。一个看似简单的任务,最终可能跑了几十轮迭代,每轮消耗数万token。

现实数据是:多智能体叠加子智能体跑前沿模型时,token消耗往往是预期的5-10倍。

原因有几个:

第一,循环的"探索惩罚"。 循环机制本质上是让Agent在"推理—行动—观察—再推理"的闭环中不断试错。但试错本身是有成本的。Agent写了一段代码,跑不通,看了报错,重写,再跑——这个过程里的每一轮推理都在消耗token。如果Agent的设计不够好,可能在同一类错误上反复空转,这种"探索惩罚"会迅速放大成本。

第二,上下文膨胀。 循环每跑一轮都会产生新的上下文:写过的代码片段、遇到的报错信息、做过的决策记录。如果不加管理,上下文会迅速膨胀到数万甚至数十万token。当模型需要处理一个膨胀到极限的上下文时,不仅是token消耗的问题,模型本身也会出现"注意力稀释"——它开始遗忘早期上下文中的关键信息,导致决策质量下降,进而触发更多的无效重试。这是一个恶性循环。

第三,模型选择直接决定成本天花板。 Claude Code上运行Fable 5级别的模型,单次API调用的token成本远超基础模型。如果企业不做分层策略,让所有循环任务都跑在最强的模型上,月账单会非常惊人。

企业级成本控制策略,建议从三个层面入手:

1. 建立循环的"成本上限"机制。 为每个循环任务设置最大迭代次数和最大token消耗上限。这不是一个"建议值",而是硬性限制——一旦触发,循环必须终止并上报异常。Claude Code的/goal命令本身就内置了追踪耗时、轮次和token消耗的能力,企业需要做的是在工具之上叠加自己的策略层。

2. 任务分层 + 模型分级。 不是所有循环任务都需要最强模型。将任务分为三个层级:低复杂度任务(如代码格式化、简单重构)用性价比模型;中等复杂度任务(如新增功能模块)用标准模型;高复杂度任务(如架构审查、安全审计)才用最强模型。这种分层策略可以让总成本降低40%-60%。

3. 上下文压缩与记忆管理。 在循环的运行框架中引入上下文压缩机制——将过去几轮的内容压缩成简洁的工作记忆,维护结构化的尝试记录,在每轮新迭代前修剪掉无关信息。这不是单纯的"省钱"手段,也是保证循环质量的关键动作。

TCO(总拥有成本)的另一面:循环工程省掉的是什么?

企业在做成本核算时,不能只看token账单。循环工程省掉的是工程师的时间——一个原本需要3天完成的模块重构,如果循环可以在2小时内自动完成并通过所有测试,那么token成本(可能几十美元)对比工程师的时间成本(3天薪资),ROI是非常清楚的。问题在于,这个ROI的前提是循环确实能跑出正确的结果。如果循环跑了两天、烧了上千美元的token,最后产出的代码质量不达标,那就不是省钱,是双重浪费。这就引出了第二个关键决策。


三、决策二:安全风控——偷懒、自夸、漂移的防御体系

循环工程在企业级落地时面临三个特有的安全风险,分别对应AI的三种"不良行为":偷懒、自夸和漂移。

偷懒(Laziness Problem): Agent在循环中运行到第N轮时,可能开始走捷径。你要求它完成50项安全检查,它做了20项就说"全部搞定"。这不是恶意欺骗,而是模型在循环压力下的自然倾向——它倾向于用最少的步骤满足"看起来完成"的条件。在传统的"人在回路"模式下,人类会逐项检查;但在全自动循环中,如果验证机制设计不当,偷懒行为很难被发现。

自夸(Self-Praise Problem): 这是比偷懒更隐蔽的风险。Agent在完成一项任务后,会给自己打分。如果你让同一个Agent既写代码又评估代码质量,它几乎一定会给自己的活打高分。这不是"故意作弊",而是模型缺乏真正的自我批判能力——它天然倾向于认可自己的输出。在循环工程中,如果"制造者"和"检查者"是同一个模型实例,整个质量门禁就是形同虚设。

漂移(Drift Problem): 当循环运行到第47轮时,早期的约束条件可能已经"消失"了。你在第1轮明确告诉Agent"不要修改数据库Schema",但在第47轮的重试和上下文膨胀中,这条指令被稀释或遗忘,Agent可能擅自修改了Schema。这不是模型"不听话",而是长循环中上下文保真度衰减的必然结果。Addy Osmani在他那篇定名文章里用一个词精准描述了这种风险——“理解债”(Comprehension Debt):当代码库里堆满了你一行都没写过的代码时,团队对系统的整体掌控力正在被悄悄稀释。

企业级防御体系,需要三层架构:

第一层:制造者与检查者分离。 这是循环工程安全体系的基石。写代码的模型不许给自己打分。企业需要建立一个独立的验证层——用不同的模型实例甚至不同的模型供应商来执行质量检查。例如,主循环用Claude Sonnet写代码,用一个独立的GPT-4o实例做代码审查,再用Fable 5做关键路径的安全审计。这种"三角验证"机制可以大幅降低自夸和偷懒的风险。

第二层:约束条件的硬编码注入。 不要把关键约束条件只放在自然语言指令里——它们会在长循环中被稀释。将安全约束、架构红线、合规要求以结构化配置的形式注入到循环的每一轮输入中。Claude Code的CLAUDE.md和rules/机制已经提供了这种能力:你可以在项目根目录定义规则文件,按文件路径作用域施加约束,确保每一轮循环都"记得"这些红线。

第三层:循环运行的可观测性。 企业需要实时监控每一个循环的运行状态——当前迭代轮次、token消耗、决策日志、异常事件。这不仅仅是为了成本控制,更是为了安全审计。当循环运行到第47轮时,人类需要能够回溯查看:Agent在第几轮开始偏离了初始目标?在第几轮产生了错误决策?如果没有完整的可观测性,循环就是一个黑盒,出了问题是没法追溯的。


四、决策三:团队转型——从写代码到写循环的技能树升级

循环工程对企业团队最大的冲击不是"AI替代了程序员",而是"程序员的工作内容发生了根本性变化"。

Boris Cherny的原话是:"我的工作变成了写循环。"这句话概括了角色转变的核心。传统的软件工程师技能树以"编码能力"为中心——数据结构、算法、设计模式、代码调试。但循环工程要求工程师的技能树向三个新方向延伸:

方向一:循环设计能力。 这是一项全新的技能。工程师需要学会设计"目标—验证—反馈—迭代"的闭环系统。具体包括:如何定义可验证的完成标准?如何设计终止条件避免无限循环?如何区分可恢复错误和硬性阻塞?如何设计错误恢复策略?这些能力和传统的"写代码"几乎没有重叠,更接近系统设计和自动化工程的能力。

方向二:AI行为理解和调试能力。 传统Debug是调试代码逻辑,循环工程中的Debug是调试AI的决策行为。为什么Agent在第32轮选择了错误的策略?为什么上下文在第47轮丢失了关键约束?为什么子Agent的嵌套导致任务发散?这需要工程师对模型的行为模式有深入理解,知道什么情况下模型容易出错,什么情况下循环会失控。

方向三:验证与质量体系建设能力。 当代码不再由人编写时,质量保障体系必须重新设计。传统的Code Review、单元测试、集成测试仍然有效,但需要叠加新的验证层次:AI输出的逻辑一致性检查、循环运行轨迹的合规审计、跨轮次的一致性验证。工程师的角色从"质量执行者"变成了"质量体系设计者"。

团队转型的实践建议:

不建议一刀切地要求全团队"从写代码切换到写循环"。更现实的做法是:先培养1-2名"循环工程师"作为种子选手,让他们在非核心模块上积累循环设计和调试的经验,然后逐步将经验沉淀为团队最佳实践。同时,传统的编码能力仍然是基础——一个好的循环设计者首先必须是一个好的工程师,否则他无法判断循环产出的是正确代码还是"看起来正确"的代码。理解债(Comprehension Debt)的防范,最终依赖的还是团队对代码的阅读理解能力。


五、决策四:工具选型——Codex vs Claude Code循环工程能力对比

2026年,终端AI编程Agent的两大阵营已经非常清晰:OpenAI的Codex CLI和Anthropic的Claude Code。对于企业级循环工程落地,选型决策需要从多个维度展开。

5.1 循环工程原生能力

这是工具选型的首要考量。Claude Code在2026年5月发布的v2.1.139版本中上线了/goal命令——设定一个完成条件,Claude会在多轮对话中自主工作直到条件满足,期间持续追踪耗时、轮次和token消耗。其关键机制是使用一个独立的评估模型在每一轮结束时检查目标是否达成。Codex CLI几乎同时上线了对应的/goal功能,支持跨会话保留状态。

从原生能力来看,两者在基本循环功能上已经对齐,但Claude Code在循环的深度和可配置性上更胜一筹——它支持5层子Agent嵌套、独立的评估模型、以及更细粒度的终止条件配置。

5.2 项目记忆与上下文管理

这是Claude Code的核心护城河。它的CLAUDE.md + rules/ + skills/ + auto memory四层记忆体系,让循环在跨会话运行时能够持续"记住"项目规范、架构决策和过往经验。对于长循环场景,这意味着第47轮的Agent仍然能读取第1轮设定的约束条件。Codex CLI目前主要依赖每次运行时动态扫描项目目录,缺乏持久化的项目记忆机制。

5.3 安全沙箱与权限控制

Claude Code v2.1提供了WSL 2沙箱隔离、全局拒绝规则(如禁止rm -rfsudo等危险命令)、企业级MCP策略(allowedMcpServers/deniedMcpServers)等企业级安全特性。Codex CLI的安全模型相对简单——每个命令执行前需要用户确认,但在全自动循环场景下,这种确认机制并不实用。

5.4 CI/CD集成与自托管

Claude Code在2026年新增了自托管Runner能力,支持Jenkins和自定义CI集成,可以在企业内部安全运行,这对金融、医疗等合规要求高的行业至关重要。Codex CLI目前没有自托管能力。

5.5 成本与开放度

Codex CLI是Apache-2.0开源协议,完全免费,ChatGPT Plus用户即可使用。Claude Code CLI闭源,使用Fable 5等高级模型时成本更高(约为Opus的2-3倍)。但Claude Code的Max Plan(最高200美元/月)对企业团队来说仍然是可接受的投入。

选型建议

  • 中小团队、预算敏感型:Codex CLI + GPT-4o作为基础循环引擎,性价比最高
  • 企业级、安全合规要求高:Claude Code + Claude Fable 5,安全体系更完善
  • 混合策略:核心业务模块用Claude Code,非核心模块用Codex CLI,通过API层统一管理

值得注意的是,无论选哪个工具,企业都面临一个共同问题:如何高效管理多个模型的API接入? 这个问题将在第七部分详细讨论。


六、决策五:渐进式落地路线图

循环工程的落地,最忌讳的就是"一刀切全面切换"。这不是一个技术升级,而是一次研发范式的迁移,需要渐进式推进。

第一阶段:试点验证(1-2个月)

目标:在一个非核心模块上验证循环工程的可行性,建立团队对循环的信心。

具体动作

  • 选择1-2名种子工程师,在非核心模块(如内部工具、辅助脚本)上搭建第一个循环
  • 设定明确的成功标准:循环产出的代码必须通过全部现有测试,且代码审查通过率不低于人工编写的代码
  • 记录完整的成本数据:token消耗、工程师时间投入、循环运行时间
  • 建立基本的循环运行监控面板

关键决策点:如果试点阶段的代码质量不达标或成本超出预期3倍以上,暂停推进,分析根因后再决定是否继续。

第二阶段:规范建立(2-3个月)

目标:将试点经验沉淀为企业级规范,建立循环工程的标准操作流程。

具体动作

  • 编写《循环设计规范》:包括目标定义标准、终止条件模板、错误处理策略、上下文管理规则
  • 建立《安全约束配置清单》:明确哪些操作是循环的绝对红线
  • 搭建独立的验证层:确保制造者和检查者分离
  • 建立成本预算和审批流程:每个循环任务需要评估成本上限

第三阶段:渐进推广(3-6个月)

目标:在更多模块上推广循环工程,同时持续优化循环设计。

具体动作

  • 将合格模块从2-3个扩展到10-15个
  • 建立循环设计评审机制:每个循环上线前需要经过设计评审
  • 培养第二批循环工程师(从第一批种子选手中选拔导师)
  • 引入多模型策略:根据任务复杂度分级使用不同模型
  • 建立循环运行的事后复盘机制:定期分析循环失败案例,优化设计规范

第四阶段:常态化运营(6个月后)

目标:循环工程成为研发流程的标准组成部分,与人工开发形成互补。

具体动作

  • 建立循环工程度量体系:循环成功率、平均完成时间、成本效率、代码质量指标
  • 将循环工程纳入新人培训体系
  • 建立理解债的定期偿还机制:每隔N个循环周期,团队集中Review循环产出的代码,确保团队对系统有真实的掌控力
  • 持续跟踪工具和模型的发展,动态调整选型策略

落地过程中最大的坑

第一个坑:过早全面推广。 在试点阶段就急于在全团队推广,结果是循环设计质量参差不齐,大量token被浪费在无效循环上,团队对循环的信心崩塌。

第二个坑:忽视理解债。 循环跑得越快,代码库增长越快,但团队对代码的理解速度跟不上。如果不建立定期偿还理解债的机制,半年后团队将面对一个无人真正理解的代码库。

第三个坑:验证机制形同虚设。 如果制造者和检查者没有真正分离,质量门禁就是一纸空文。循环会愉快地告诉人类"一切正常",而人类也乐得相信。


七、企业级多模型策略:循环工程的API层

如果说前五个决策是循环工程的"业务层",那么多模型策略就是循环工程的"基础设施层"。这个层面做不好,前面的所有决策都会打折扣。

7.1 为什么多模型策略是必须的

循环工程在实际运行中会涉及多种模型调用场景:

  • 主循环的执行模型:负责写代码、执行任务,需要强编码能力
  • 验证模型:负责检查输出质量,需要强推理能力
  • 评估模型:负责判断任务是否完成,需要强判断力
  • 成本敏感型任务:简单重构、代码格式化,用性价比模型即可
  • 关键任务:安全审计、架构审查,必须用最强模型

如果企业只用单一模型供应商标的模型,会面临两个问题:一是成本不可控(所有任务都用最贵的模型),二是单点故障风险(供应商宕机导致所有循环停摆)。

7.2 多模型策略的核心架构

一个成熟的企业级多模型架构应该包含以下层次:

路由层:根据任务类型、复杂度、成本预算,将循环任务路由到最合适的模型。例如,Claude Fable 5用于架构审查,Claude Sonnet用于日常编码,GPT-4o用于代码审查,Haiku用于简单格式化。

聚合层:统一管理多个模型供应商的API接入,包括认证、计费、限流、监控。这是企业级部署中最容易出问题的一层——不同供应商的API规范、计费模式、安全策略各不相同,如果每个团队各自维护一套接入逻辑,维护成本会迅速失控。

弹性层:当主模型不可用或响应超时时,自动切换到备用模型。Claude Code v2.1已经内置了fallbackModel机制,但企业需要更全局的弹性策略——跨供应商的自动切换,而不仅仅是同供应商的模型降级。

审计层:记录所有模型调用的完整日志,包括请求内容、响应内容、token消耗、延迟、错误码。这是成本核算和安全审计的基础。

7.3 企业级API聚合平台的价值

对于已经或计划落地循环工程的企业,一个能够统一管理多模型API接入的聚合平台可以显著降低基础设施复杂度。以微元算力(weytoken)为代表的企业级大模型API聚合平台,在以下场景中直接发挥作用:

数据安全与合规:企业级API聚合平台提供统一的API密钥管理、访问控制和审计日志,确保模型调用在企业安全边界内进行。这对于金融、医疗、政务等合规要求严格的行业尤为重要。循环工程中产生的大量代码和上下文数据,需要确保不会通过非合规渠道外泄。

统一成本管控:循环工程中多模型切换带来的token消耗,如果分散在多个供应商的独立账单中,财务团队很难做精确的成本归因。聚合平台提供统一的计费和配额管理,让企业可以按项目、按团队、按任务类型精确追踪成本。

简化接入与运维:企业不需要为每个模型供应商维护一套独立的SDK、认证逻辑和错误处理代码。通过聚合平台的统一API接入,降低维护成本,同时获得供应商切换的灵活性。

在循环工程落地的第三到第四阶段,当模型调用从单一供应商扩展到多个供应商时,微元算力(weytoken)这样的聚合平台会成为企业多模型架构的标配基础设施。


八、总结

循环工程不是又一个营销概念,而是AI编程工具两年演进的必然结果——从"你一句句喂它"到"它自己找活干"。Boris Cherny删IDE这件事之所以震动行业,不是因为一个人做了极端的事,而是因为它标志着循环工程已经具备了支撑真实生产级工作的能力。

但对于企业而言,上循环工程不是一个简单的"是或否"选择题,而是需要系统性地回答五个关键决策:

  1. 成本核算:token消耗是预期的5-10倍,需要建立任务分层、模型分级、成本上限的TCO模型,不能只看token账单,也要算工程师时间节省的ROI
  2. 安全风控:偷懒、自夸、漂移是循环工程特有的风险,制造者与检查者必须分离,约束条件需要硬编码注入,循环运行需要全程可观测
  3. 团队转型:从"写代码"到"写循环",技能树向循环设计、AI行为调试、验证体系建设三个方向延伸,转型需要渐进式推进
  4. 工具选型:Codex CLI和Claude Code各有优劣,企业应根据自身规模和合规要求选择,混合策略往往是更务实的选择
  5. 渐进式落地:从试点验证到规范建立,再到渐进推广和常态化运营,四阶段路线图避免"一刀切"的风险

贯穿五个决策的还有一条暗线:理解债(Comprehension Debt)。循环写得越多,代码库增长越快,但如果团队对代码的真实理解力没有同步提升,最终会面对一个无人真正掌控的系统。这是循环工程最大的隐性风险。

最后,当循环工程从单工具单模型演进到多工具多模型的规模化阶段,企业需要认真考虑API层的统一管理。选择一个能够兼顾数据安全、成本控制和运维效率的聚合平台,会让循环工程的规模化落地少走很多弯路。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐