📌 核心发现

2026年6月18日,Anthropic发布Project Fetch Phase Two研究结果:Claude 4.7自主完成机器人任务的速度是人类团队的20倍,代码量不到传统方式的十分之一。

这不是抽象的AI会让编程更高效的预言,而是有具体数据、有实验对比、有代码统计的硬核研究。

本文将聚焦一个被大多数人忽视但极其关键的发现:LLM在物理世界的代码效率革命,以及它揭示的Agent三阶段范式演进。

🎯 一、Project Fetch:从扔纸球看LLM的物理世界能力

实验背景

Project Fetch的测试场景看似简单:让机器狗(Quadruped)从物理实验室的一端移动到另一端,捡起一个纸球,然后带回。

但这个任务实际上涉及多个复杂的物理操作环节:

任务环节 所需技能 难度
导航移动 路径规划、避障 中等
拾取物体 机械臂控制、抓取力调节
保持平衡 四足协调、重心控制
携带返回 多关节同步、环境感知

Phase One vs Phase Two 对比

实验阶段 工作方式 完成时间 相对速度
Phase One(人类团队) 人类机器人专家写代码 10天 1x(基准)
Phase One(+Claude辅助) 人类写代码,Claude辅助优化 5天 2x
Phase Two(Claude 4.7自主) Claude 4.7独自完成全部 12小时 20x

关键洞察:Claude 4.7不是辅助人类编程,而是完全自主完成任务——从理解任务到编写代码到调试执行,全程无需人类干预。

📊 二、1/10代码量背后的效率革命

传统机器人编程的痛点

在机器人领域,存在一个长期被忽视的矛盾:

最懂机器人物理的人(机器人工程师),往往不是最擅长写代码的人。

这导致:

  • 机器人专家用大量时间写低效代码
  • 代码冗余、重复、难以维护
  • 一个小功能的改动需要数天

Claude 4.7的代码效率

指标 人类团队 Claude 4.7 变化
代码量 100%(基准) <10% 减少90%+
开发时间 10天 0.5天 缩短20x
人类干预 持续 0 完全自主
代码简洁度 中等 极高 模块化、可维护

为什么代码量能减少90%?

Anthropic分析发现,Claude 4.7生成的代码有以下特点:

  1. 自动抽象:将重复逻辑封装为通用函数,避免Copy-Paste
  2. 最优算法选择:自动选择最高效的数学方法和数据结构
  3. 零冗余:没有为了调试而添加的临时代码
  4. 自文档化:代码本身就是最好的注释

机器人工程师的启示:LLM不是替代你,而是让你专注于机器人物理本身,把繁琐的编程交给AI。

🔄 三、Agent三阶段演进:从帮助人类到模型自主

Project Fetch Phase Two的最大意义,不在于它完成了某个具体任务,而在于它验证了Agent能力从虚拟世界到物理世界的迁移

阶段一:帮助人类(Help Humans)

代表:GitHub Copilot、Cursor Tab

模式:AI作为副驾驶,人类主导,AI辅助补全代码

特点

  • 人类写代码,AI提供单行/多行建议
  • 人类负责架构设计和逻辑判断
  • 适合日常编码、快速原型

阶段二:帮助模型(Help Models)

代表:Claude Code、Devin

模式:AI帮助AI——一个模型负责规划,另一个模型负责执行

特点

  • 多Agent协作,任务自动分解
  • 人类只需设定目标和验收标准
  • 适合复杂项目的端到端开发

阶段三:模型自主(Model Autonomy)

代表:Project Fetch Phase Two

模式:模型完全自主理解任务、规划、执行、验证

特点

  • 物理世界交互:不仅是写代码,还要操控真实硬件
  • 闭环反馈:代码执行→观察结果→自我修正→重新执行
  • 零人类干预:从任务描述到完成,全程自动化

关键转折:Anthropic观察到,能力从虚拟Agent(写代码)到物理Agent(操控机器人)的迁移,不是通过专门的机器人训练实现的,而是通用LLM能力自然涌现的结果。

🚀 四、为什么这是范式跃迁而非渐进改进?

1. 从编程工具到物理执行器

传统LLM(如Copilot)是软件工具——它帮你写代码,但代码怎么运行、是否有效,它不管。

Project Fetch Phase Two中的Claude 4.7是物理执行器——它写代码,然后直接操控机器人验证,根据验证结果自我修正。

这是根本性的区别:

  • 软件Agent:输出是代码,人类负责执行
  • 物理Agent:输出是物理世界的动作,AI闭环执行

2. 从专家专用到人人可用

Anthropic的Phase One实验揭示了一个有趣的事实:

人类团队之所以花了10天,不是因为任务本身难,而是因为机器人专家不擅长编程。

Claude 4.7的介入彻底改变了这一点:

  • 你不需要是编程专家,只需要描述你想让机器人做什么
  • LLM自动将自然语言转化为高效的机器人控制代码
  • 这意味着机器人技术的民主化——任何人都可以用自然语言操控机器人

3. 通用scaling的涌现能力

最令人惊讶的发现:Claude 4.7的物理世界能力不是专门训练出来的

Anthropic没有:

  • ❌ 专门训练机器人控制数据
  • ❌ 针对机械臂抓取做强化学习
  • ❌ 收集大量物理交互数据

Claude 4.7的机器人能力来自:

  • 通用LLM scaling:更大的模型、更多的训练数据
  • 代码能力迁移:擅长写代码的模型,自然擅长写机器人控制代码
  • 推理能力泛化:物理世界的运动规划,本质上是数学和逻辑问题

这意味着:未来LLM的物理世界能力,可能随着模型规模的增加而自然涌现,无需专门的具身智能训练。

⚠️ 五、Claude 4.7仍无法完成的任务

尽管成果惊人,但Anthropic坦诚地列出了Claude 4.7的局限:

任务类型 表现 原因
闭环精细控制 ❌ 失败 精确控制机械臂抓取沙滩球需要实时视觉反馈闭环
物理环境变化 ⚠️ 有限 环境突变时模型需要重新推理
多任务并发 ⚠️ 有限 同时控制移动+抓取+平衡需要更高并行能力

关键局限:当前LLM是开环控制——它规划一次,执行一次,然后验证。而真正的物理世界需要闭环控制——持续感知、实时调整。

这恰恰是下一阶段(Phase Three)的研究方向。

🔮 六、对机器人行业的启示

1. 机器人工程师的角色转变

传统角色 新角色 变化
写机器人控制代码 定义任务和验收标准 从怎么做到什么
调试代码 验证物理结果 从代码调试到物理验证
手动编程 自然语言描述需求 从编程语言到自然语言

2. 机器人公司的战略调整

  • 技术栈简化:不再需要庞大的机器人软件团队
  • 产品迭代加速:从月到天的开发周期
  • 成本大幅降低:人力成本减少,开发效率提升

3. 对具身智能研究的启示

传统具身智能研究的方向是:

  1. 收集大量物理交互数据
  2. 训练专门的机器人模型
  3. 在仿真环境中验证

Project Fetch Phase Two提示了一种新路径

  1. 提升通用LLM的推理和代码能力
  2. 让LLM自动生成物理控制代码
  3. 在真实环境中闭环验证

这可能意味着:通用LLM的scaling比专门的机器人训练更重要。

📚 总结

Anthropic Project Fetch Phase Two的核心贡献,不只是展示了Claude 4.7能操控机器人,而是揭示了一个更深刻的趋势

LLM的能力正在从虚拟世界(写代码)自然扩展到物理世界(操控机器人),而这种扩展的核心驱动力是通用scaling,而非专门的物理训练。

三个关键数据值得记住:

  • 20倍:任务完成速度提升
  • 1/10:代码量减少到原来的十分之一以下
  • 0:人类干预次数(完全自主)

这不是未来的想象,而是已经发生的现实。

📖 参考资料

  1. Anthropic原文:Project Fetch Phase Two (2026-06-18)
  2. Anthropic Computer Use
  3. Project Fetch Phase One

💬 讨论

你觉得LLM的物理世界能力应该通过通用scaling自然涌现,还是需要专门的机器人训练?

欢迎在评论区分享你的观点!👇

📢 声明:本文仅用于技术研究和学术交流,旨在帮助读者理解AI在物理世界的最新进展。

📝 关于本文:本文基于Anthropic 2026年6月18日发布的最新研究进行深度解读。如有理解偏差,请以原文为准。

🔥 如果这篇文章对你有帮助,欢迎点赞、收藏、转发!你的支持是我持续更新的动力!

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐