从“软件Agent“到“物理Agent“:Anthropic Project Fetch Phase Two揭示的代码效率革命
📌 核心发现
2026年6月18日,Anthropic发布Project Fetch Phase Two研究结果:Claude 4.7自主完成机器人任务的速度是人类团队的20倍,代码量不到传统方式的十分之一。
这不是抽象的AI会让编程更高效的预言,而是有具体数据、有实验对比、有代码统计的硬核研究。
本文将聚焦一个被大多数人忽视但极其关键的发现:LLM在物理世界的代码效率革命,以及它揭示的Agent三阶段范式演进。
🎯 一、Project Fetch:从扔纸球看LLM的物理世界能力
实验背景
Project Fetch的测试场景看似简单:让机器狗(Quadruped)从物理实验室的一端移动到另一端,捡起一个纸球,然后带回。
但这个任务实际上涉及多个复杂的物理操作环节:
| 任务环节 | 所需技能 | 难度 |
|---|---|---|
| 导航移动 | 路径规划、避障 | 中等 |
| 拾取物体 | 机械臂控制、抓取力调节 | 高 |
| 保持平衡 | 四足协调、重心控制 | 高 |
| 携带返回 | 多关节同步、环境感知 | 高 |
Phase One vs Phase Two 对比
| 实验阶段 | 工作方式 | 完成时间 | 相对速度 |
|---|---|---|---|
| Phase One(人类团队) | 人类机器人专家写代码 | 10天 | 1x(基准) |
| Phase One(+Claude辅助) | 人类写代码,Claude辅助优化 | 5天 | 2x |
| Phase Two(Claude 4.7自主) | Claude 4.7独自完成全部 | 12小时 | 20x |
关键洞察:Claude 4.7不是辅助人类编程,而是完全自主完成任务——从理解任务到编写代码到调试执行,全程无需人类干预。
📊 二、1/10代码量背后的效率革命
传统机器人编程的痛点
在机器人领域,存在一个长期被忽视的矛盾:
最懂机器人物理的人(机器人工程师),往往不是最擅长写代码的人。
这导致:
- 机器人专家用大量时间写低效代码
- 代码冗余、重复、难以维护
- 一个小功能的改动需要数天
Claude 4.7的代码效率
| 指标 | 人类团队 | Claude 4.7 | 变化 |
|---|---|---|---|
| 代码量 | 100%(基准) | <10% | 减少90%+ |
| 开发时间 | 10天 | 0.5天 | 缩短20x |
| 人类干预 | 持续 | 0 | 完全自主 |
| 代码简洁度 | 中等 | 极高 | 模块化、可维护 |
为什么代码量能减少90%?
Anthropic分析发现,Claude 4.7生成的代码有以下特点:
- 自动抽象:将重复逻辑封装为通用函数,避免Copy-Paste
- 最优算法选择:自动选择最高效的数学方法和数据结构
- 零冗余:没有为了调试而添加的临时代码
- 自文档化:代码本身就是最好的注释
机器人工程师的启示:LLM不是替代你,而是让你专注于机器人物理本身,把繁琐的编程交给AI。
🔄 三、Agent三阶段演进:从帮助人类到模型自主
Project Fetch Phase Two的最大意义,不在于它完成了某个具体任务,而在于它验证了Agent能力从虚拟世界到物理世界的迁移。
阶段一:帮助人类(Help Humans)
代表:GitHub Copilot、Cursor Tab
模式:AI作为副驾驶,人类主导,AI辅助补全代码
特点:
- 人类写代码,AI提供单行/多行建议
- 人类负责架构设计和逻辑判断
- 适合日常编码、快速原型
阶段二:帮助模型(Help Models)
代表:Claude Code、Devin
模式:AI帮助AI——一个模型负责规划,另一个模型负责执行
特点:
- 多Agent协作,任务自动分解
- 人类只需设定目标和验收标准
- 适合复杂项目的端到端开发
阶段三:模型自主(Model Autonomy)
代表:Project Fetch Phase Two
模式:模型完全自主理解任务、规划、执行、验证
特点:
- 物理世界交互:不仅是写代码,还要操控真实硬件
- 闭环反馈:代码执行→观察结果→自我修正→重新执行
- 零人类干预:从任务描述到完成,全程自动化
关键转折:Anthropic观察到,能力从虚拟Agent(写代码)到物理Agent(操控机器人)的迁移,不是通过专门的机器人训练实现的,而是通用LLM能力自然涌现的结果。
🚀 四、为什么这是范式跃迁而非渐进改进?
1. 从编程工具到物理执行器
传统LLM(如Copilot)是软件工具——它帮你写代码,但代码怎么运行、是否有效,它不管。
Project Fetch Phase Two中的Claude 4.7是物理执行器——它写代码,然后直接操控机器人验证,根据验证结果自我修正。
这是根本性的区别:
- 软件Agent:输出是代码,人类负责执行
- 物理Agent:输出是物理世界的动作,AI闭环执行
2. 从专家专用到人人可用
Anthropic的Phase One实验揭示了一个有趣的事实:
人类团队之所以花了10天,不是因为任务本身难,而是因为机器人专家不擅长编程。
Claude 4.7的介入彻底改变了这一点:
- 你不需要是编程专家,只需要描述你想让机器人做什么
- LLM自动将自然语言转化为高效的机器人控制代码
- 这意味着机器人技术的民主化——任何人都可以用自然语言操控机器人
3. 通用scaling的涌现能力
最令人惊讶的发现:Claude 4.7的物理世界能力不是专门训练出来的。
Anthropic没有:
- ❌ 专门训练机器人控制数据
- ❌ 针对机械臂抓取做强化学习
- ❌ 收集大量物理交互数据
Claude 4.7的机器人能力来自:
- ✅ 通用LLM scaling:更大的模型、更多的训练数据
- ✅ 代码能力迁移:擅长写代码的模型,自然擅长写机器人控制代码
- ✅ 推理能力泛化:物理世界的运动规划,本质上是数学和逻辑问题
这意味着:未来LLM的物理世界能力,可能随着模型规模的增加而自然涌现,无需专门的具身智能训练。
⚠️ 五、Claude 4.7仍无法完成的任务
尽管成果惊人,但Anthropic坦诚地列出了Claude 4.7的局限:
| 任务类型 | 表现 | 原因 |
|---|---|---|
| 闭环精细控制 | ❌ 失败 | 精确控制机械臂抓取沙滩球需要实时视觉反馈闭环 |
| 物理环境变化 | ⚠️ 有限 | 环境突变时模型需要重新推理 |
| 多任务并发 | ⚠️ 有限 | 同时控制移动+抓取+平衡需要更高并行能力 |
关键局限:当前LLM是开环控制——它规划一次,执行一次,然后验证。而真正的物理世界需要闭环控制——持续感知、实时调整。
这恰恰是下一阶段(Phase Three)的研究方向。
🔮 六、对机器人行业的启示
1. 机器人工程师的角色转变
| 传统角色 | 新角色 | 变化 |
|---|---|---|
| 写机器人控制代码 | 定义任务和验收标准 | 从怎么做到什么 |
| 调试代码 | 验证物理结果 | 从代码调试到物理验证 |
| 手动编程 | 自然语言描述需求 | 从编程语言到自然语言 |
2. 机器人公司的战略调整
- 技术栈简化:不再需要庞大的机器人软件团队
- 产品迭代加速:从月到天的开发周期
- 成本大幅降低:人力成本减少,开发效率提升
3. 对具身智能研究的启示
传统具身智能研究的方向是:
- 收集大量物理交互数据
- 训练专门的机器人模型
- 在仿真环境中验证
Project Fetch Phase Two提示了一种新路径:
- 提升通用LLM的推理和代码能力
- 让LLM自动生成物理控制代码
- 在真实环境中闭环验证
这可能意味着:通用LLM的scaling比专门的机器人训练更重要。
📚 总结
Anthropic Project Fetch Phase Two的核心贡献,不只是展示了Claude 4.7能操控机器人,而是揭示了一个更深刻的趋势:
LLM的能力正在从虚拟世界(写代码)自然扩展到物理世界(操控机器人),而这种扩展的核心驱动力是通用scaling,而非专门的物理训练。
三个关键数据值得记住:
- 20倍:任务完成速度提升
- 1/10:代码量减少到原来的十分之一以下
- 0:人类干预次数(完全自主)
这不是未来的想象,而是已经发生的现实。
📖 参考资料
💬 讨论
你觉得LLM的物理世界能力应该通过通用scaling自然涌现,还是需要专门的机器人训练?
欢迎在评论区分享你的观点!👇
📢 声明:本文仅用于技术研究和学术交流,旨在帮助读者理解AI在物理世界的最新进展。
📝 关于本文:本文基于Anthropic 2026年6月18日发布的最新研究进行深度解读。如有理解偏差,请以原文为准。
🔥 如果这篇文章对你有帮助,欢迎点赞、收藏、转发!你的支持是我持续更新的动力!
更多推荐



所有评论(0)