从“软件Agent“到“物理Agent“：Anthropic Project Fetch Phase Two揭示的代码效率革命

Chennn__

49人浏览 · 2026-06-21 11:31:02

Chennn__ · 2026-06-21 11:31:02 发布

📌 核心发现

2026年6月18日，Anthropic发布Project Fetch Phase Two研究结果：Claude 4.7自主完成机器人任务的速度是人类团队的20倍，代码量不到传统方式的十分之一。

这不是抽象的AI会让编程更高效的预言，而是有具体数据、有实验对比、有代码统计的硬核研究。

本文将聚焦一个被大多数人忽视但极其关键的发现：LLM在物理世界的代码效率革命，以及它揭示的Agent三阶段范式演进。

🎯 一、Project Fetch：从扔纸球看LLM的物理世界能力

实验背景

Project Fetch的测试场景看似简单：让机器狗（Quadruped）从物理实验室的一端移动到另一端，捡起一个纸球，然后带回。

但这个任务实际上涉及多个复杂的物理操作环节：

任务环节	所需技能	难度
导航移动	路径规划、避障	中等
拾取物体	机械臂控制、抓取力调节	高
保持平衡	四足协调、重心控制	高
携带返回	多关节同步、环境感知	高

Phase One vs Phase Two 对比

实验阶段	工作方式	完成时间	相对速度
Phase One（人类团队）	人类机器人专家写代码	10天	1x（基准）
Phase One（+Claude辅助）	人类写代码，Claude辅助优化	5天	2x
Phase Two（Claude 4.7自主）	Claude 4.7独自完成全部	12小时	20x

关键洞察：Claude 4.7不是辅助人类编程，而是完全自主完成任务——从理解任务到编写代码到调试执行，全程无需人类干预。

📊 二、1/10代码量背后的效率革命

传统机器人编程的痛点

在机器人领域，存在一个长期被忽视的矛盾：

最懂机器人物理的人（机器人工程师），往往不是最擅长写代码的人。

这导致：

机器人专家用大量时间写低效代码
代码冗余、重复、难以维护
一个小功能的改动需要数天

Claude 4.7的代码效率

指标	人类团队	Claude 4.7	变化
代码量	100%（基准）	<10%	减少90%+
开发时间	10天	0.5天	缩短20x
人类干预	持续	0	完全自主
代码简洁度	中等	极高	模块化、可维护

为什么代码量能减少90%？

Anthropic分析发现，Claude 4.7生成的代码有以下特点：

自动抽象：将重复逻辑封装为通用函数，避免Copy-Paste
最优算法选择：自动选择最高效的数学方法和数据结构
零冗余：没有为了调试而添加的临时代码
自文档化：代码本身就是最好的注释

机器人工程师的启示：LLM不是替代你，而是让你专注于机器人物理本身，把繁琐的编程交给AI。

🔄 三、Agent三阶段演进：从帮助人类到模型自主

Project Fetch Phase Two的最大意义，不在于它完成了某个具体任务，而在于它验证了Agent能力从虚拟世界到物理世界的迁移。

阶段一：帮助人类（Help Humans）

代表：GitHub Copilot、Cursor Tab

模式：AI作为副驾驶，人类主导，AI辅助补全代码

特点：

人类写代码，AI提供单行/多行建议
人类负责架构设计和逻辑判断
适合日常编码、快速原型

阶段二：帮助模型（Help Models）

代表：Claude Code、Devin

模式：AI帮助AI——一个模型负责规划，另一个模型负责执行

特点：

多Agent协作，任务自动分解
人类只需设定目标和验收标准
适合复杂项目的端到端开发

阶段三：模型自主（Model Autonomy）

代表：Project Fetch Phase Two

模式：模型完全自主理解任务、规划、执行、验证

特点：

物理世界交互：不仅是写代码，还要操控真实硬件
闭环反馈：代码执行→观察结果→自我修正→重新执行
零人类干预：从任务描述到完成，全程自动化

关键转折：Anthropic观察到，能力从虚拟Agent（写代码）到物理Agent（操控机器人）的迁移，不是通过专门的机器人训练实现的，而是通用LLM能力自然涌现的结果。

🚀 四、为什么这是范式跃迁而非渐进改进？

1. 从编程工具到物理执行器

传统LLM（如Copilot）是软件工具——它帮你写代码，但代码怎么运行、是否有效，它不管。

Project Fetch Phase Two中的Claude 4.7是物理执行器——它写代码，然后直接操控机器人验证，根据验证结果自我修正。

这是根本性的区别：

软件Agent：输出是代码，人类负责执行
物理Agent：输出是物理世界的动作，AI闭环执行

2. 从专家专用到人人可用

Anthropic的Phase One实验揭示了一个有趣的事实：

人类团队之所以花了10天，不是因为任务本身难，而是因为机器人专家不擅长编程。

Claude 4.7的介入彻底改变了这一点：

你不需要是编程专家，只需要描述你想让机器人做什么
LLM自动将自然语言转化为高效的机器人控制代码
这意味着机器人技术的民主化——任何人都可以用自然语言操控机器人

3. 通用scaling的涌现能力

最令人惊讶的发现：Claude 4.7的物理世界能力不是专门训练出来的。

Anthropic没有：

❌ 专门训练机器人控制数据
❌ 针对机械臂抓取做强化学习
❌ 收集大量物理交互数据

Claude 4.7的机器人能力来自：

✅ 通用LLM scaling：更大的模型、更多的训练数据
✅ 代码能力迁移：擅长写代码的模型，自然擅长写机器人控制代码
✅ 推理能力泛化：物理世界的运动规划，本质上是数学和逻辑问题

这意味着：未来LLM的物理世界能力，可能随着模型规模的增加而自然涌现，无需专门的具身智能训练。

⚠️ 五、Claude 4.7仍无法完成的任务

尽管成果惊人，但Anthropic坦诚地列出了Claude 4.7的局限：

任务类型	表现	原因
闭环精细控制	❌ 失败	精确控制机械臂抓取沙滩球需要实时视觉反馈闭环
物理环境变化	⚠️ 有限	环境突变时模型需要重新推理
多任务并发	⚠️ 有限	同时控制移动+抓取+平衡需要更高并行能力

关键局限：当前LLM是开环控制——它规划一次，执行一次，然后验证。而真正的物理世界需要闭环控制——持续感知、实时调整。

这恰恰是下一阶段（Phase Three）的研究方向。

🔮 六、对机器人行业的启示

1. 机器人工程师的角色转变

传统角色	新角色	变化
写机器人控制代码	定义任务和验收标准	从怎么做到什么
调试代码	验证物理结果	从代码调试到物理验证
手动编程	自然语言描述需求	从编程语言到自然语言

2. 机器人公司的战略调整

技术栈简化：不再需要庞大的机器人软件团队
产品迭代加速：从月到天的开发周期
成本大幅降低：人力成本减少，开发效率提升

3. 对具身智能研究的启示

传统具身智能研究的方向是：

收集大量物理交互数据
训练专门的机器人模型
在仿真环境中验证

Project Fetch Phase Two提示了一种新路径：

提升通用LLM的推理和代码能力
让LLM自动生成物理控制代码
在真实环境中闭环验证

这可能意味着：通用LLM的scaling比专门的机器人训练更重要。

📚 总结

Anthropic Project Fetch Phase Two的核心贡献，不只是展示了Claude 4.7能操控机器人，而是揭示了一个更深刻的趋势：

LLM的能力正在从虚拟世界（写代码）自然扩展到物理世界（操控机器人），而这种扩展的核心驱动力是通用scaling，而非专门的物理训练。

三个关键数据值得记住：

20倍：任务完成速度提升
1/10：代码量减少到原来的十分之一以下
0：人类干预次数（完全自主）

这不是未来的想象，而是已经发生的现实。

📖 参考资料

Anthropic原文：Project Fetch Phase Two (2026-06-18)
Anthropic Computer Use
Project Fetch Phase One

💬 讨论

你觉得LLM的物理世界能力应该通过通用scaling自然涌现，还是需要专门的机器人训练？

欢迎在评论区分享你的观点！👇

📢 声明：本文仅用于技术研究和学术交流，旨在帮助读者理解AI在物理世界的最新进展。

📝 关于本文：本文基于Anthropic 2026年6月18日发布的最新研究进行深度解读。如有理解偏差，请以原文为准。

🔥 如果这篇文章对你有帮助，欢迎点赞、收藏、转发！你的支持是我持续更新的动力！

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Superskills：把一堆 AI 编程技能打包塞进你的编辑器

Superskills是一个整合多个AI编程工具技能的GitHub项目，通过打包33个核心技能和200多个细分领域技能（如开发、安全、营销、设计等），让用户能通过简单命令（如/tdd、/debug）快速调用完整工作流。它支持Claude Code、Cursor等主流AI编程工具，目标是将专业开发者的提示模板和流程固化为可复用命令，提升效率并保持团队一致性。安装简单，适合需要结构化AI工作流的开发者