前沿开源 Agent 框架横向深度对比报告 对比对象:OpenClaw · Hermes Agent · Claude Code ,参考基准 CrewAI / OpenHands / AutoGPT 分析方式:四个代码库源码级勘察(含 README / docs / 核 心源文件指纹) 日期:2026-07-01 ⚠️ 重要事实更正 D:\dxz\work_project\src 经源码指纹判定,不是 Claw Code / OpenClaude 之类的开源平替,而是 Anthropic 官方 Claude Code CLI 的去混淆生产源码本身: src/constants/product.ts:PRODUCT_URL = 'https://claude.com/claude-code'、claude-ai.staging.ant.dev(ant = Anthropic 内部域) 依赖 @anthropic-ai/sandbox-runtime、@anthropic-ai/sdk process.env.USER_TYPE === 'ant' 内部员工分支、bun:bundle 编译期 feature flag(KAIROS/COORDINATOR_MODE) 目录内无 LICENSE / package.json —— 疑似从发行包提取,属专有/商业代码,未含开源授权 下文仍将其作为「Claude Code」列入对比(它是终端编码 Agent 品类的技术标杆),但选型时必须把「不可合规商用 / 无 License / 强绑云」这条硬约束记住。 第一部分 · 对比总览矩阵 维度 OpenClaw Hermes Agent Claude Code(=官方源 码) 参考基准 (CrewAI/OpenHands/Au 定位 常驻 Daemon + 消息网关的本地优先多渠道 个人助理 在线学习 + 技能自演进的科研/工业级多平台 Agent 终端原生、全库上下文的 编码 Agent 多 Agent 编排 / 自主规划的早 语言/ 栈 TypeScript (pnpm、Node22+、TypeBox) Python 3.11(uv、SQLite、FastMCP)+ Electron TUI TypeScript (Ink+React、Bun、 Zod) CrewAI/AutoGPT=Python, OpenHands=Python+Docke ① 记忆 明文文件真相 (MEMORY.md/SOUL.md/DREAMS.md)+SQLite/ 向量混合索引+Dreaming 睡眠巩固 明文(MEMORY.md/USER.md)+SQLite FTS5(坚决不用 向量RAG)+缓存冻结快照 分层CLAUDE.md+分类记 忆 (MEMORY.md)+auto/micro compaction,无向量 CrewAI 有 mem0/RAG;Aut 期 pinecone 向量;多为向量 线 ② 工 具/协 议 SKILL.md + defineToolPlugin + MCP 双 向(server+client) 中央 registry + AST 自发现 + MCP 双向 + SKILL.md Zod→JSON Schema 静态 注册 + MCP 完整(含 OAuth/registry) CrewAI=@tool装饰器;Ope 固定工具;AutoGPT=插件 ③ 自 建/沙 箱 Skill Workshop 提案制自写技能; Docker/SSH/OpenShell 沙箱 skill_manage 运行时自写技能;6 种后端 (Docker/SSH/Modal/Daytona/Singularity/local)+PTC 代码执行 Skills/子代理声明式; @anthropicai/sandbox-runtime (文件/网络白名单) OpenHands=Docker 沙箱最 AutoGPT=本地裸跑(高危) ④ 自演 化 Dreaming 6信号加权晋升 + Skill Workshop (审批治理) ★招牌:每轮后 fork 复盘→挫败信号提取→类级技能 巩固→curator 空闲策展→轨迹回流训练 skillify(会话→技能)+ feedback 记忆闭环 + 验 证子代理 AutoGPT=反思循环但无持久 CrewAI 基本无 ⑤ 架 构/生 产 单 Gateway 守护 + 单串行主循环;MIT; 受信操作者模型 单主循环(~3900行) + fork 子代理;MIT;缓存神圣 为第一原则 async-generator 主循环 + 子代理 + swarm;专 有无License CrewAI=角色编排;OpenHa 件流;AutoGPT=已边缘化 HITL/ 审批 exec approvals(policy+allowlist+人审三重 互锁)+文件绑定防漂移 approval/write_approval/clarify + Tirith 预执行扫描 checkPermissions 多级模 式 + fileHistory 回滚 OpenHands 有确认;AutoG License MIT(可商用) MIT(可商用) 专有 · 无 License 多为 MIT/Apache 第二部分 · 五大维度技术深挖 ① 记忆机制 — 三者殊途同归「明文文件真相」,但巩固手段分化 共同选型动机(Why):三个现代框架不约而同放弃/弱化向量 RAG,回到明文 Markdown 文件(MEMORY.md/SOUL.md/USER.md/CLAUDE.md)作为记忆的唯一真相源。 动机一致:可人工审阅、可 git 版本化、无隐藏状态、零检索 LLM 成本。OpenClaw 文档一句话点破——「模型只记住落盘的东西」 (openclaw/docs/concepts/memory.md)。 分化点(各自的代价 Cost): OpenClaw = 最重、最工程化:明文文件之上叠了 per-agent SQLite(FTS5 BM25 + 向量 embedding + 混合检索 + CJK 三元组),再加 Dreaming 睡眠巩固—— cron 凌晨 3 点跑 Light/Deep/REM 三阶段,用 6 个加权信号(频率0.24 / 相关0.30 / 查询多样性0.15 / 新近0.15 / 巩固0.10 / 概念丰富0.06)过三道阈值门才晋升进 MEMORY.md,还有 report-only「影子试验」。代价:机制复杂、需额外 embedding 调用与后台算力,理解成本高。 Hermes = 最克制、缓存优先:坚决只用 SQLite FTS5 全文检索,完全不碰向量(hermes_state.py)。其独特约束是「Per-conversation prompt caching is sacred」——MEMORY.md/USER.md 在会话启动时作冻结快照注入,中途写入立即落盘但不改 system prompt(保全前缀缓存)。代价:用户当次会话看不到记忆更 新反映到 prompt,有一次会话的延迟语义。 Claude Code = 分层 + 熔断:CLAUDE.md 四层逆序加载(managed→user→project→local)+ @include;短期用 AutoCompact / MicroCompact(选择性清旧工 具结果为 [Old tool result content cleared])。代价:曾因 compaction 连续失败浪费 25 万次/天 API 调用,逼出 Agent框架横向对比报告.md 2026-07-01 1 / 3 MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES=3 熔断器——说明大规模压缩本身是生产风险源。 「文件式 vs 向量 RAG」结论:在 agent 长期记忆场景,明文文件式状态机(三者全选它)在 token 消耗、可审计性、防幻觉上全面优于向量 RAG——因为记忆条目量 级(几十~几百条精炼事实)远小于文档语料,用不上 ANN 检索;FTS5 / 扫描 + 相关性打分足够,且零 embedding 成本。向量 RAG 的价值域在大规模外部知识库,而 非 agent 自我记忆。 ② 工具调用与集成 — 「窄腰 + MCP」成为行业共识 Why:三者都收敛到「核心工具集刻意收窄 + MCP 作为扩展外挂」。Hermes 把它形式化为 Footprint Ladder(AGENTS.md):扩展现有代码 → CLI+skill → 服务门控工具 → 插件 → MCP → 新核心工具(最后手段)。动机是防止工具 schema 膨胀吃 token、防止 provider 兼容性碎裂。 注册门槛对比: 声明式最低门槛:三者都支持 SKILL.md + YAML frontmatter(兼容 agentskills.io 开放标准),写 Markdown 即可教模型「何时/如何用工具」。 编程式:OpenClaw defineToolPlugin(TypeBox schema)、Hermes registry.register()(含 check_fn 服务门控——工具只在前置条件就绪时才出现在 schema,零 footprint)、Claude Code 实现 Tool 接口(Zod v4 → JSON Schema)。 无一采用 WASM 插件——三者都是各自 runtime 原生插件,WASM 在此品类未成主流。 MCP 支持深度:三者都是双向——既做 MCP client 接第三方 server,又做 MCP server 把自己的会话暴露给 Claude Code / Cursor / Codex(OpenClaw openclaw mcp serve、Hermes mcp_serve.py 用 FastMCP、Claude Code 用官方 @modelcontextprotocol/sdk 含 OAuth / registry / elicitation)。这是三者解耦程度最高、最可复用 的一层。 错误处理 / 自愈:都做了逐-HTTP-请求重试(非整流程)+ 模型 failover + HITL 审批。差异在回滚:Claude Code 有 fileHistory.ts 快照撤销;Hermes 有 checkpoint_manager.py 支撑 /undo;OpenClaw 靠 exec approvals 文件绑定防漂移(审批后文件若变则拒绝执行)。 ③ 自主构建与沙箱 — 「自写技能」普及,「自注册新核心工具」被集体禁止 关键洞察:三者都允许 agent 运行时自写技能(写 SKILL.md/Markdown),但都禁止 agent 运行时注册新的 model tool——因为新核心工具会破坏 schema 窄腰与缓 存。 OpenClaw Skill Workshop 治理最严:agent 只能产出 PROPOSAL.md(而非直接写 SKILL.md),走 create→pending→apply→applied 生命周期,apply 前重跑扫 描器、存 rollback 元数据、默认需人审。「自建能力」与「安全」平衡得最好的设计。 Hermes skill_manage 更自由(运行时直接 create/edit/patch/delete ~/.hermes/skills/),但配 curator「绝不自动删除,只归档可恢复」的不变量兜底。 沙箱强度排序:Hermes > OpenClaw > Claude Code(跨平台) Hermes 最全:6 种后端(local / Docker / SSH / Singularity / Modal / Daytona 远端 serverless),Docker 做了 cap-drop ALL + no-new-privileges + PID 限 制;更有独创的 PTC(Programmatic Tool Calling)——execute_code 让 LLM 写 Python 经 RPC 调工具,中间结果永不进上下文,沙箱内仅 7 工具白名单 + secret 擦除。安全上还有 Tirith 预执行扫描(外部二进制 + SHA-256 / cosign 校验)。 OpenClaw:Docker(默认,含沙箱浏览器 / GPU)/ SSH / OpenShell,sandbox.mode: non-main 专门隔离群组会话。诚实声明「这不是完美安全边界」。 Claude Code:@anthropic-ai/sandbox-runtime 提供文件/网络白名单,但有 bypassPermissions / dangerouslyDisableSandbox 逃生舱,且 Windows 沙 箱覆盖弱于 mac/Linux。 ④ 自我进化与学习闭环 — Hermes 是唯一有「完整闭环工程」的框架 这是分水岭维度。AutoGPT 式的早期「反思循环」有反思无持久化;而这三个现代框架真正把经验固化成可跨任务复用的资产。 Hermes 的闭环最完整、最值得学习(background_review.py + curator.py): 1. 每轮后 fork 复盘:任务越复杂(工具迭代越多)越容易触发;fork 继承父缓存、工具白名单限制为仅 memory/skill 管理。 2. 挫败信号提取(精华):复盘 prompt 明确把「用户纠正风格/语气/『太啰嗦』/『你总是 X 我很烦』」识别为一等技能信号,「大多数会话至少产出一个技能更新, 什么都不做是浪费学习机会」。 3. 反向约束(关键防御):明确禁止把「环境依赖失败 / 工具负面断言(『浏览器不能用』)」学成永久自缚约束——这是踩过坑的经验。 4. 类级伞形技能:目标是少数丰富的 class-level 技能(配 references/),不是一堆窄条目;curator 空闲时(默认 7 天)自动合并/归档/pin。 5. 轨迹回流训练:trajectory_compressor.py 把轨迹压进 token 预算喂给下一代模型训练——唯一打通「运行→训练」在线学习的框架。 对比之下:OpenClaw 靠 Dreaming(记忆巩固)+ Skill Workshop(技能提炼)双腿,偏记忆侧;Claude Code 靠 skillify(会话→技能)+ feedback 记忆,偏编码工 作流侧。 ⑤ 架构质量与生产落地 — 「反重编排」成为主流,多 Agent 树被冷落 核心拓扑惊人一致:都是单主循环,都拒绝嵌套 planner 树。 OpenClaw:单 Gateway 守护(每主机一个,launchd/systemd 常驻)+ per-session 单串行主循环 + WebSocket 控制平面。VISION 明确「不合并经理管经理的 agent 层级框架」。 Hermes:单主循环 run_conversation(~3900 行 god-file,自己承认待重构)+ fork 子代理(非常驻多 agent)。 Claude Code:async function* query() 流式主循环 + AgentTool 子代理 + 可选 COORDINATOR_MODE swarm。 这与 CrewAI(角色编排)/ AutoGPT(自主规划树,已边缘化) 形成鲜明对照——业界已从「复杂多 Agent 编排」回归「单一规范主循环 + 记忆/技能自进化」。 语言影响:TS(OpenClaw / Claude Code)胜在编排系统的可 hack / 易改、与前端/移动端同栈;Python(Hermes)胜在 AI 生态、科研迭代、沙箱后端丰富。部署复杂 度:OpenClaw 最重(常驻 daemon + 20 渠道 + 移动/桌面 node),Hermes 中(gateway 单进程 + Electron),Claude Code 最轻(单 CLI)。 合规 / 安全风险: 三者都是 local-first 受信操作者模型,提示注入本身通常不被当作漏洞(OpenClaw SECURITY.md 明说),靠沙箱 + 审批 + 扫描缓解。 数据误删风险真实存在:agent 都有 write/edit/exec,非沙箱时绝对路径可触及宿主任意位置。 License:OpenClaw / Hermes = MIT(宽松,可商用);Claude Code = 专有无 License(不可合规二次开发/分发)。 Agent框架横向对比报告.md 2026-07-01 2 / 3 附:五维一句话总结 框架 一句话画像 OpenClaw 常驻单 Gateway 守护 + WebSocket 多渠道消息驱动 + 单串行主循环的 TS 个人助理;记忆四件套(明文真相 + SQLite/向量索引 + Dreaming 巩固 + 承诺跟进);自建能力经 Skill Workshop 提案治理。 Hermes Agent 缓存神圣为第一原则的 Python 多平台 Agent;坚持明文 + FTS5 不用向量;唯一打通「fork 复盘→技能巩固→轨迹回流训练」完整在线学习闭环;6 种沙箱后端 + PTC 代码执行。 Claude Code Anthropic 官方 TS(Ink/Bun) 编码 Agent 标杆;分层 CLAUDE.md + 分类记忆 + auto/micro compaction;skillify 技能沉淀;专有无 License,强绑 云。 参考基准 CrewAI=角色编排、OpenHands=Docker 沙箱强、AutoGPT=早期自主规划已边缘化;共同点是被现代「单主循环 + 自进化」范式超越。 📄 面向 libai_agent 的架构选型落地指南见单独文档:Agent框架选型指南_libai_agent.md Agent框架横向对比报告.md 2026-07-01 3 / 3

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐