阅读学习 HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

土豆~

45人浏览 · 2026-06-24 22:16:28

土豆~ · 2026-06-24 22:16:28 发布

Xiaomi HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry

These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever.

在这里插入图片描述

harness engineering and model training operate independently: trajectory data collected while improving the harness is discarded rather than incorporated into model training, and model improvements do not translate into harness improvements.——适应过程中产生的轨迹作为模型训练的 RL 信号，使得模型的改进能够反馈到后续的 Harness 进化中。

GPRO：组相对策略优化

现有的智能体基础设施分为三层：

底层是 LangChain 等提供类型化构建块的库
中间层是 LangGraph、AutoGen 等编排器，它们强制实施特定的控制循环，导致跨任务复用仍需大量手动工作；
顶层是 Claude Code、Cursor 等产品化 Harness，它们架构静态，仅通过手动迭代演进

所有层都缺乏将 Harness 暴露为可替换实体的机制，也缺乏闭环改进机制。Claude Code 的动态工作流允许模型在运行时生成脚本，但仅限于单次会话，缺乏持久化优化和跨会话进化

HarnessX 通过 RL 与符号 Harness 进化之间的“操作镜像”实例化了这一范式。

空间组织九个维度（AEGIS的编辑在进化过程中跨越了所有九个维度）：

模型选择（决定哪个模型担任哪个角色）
上下文组装（决定每一步向模型呈现什么）
记忆管理（管理跨步骤和会话传递的内容）
工具生态（控制智能体可以调用哪些工具）
执行环境（决定工具引起的副作用在何处实现）
评估与奖励（指定如何判断结果）
控制与安全（强制执行规则，防止智能体循环、超支或偏离意图）
可观测性（记录每个事件、模型调用和工具调用）
训练桥梁（将执行轨迹转换为强化学习记录）

AEGIS 是进化 Harness 的系统。其核心洞察是：Harness 进化在结构上映射到符号空间中的强化学习。

单纯进化 Harness 会遇到“脚手架天花板”（模型能力不足无法利用更好的 Harness），而单纯训练模型会遇到“训练信号天花板”（固定 Harness 无法激发新能力）。协同进化通过在同一个共享回放缓冲区上交替进行 Harness 进化和模型 RL 训练来打破这两个天花板。

跨 Harness 分组：无论轨迹是由哪个 Harness 版本或模型检查点生成的，只要任务 ID 相同，就归为一组。

在这里插入图片描述

🌿 记录

模型厂商做产品的极大的优势，将 Agent 执行轨迹的采集，并将其用于训练，其训练效率和质量将得到进一步提升。

无论是做Agent还是传统软件产品，数据的完整性和积累都是最重要的，但其中的数据如何处理、使用，这就需要通过协议/隐私规范来告知用户知晓数据是否会被使用，隐私性如何。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

cover

别用中文目录名打开 Claude Code。你的对话正在消失。

cover

Claude Code 实战：工程实践里的常见坑

cover

Codex 实战：把学习路线变成作品集

所有评论(0)

查看更多评论

土豆~

已为社区贡献1条内容