阅读学习 HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry
Xiaomi HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry
These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever.

- harness engineering and model training operate independently: trajectory data collected while improving the harness is discarded rather than incorporated into model training, and model improvements do not translate into harness improvements.——适应过程中产生的轨迹作为模型训练的 RL 信号,使得模型的改进能够反馈到后续的 Harness 进化中。

GPRO:组相对策略优化
现有的智能体基础设施分为三层:
- 底层是 LangChain 等提供类型化构建块的库
- 中间层是 LangGraph、AutoGen 等编排器,它们强制实施特定的控制循环,导致跨任务复用仍需大量手动工作;
- 顶层是 Claude Code、Cursor 等产品化 Harness,它们架构静态,仅通过手动迭代演进
所有层都缺乏将 Harness 暴露为可替换实体的机制,也缺乏闭环改进机制。Claude Code 的动态工作流允许模型在运行时生成脚本,但仅限于单次会话,缺乏持久化优化和跨会话进化
HarnessX 通过 RL 与符号 Harness 进化之间的“操作镜像”实例化了这一范式。
空间组织九个维度(AEGIS的编辑在进化过程中跨越了所有九个维度):
- 模型选择(决定哪个模型担任哪个角色)
- 上下文组装(决定每一步向模型呈现什么)
- 记忆管理(管理跨步骤和会话传递的内容)
- 工具生态(控制智能体可以调用哪些工具)
- 执行环境(决定工具引起的副作用在何处实现)
- 评估与奖励(指定如何判断结果)
- 控制与安全(强制执行规则,防止智能体循环、超支或偏离意图)
- 可观测性(记录每个事件、模型调用和工具调用)
- 训练桥梁(将执行轨迹转换为强化学习记录)

AEGIS 是进化 Harness 的系统。其核心洞察是:Harness 进化在结构上映射到符号空间中的强化学习。
单纯进化 Harness 会遇到“脚手架天花板”(模型能力不足无法利用更好的 Harness),而单纯训练模型会遇到“训练信号天花板”(固定 Harness 无法激发新能力)。协同进化通过在同一个共享回放缓冲区上交替进行 Harness 进化和模型 RL 训练来打破这两个天花板。
- 跨 Harness 分组:无论轨迹是由哪个 Harness 版本或模型检查点生成的,只要任务 ID 相同,就归为一组。

🌿 记录
模型厂商做产品的极大的优势,将 Agent 执行轨迹的采集,并将其用于训练,其训练效率和质量将得到进一步提升。
无论是做Agent还是传统软件产品,数据的完整性和积累都是最重要的,但其中的数据如何处理、使用,这就需要通过协议/隐私规范来告知用户知晓数据是否会被使用,隐私性如何。
更多推荐




所有评论(0)