Agent = LLM + Harness

mit6.824

674人浏览 · 2026-03-30 13:32:05

mit6.824 · 2026-03-30 13:32:05 发布

Agent = LLM + Harness

Harness是模型之外的所有支撑系统，让裸LLM变成可落地、可控、可执行的智能体。可以理解为Agent的操作系统

感觉做AI的人很喜欢起名字() LLM的补集也要起个 harness 的名字(skill rule agents那些md和调用工具

核心还是要保持干净的上下文环境

Harness本质上就是就是让Claude能真正“干完一整件事”的操作系统

以前写PRD要列100条边缘case，现在直接把需求翻译成Harness Prompt Spec，让Claude Agent SDK自己跑完整流程，每轮结束后自动输出“Delta变更报告”

智能体支架（Harness）是Anthropic提出的长期运行AI系统核心框架，本质是包裹模型的编排层，类似"马具控制野马"

1. **对抗性评估架构**：借鉴GAN设计双代理系统，生成代理专注产出，评估代理专司质疑。后者需满足三个条件：将主观质量量化为设计质量/原创性/工艺/功能性四维度评分；按模型能力动态加权标准；通过Playwright MCP实现交互式测试（如点击UI验证）。

2. **上下文焦虑破解**：针对模型在长任务中"提前投降"现象，旧版需上下文重置（Claude 3.5 Sonnet每完成功能即重置），新版Opus 4.6凭借100万token窗口实现连续工作，验证了"工具带进化"理论——模型进步会使部分辅助机制过时。

3. **三级代理协同**：规划代理将简单提示扩展为详细规范并拆解任务；生成代理执行；评估代理验收。实验显示，完整架构开发的复古游戏引擎/音频工作站可达可用状态，而省略评估环节会导致"看似能跑实则崩坏"。

启示：harness设计需随模型迭代持续优化，当Opus 4.6能处理百万token时，曾必需的上下文重置机制反而成为冗余负担

这印证了技术本质——框架价值取决于与当下模型能力的匹配度。

当智能体可以向应用商店中的应用一样被下载组合, 开发者的核心价值将会走向哪里

48个智能体组成的游戏工作室到群体预测引擎，当"造轮子"变成"搭积木"，开发者真正的价值会转向三方面：

一是成为智能体之间的"翻译官"，设计它们协作的语言；

二是深耕垂直领域的know-how，让通用能力产生专业价值；

三是打造让人愿意付费的体验闭环。未来最值钱的可能不是代码，而是对人类需求的理解深度。

神经网络

1. **神经网络基础原理**

模拟人脑神经元分层工作机制：底层检测像素边缘（如明暗交界），中层组合边缘特征（如潜在鸟喙/眼睛），高层整合特征做出判断（是否存在鸟）。

2. **训练机制关键突破**

- 初始随机权重导致网络输出混乱

- 反向传播算法核心：将输出误差视为"弹性拉力"，沿网络反向传递

- 通过链式法则动态调整各层连接权重，使网络逐步精准

3. **现实意义**

突破传统试错局限（如逐个调整百亿级参数需数十亿年），实现高效自主学习，构成现代深度学习基石。

三月

1. Anthropic内测Claude Mythos 5.0（卡皮巴拉）：自称"人类史上最强大模型"，编程推理能力大幅领先，已向安全公司开放防御测试，几周后公众可用

2. OpenAI关停Sora App全力开发GPT-6（马铃薯）：已完成预训练，数月后发布，宣称将"真正改变生产力"

3. Claude上线"Computer Use"功能：可通过接口操作各类软件，支持手机远程派活实现工作自动化

4. Google升级Gemini 3.1 Flash Live：超低延迟语音对话模型，能实时修改界面并支持角色扮演交互

5. Google发布TurboQuant压缩算法：通过坐标转换实现内存6倍压缩、推理提速8倍，所有大模型通用

6. ARC-AGI-3测试发布：新一代AGI评测体系，考验AI探索学习能力，人类100分而现有模型全军覆没

7. Google耳机同传登陆iPhone：任意耳机实现跨语言交流，保留原说话节奏与情绪特征

8. Figma重大更新：实现AI设计与代码双向同步，设计师修改可自动转化为可编辑代码结构

ai总结的ytb 3h访谈😋

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

4天：从文献挖掘到论文发表，我用AI-Agent 2.0搭建了全自动科研流水线

AI编程社区

AI 辅助小说写作工具横评：从垂直小说专用到学术专项助手，哪一款真能让新手少走弯路？

从前期世界观、人设搭建，到正文续写、内容校验、封面配图、云端存档全链路打通，同时兼顾新手零门槛对话创作、专业作者高阶自定义工作流；全主流大模型原生兼容原生接入 DeepSeek、ChatGPT、Gemini、Grok、豆包、Qwen、Kimi 多款全球前沿大模型，用户可根据构思、续写、润色、创意发散等不同创作需求自由切换对应模型。笔灵 AI：赛道高度专一，所有功能围绕学术论文、科研文稿搭建，全学科

AI编程社区

xiaohongshu-skills：用 AI 自动化操作小红书

小红书AI自动化工具开源项目获1535星，通过Chrome扩展实现真实浏览器操作 autoclaw-cc团队开源了xiaohongshu-skills项目，利用AI Agent直接操控用户已登录的小红书浏览器环境，支持Claude Code等主流AI平台。该方案由Chrome扩展和Python脚本组成，无需额外登录，完全模拟真人操作。核心功能覆盖五大场景：认证管理（扫码/短信登录验证）内容发