Agent = LLM + Harness

Harness是模型之外的所有支撑系统,让裸LLM变成可落地、可控、可执行的智能体。可以理解为Agent的操作系统

感觉做AI的人很喜欢起名字() LLM的补集也要起个 harness 的名字(skill rule agents那些md和调用工具

 核心还是要保持干净的上下文环境

Harness本质上就是就是让Claude能真正“干完一整件事”的操作系统

以前写PRD要列100条边缘case,现在直接把需求翻译成Harness Prompt Spec,让Claude Agent SDK自己跑完整流程,每轮结束后自动输出“Delta变更报告”

 

智能体支架(Harness)是Anthropic提出的长期运行AI系统核心框架,本质是包裹模型的编排层,类似"马具控制野马"

 

1. **对抗性评估架构**:借鉴GAN设计双代理系统,生成代理专注产出,评估代理专司质疑。后者需满足三个条件:将主观质量量化为设计质量/原创性/工艺/功能性四维度评分;按模型能力动态加权标准;通过Playwright MCP实现交互式测试(如点击UI验证)。

 

2. **上下文焦虑破解**:针对模型在长任务中"提前投降"现象,旧版需上下文重置(Claude 3.5 Sonnet每完成功能即重置),新版Opus 4.6凭借100万token窗口实现连续工作,验证了"工具带进化"理论——模型进步会使部分辅助机制过时。

 

3. **三级代理协同**:规划代理将简单提示扩展为详细规范并拆解任务;生成代理执行;评估代理验收。实验显示,完整架构开发的复古游戏引擎/音频工作站可达可用状态,而省略评估环节会导致"看似能跑实则崩坏"。

 

启示:harness设计需随模型迭代持续优化,当Opus 4.6能处理百万token时,曾必需的上下文重置机制反而成为冗余负担

这印证了技术本质——框架价值取决于与当下模型能力的匹配度。


 

当智能体可以向应用商店中的应用一样被下载组合, 开发者的核心价值将会走向哪里

48个智能体组成的游戏工作室到群体预测引擎,当"造轮子"变成"搭积木",开发者真正的价值会转向三方面:

一是成为智能体之间的"翻译官",设计它们协作的语言;

二是深耕垂直领域的know-how,让通用能力产生专业价值;

三是打造让人愿意付费的体验闭环。未来最值钱的可能不是代码,而是对人类需求的理解深度。


 

神经网络

1. **神经网络基础原理**  

模拟人脑神经元分层工作机制:底层检测像素边缘(如明暗交界),中层组合边缘特征(如潜在鸟喙/眼睛),高层整合特征做出判断(是否存在鸟)。

 

2. **训练机制关键突破**  

- 初始随机权重导致网络输出混乱  

- 反向传播算法核心:将输出误差视为"弹性拉力",沿网络反向传递  

- 通过链式法则动态调整各层连接权重,使网络逐步精准  

 

3. **现实意义**  

突破传统试错局限(如逐个调整百亿级参数需数十亿年),实现高效自主学习,构成现代深度学习基石。  

 

三月

1. Anthropic内测Claude Mythos 5.0(卡皮巴拉):自称"人类史上最强大模型",编程推理能力大幅领先,已向安全公司开放防御测试,几周后公众可用

2. OpenAI关停Sora App全力开发GPT-6(马铃薯):已完成预训练,数月后发布,宣称将"真正改变生产力"

3. Claude上线"Computer Use"功能:可通过接口操作各类软件,支持手机远程派活实现工作自动化

4. Google升级Gemini 3.1 Flash Live:超低延迟语音对话模型,能实时修改界面并支持角色扮演交互

5. Google发布TurboQuant压缩算法:通过坐标转换实现内存6倍压缩、推理提速8倍,所有大模型通用

6. ARC-AGI-3测试发布:新一代AGI评测体系,考验AI探索学习能力,人类100分而现有模型全军覆没

7. Google耳机同传登陆iPhone:任意耳机实现跨语言交流,保留原说话节奏与情绪特征

8. Figma重大更新:实现AI设计与代码双向同步,设计师修改可自动转化为可编辑代码结构

 

 

ai总结的ytb 3h访谈😋

 

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐