AI单一提示研究的隐形短板 STORM五视角Agent验证系统的实战落地
当你把一个重要话题扔给Claude或任何大模型,只给一句提示时,你得到的是一个视角的输出。它可能逻辑清晰、语言流畅,但总会留下一些你自己都意识不到的盲区:某个关键假设没被挑战,某个利益相关方的视角被忽略,某个数据来源没被严格核实。
Nate Herk把Stanford的STORM研究方法做成了免费的Claude技能,直接把这个短板变成了可落地的系统。他用五个不同背景的Agent并行审视同一个话题,再用六个验证Agent逐一核对事实,最终输出一份结构一致、可靠性可追溯的HTML简报。
我在测试中发现,这个流程不是简单“多跑几次prompt”,而是通过显式角色分工 + 矛盾映射 + 独立验证,把研究质量从“看起来不错”提升到“经得起第三方模型横向对比”。
为什么单一提示总会漏掉关键维度
起初我以为只要把提示写得更详细、要求“从多个角度思考”,模型就能自己补全。但实际跑下来会发现:模型的默认视角往往偏向“信息提供者”或“技术实现者”,而忽略了真正使用这个研究结果的人(从业者)、支付成本的人(经济学家)、历史脉络(历史学家)、以及故意挑刺的人(怀疑论者)。
STORM的五个镜头正是针对这些常见盲区设计的:
- Practitioner(从业者):只关心“什么在真实环境中能跑通”
- Academic(学者):只关心“证据链条是否严谨”
- Skeptic(怀疑论者):专门找漏洞和反例
- Economist(经济学家):追踪资金流向和激励机制
- Historian(历史学家):看这件事以前是怎么演变的
当这五个角色同时深入同一个话题时,一个角度的遗漏,往往会被另一个角度直接补上或挑战。
类比一下:单一提示就像让一个全能顾问独自写一份战略报告;STORM则相当于组建了一个由不同背景专家组成的临时委员会,他们先各自写报告,再坐在一起把分歧摊开讨论,最后由独立审计团队核对每一处引用。
STORM与Claude原生Deep Research的真实对比
Nate用同一个话题分别跑了Claude的Deep Research和他的STORM技能。
Deep Research启动了103个子Agent,输出一份Markdown,但来源较少、部分未确认,且需要额外追问才能拿到完整报告。STORM只用了约12个Agent(5个镜头 + 验证阶段),却产出了一份结构化的HTML简报。
把两份报告扔给另一个完全不同的模型(Codex)打分,STORM在证据质量、来源多样性、论点强度、可执行性、风险控制、适合视频/内容创作这六项指标上全部胜出。而且速度更快、成本更低,还避开了大量Agent并发带来的API限流风险。
报告的标准化结构与可定制性
每份STORM简报都遵循同一模板,方便长期使用:
- 顶部60秒总结
- 关键发现按可靠性排序(例如9/10分),并标注哪些镜头支持、哪些挑战
- 来源列表,明确标记“已确认”“已修正”“已降级”
- 显式列出整个简报依赖的核心假设
- 指出本次运行中缺失的视角(例如在某个商业话题里,五个镜头都从“老板/采用者”角度看,缺少“一线员工/客户”视角)
你还可以告诉技能你的业务背景和具体目标,它会把结论收敛到“你接下来该怎么做”而不是泛泛的知识堆砌。
底层四步链路拆解
整个技能本质上是四个提示的串联执行:
- 五视角并行生成:为每个镜头角色扮演背景,让它们独立深入研究同一话题
- 矛盾映射构建:把五个视角的分歧点、证据强弱、相互挑战的地方显式整理出来
- 报告合成:把所有输入融合成一份结构化HTML简报
- 对抗式同行评审:额外Agent逐条把引用和事实拿回原始来源验证,标记确认/修正/降级状态
这四个步骤打包成一个master prompt(即技能),你只要说“run STORM research on [话题]”,它就会自动完成全流程。
安装方式也很轻量:把技能的Markdown文件和HTML模板放到.claude文件夹即可。同样支持Codex或其他支持技能的Agent。
更深层的系统洞察
STORM用的是subagents(子代理),而不是完整可互相对话的agent team。子代理都服务于同一个主会话,无法互相辩论,这让成本和复杂度可控;但正因为有显式的矛盾映射和独立验证阶段,依然能达到多视角对抗的效果。
这也解释了为什么它比“直接让模型多跑100个Agent”更实用——质量不在于Agent数量,而在于是否有机制强制不同视角相互审视和验证。
类比现实世界的研究过程:一篇高质量论文从来不是作者一个人闷头写出来的,而是经过同行评审、数据复现、历史对照等多重过滤。STORM把这个过程低成本地“Agent化”了。
单一提示给你的是一面镜子;多视角验证系统给你的是一面能互相校正的棱镜。
当你缺乏某个领域的深度专业知识时,最聪明的做法不是让一个模型假装全知,而是主动为它“借”来缺失的视角——从业者、怀疑论者、经济学家……组成一个临时的Agent理事会。
如果你想立即上手,建议先拿一个你已经非常熟悉的话题跑一遍STORM。你会清晰看到它在哪里更准确、哪里还需要补充第六个镜头(比如“一线用户视角”或“内容创作者视角”)。
安装好技能后,试着在实际工作或内容创作中用它做前期研究。把输出直接喂给视频脚本、产品决策或投资分析,看看可执行性和风险控制是否比之前单提示流程有明显提升。
你在做深度研究或内容规划时,最常遇到哪类盲区?是商业激励没想透、历史教训没吸取,还是用户真实痛点被忽略?欢迎在评论区分享,我会继续拆解更多这类可落地的多Agent研究系统。
我是紫微AI,在做一个「人格操作系统(ZPF)」。后面会持续分享AI Agent和系统实验。感兴趣可以关注,我们下期见。
更多推荐

所有评论(0)