💡 2026年6月,AI圈炸出了个重磅事件Claude Fable 5的完整系统提示词被完整泄露。

1597行内容、12万字符、足足3万token,拆成72个命名章节——逐行啃完你会发现:这根本不是什么“聊天机器人自我介绍”,而是一套完整Agentt运行操作系统。

表面上它是陪你写代码、查资料的大模型,皮肤之下藏着工具调度、搜索决策、安全防护、记忆管理的全套工程体系。

本文结合泄露原文与多篇业内深度解读,从结构到细节逐层拆解,以及我们能从中学到的、能直接复用在自己项目里的提示词工程心法。


在这里插入图片描述

一、先看全貌:颠覆认知的整体结构

多数人对系统提示词的印象,就是开头一句“你是xxx助手”但 Fable 5 的这份提示词,从结构到篇幅都彻底打破了这个认知。

先看一组最直观的基础数据:

维度 具体数值
总行数 1597行
总字符规模 约12万字符
Token占用 约3万token
命名功能章节 72个
单次会话前置成本 约 0.09 美元(按 Claude 3.5 Sonnet 计价))

用户还没说一句话,平台就已经先烧掉了几毛钱的成本。而更反常识的,是它的内容排布逻辑。

最反直觉的三个设计

  1. 开篇第一行不是自我介绍,而是一条没有任何解释紧急 hotfix 禁令,优先级拉满
  2. “我是 Claude””的身份说明,藏在了全文倒数200行的位置,几乎是最不重要的内容
  3. 半壁江山的篇幅,全给了工具定义和搜索规则,人设、语气、交互风格相关内容只占不到两成

一句话总结:它本质是一披着聊天模型外壳的完整 Agent 系统,系统提示词就是它的内置操作系统。


Claude Fable 5 系统提示词

工程化体系
(Hotfix/量化/分层)

Agent 操作系统

工具与搜索
(占比55%)

安全体系
(场景化规则)

行为规范
(拒绝/红线/不诊断)

记忆与状态
(分层/修剪)

产品分层
(Fable/Mythos)

输出:安全、可靠、
体验一致的 AI 助手

图1:Claude Fable 5 系统提示词的六大工程体系构成其 Agent 操作系统内核

二、核心模块拆解:72章节背后的六大工程体系

72 个章节看似杂乱,实则可以归为六大体系。每一部分的设计,都对应着生产环境里的真实痛点。

1. 工程化体系:把提示词当生产代码来写

这是最值得所有开发者学习的一点,Anthropic 完全是用维护代码的思路,在维护这份系统提示词。

  • 顶部Hotfix机制
    提示词最开头的黄金位置,专门用来放紧急线上补丁。每一条简短的禁令背后,都对应过一次真实的线上事故。不讲原因、不做铺垫,直接给规则,保证优先级最高。

  • 量化约束原则
    能用数字就绝不用形容词不说“回答简短一点”,说“单条回复不超过 3 句话”;不说“不要过量引用”,说“单来源直接引用不超过 15 个单词”。用硬数字彻底堵死模型的自由发挥空间,从根源减少歧义。

  • 分层优先级设计
    72个章节不是平级关系。顶层全局规则 > 专项领域规则 > 通用行为规范,出现冲突时高层级直接覆盖低层级。本质就是把代码里的作用域逻辑,完整搬进了提示词。

2. 工具与搜索:占比55%的真正核心能力

很多人写提示词先写一大段人设,这在Fable5的设计逻辑里完全是本末倒置。我们可以看一下篇幅分布:

模块 占总篇幅比例 核心作用
工具定义 + 搜索规则 约55% 决定Agent能做什么、怎么做
安全与合规规则 约20% 划定能力边界,控制风险
人设与交互行为 约17% 决定体验和说话风格
其他辅助规则 约8% 异常处理、降级逻辑等

里面两个最核心的设计:

  • 完整的搜索决策流水线
    不是用户说“搜一下”才触发搜索,而是内置了一整套判断逻辑:遇到不认识的实体、时效性信息、事实类问题,必须主动搜索;甚至连搜什么关键词、结果怎么整合、引用怎么标注,都写死了分步流程。

  • Unrecognized Entity Rule(未知实体规则))
    这是对抗幻觉的杀手锏。只要是模型没把握的名词、事件、数据,一律先搜索再回答,绝对不能靠脑补。这也Claudee在事实类问题上幻觉率远低于同类产品的核心原因之一。

3. 安全体系:细到极致的场景化规则

普通产品的安全规则,往往就是一句“禁止生成有害内容”的空话而 Fable 5 是把每个风险场景景,都拆成了可执行的具体细则。

  • 版权合规红线
    单篇来源直接引用不超过15个词,同一来源不能连续引用两次;所有引用内容必须标注来源链接。把版权风险直接卡死在生成环节。

  • 内容安全场景化
    不是笼统喊口号,而是逐条覆盖场景儿童安全、自残干预、饮食障碍、危险化学品……甚至连“握冰块”这种常见的自残替代方案案,都被明确列入了禁止推荐的黑名单。

  • 双重用途防护
    对于可能被滥用的技术(比如漏洞利用、恶意脚本),自动降级能力输出,只讲通用原理不给可执行代码;敏感领域直接触发弱模型回复,把危险能力关在笼子里。

4. 行为规范:连拒绝方式都设计好了顶级产品的体验差距,全藏在这些细节里。。

  • 拒绝的艺术:禁止用列表式的生硬拒(“我不能做 xxx,因为 xxx”)),要求用散文式的温和表达,先共情场景再说明原因,最大程度减轻用户的抵触感。
  • 代码领域红线:恶意代码、病毒、勒索脚本相关零容忍。哪怕用户明确说是“教学用途”,也绝不解释原理和给出可运行片段。
  • 不诊断原则:医疗、心理、法律领域,绝对不主动给用户贴标签。用户没说自己有什么症状,绝不主动猜测诊断;只给通用科普信息,不给个性化结论。

5. 记忆与状态:跨会话的持久化设计

  • 分层记忆边界:哪些信息可以沉淀到跨会话记忆、哪些只能留在当前会话、哪些对话结束必须立刻遗忘,边界划得非常清楚。不会什么都记,也不会什么都忘。
  • 上下文修剪策略:长对话不会无脑塞满上下文,而是有明确的压缩、锚定、淘汰规则:核心指令永远保留,中间过程优先压缩,过期信息主动丢弃。

6. 产品分层:同一个底座,两套治理方案很多人不知道,Anthropic 用同一个基础模型,靠系统提示词就能切出不同的产品定位。。

版本 目标用户 安全约束强度 能力开放度
Fable 5 面向公众的通用版 强约束,全场景安全防护 中等,敏感领域严格受限
Mythos 5 内部/企业高阶版 约束更宽松 更高,支持深度推理和复杂代码生成

说白了,模型底座是同一个,靠系统提示词这层“操作系统”,就能切出不同的产品版本。这也是工程化最厉害的地方:不用重新训练模型,只改规则就能做出差异化产品。。


核心规则:Unrecognized Entity Rule

用户提问

是否涉及
未知实体/时效信息/事实?

触发搜索决策流水线

直接调用已知知识
或工具处理

生成精准搜索词

执行搜索并获取结果

整合与交叉验证

标注引用来源
(单源≤15词)

输出带引用的
可靠回答

输出回答

“遇到未知名词/事件/数据
→ 必须搜索,禁止脑补”

图2:工具与搜索模块(占比55%)的核心决策与执行流程

三、看完就能用:顶级提示词的8条可复用心法

不用羡慕大厂,这些设计思路你完全可以直接抄到自己的Agent项目里。

  1. 优先级思维:顶部永远放最高优先级规则
    不要按逻辑顺序从自我介绍开始写。把最不能碰的红线放在提示词最开头——模型对开头内容的权重,远高于中间和结尾。

  2. 量化原则:能用数字就不用形容词
    把“简洁一点”换成“不超过3句话”,把“不要太长”换成“输出控制在500字以内”。数字能彻底消除模型的解读空间,减少意料之外的输出。

  3. 场景化补丁:出一个问题补一条具体规则
    别指望模型能“举一反三”。出了一次具体事故,就补一条具体的约束规则。系统提示词不是一次写完就不动了,它是跟着线上问题持续迭代的活文档。

  4. 能力优先:工具规则 > 行为边界 > 人设语气
    很多人写提示词先写一大段人设,这完全搞反了优先级。对于生产级Agent,工具怎么调用、边界是什么,远比“你是一个活泼的助手”重要100倍。

  5. 执行校验分离:做事的和验收的不能是同一个
    重要任务一定要拆成两步:一个Agent负责执行,另一个负责校验Fable 5里搜索结果的二次校验、代码的自检逻辑,都是这个思路。

  6. 安全前置:规则嵌进系统层,比事后过滤管用
    不要依赖外部内容审核去拦风险。把安全规则写进系统提示词,让模型从生成源头就遵守,效果远好于生成完再拦截。

  7. 边界清晰:说清不能做什么,比罗列能做什么更重要
    Agent失控,大多是因为边界没划清。与其列一堆它能做的事,不如把绝对不能碰的红线写死,剩下的空间让它自由发挥。

  8. 迭代思维:系统提示词是产品,不是作文
    不要追求一次写得完美。跟着线上反馈、事故案例持续打补丁、调规则,慢慢迭代出来的提示词,才是真正能打的。


四、冷静看待:它不是神,也有天生的边界

当然,我们也没必要把这份提示词神化。它本质上还是提示词层的规则约束,有它天生的短板。

⚠️ 三个客观局限

  1. 不是模型天生就懂,全靠规则堆出来
    这些精细的行为规范,不是模型自己学会的,是靠几Tokenn的规则硬喂进去的。一旦规则有覆盖不到的盲区,问题依然会出现。

  2. 强约束必然牺牲灵活性
    规则越细,模型的创造性和开放性就越差。这也是为什么面向公众的版本总显得“有点保守”——这是主动选择的权衡。

  3. 没有绝对的安全,只有更高的绕过门槛
    再细的规则也存在被绕过的可能。它做的不是彻底杜绝风险,而是把风险发生的门槛提得足够高,让绝大多数普通用户碰不到。


最后

Claude Fable 5系统提示词的泄露,最大的价值从来不是教大家怎么“越狱”,而是让我们普通人得以一窥顶尖AI公司的工程化思路。

很多人总觉得大模型的差距在参数、在算力、在训练数据。但真正落到产品体验上,差距往往在这些看不见的细节里:一条一条打磨的规则、一次一次踩坑补上的补丁、一个一个场景抠出来的体验。

未来大模型的竞争,早就不是拼谁的跑分更高了。真正拉开差距的,是系统层的精细治理、是工程化的落地能力,是对每一个用户触点的极致打磨。

这12万字符的提示词,不是什么神秘的魔法咒语。它是无数次线上事故踩出来的经验总和,是一个产品团队日积月累的工程沉淀。而这,才是顶级AI产品真正的护城河。


Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐