基准实测:Claude 幻觉率 36%,凭什么比 GPT-5.5 更务实求真?
在 Artificial Analysis 的 AA-Omniscience 基准测试中,Claude Opus 4.7 的幻觉率为 36%,而 GPT-5.5 高达 86%。本文拆解这个惊人差距背后的技术原因,实测对比两个模型在事实性场景中的真实表现。
概要
2026 年 4 月,Artificial Analysis 发布了一组让整个行业震动的数据:在私有基准测试 AA-Omniscience 中,GPT-5.5 的幻觉率高达 86%,而 Claude Opus 4.7 仅为 36%。
这个差距意味着什么?简单说,你问 GPT-5.5 一个它不确定的问题,它大概率会"一本正经地胡说八道";而 Claude 更倾向于承认"我不确定"或者给出有保留的回答。
对于开发者来说,这个差距直接影响了 AI 在高可靠性场景中的可用性——法律文书、医学咨询、金融分析、代码审计,任何一个"编造的事实"都可能造成严重后果。
最近在库拉 leadhi.cn 上反复测试了 Claude 和 GPT-5.5 在事实性场景中的真实表现。这个平台把 Claude、GPT、Gemini、Grok 几个主流模型整合在一个页面里,国内直接访问,做横向对比非常方便。下面聊聊这个 36% vs 86% 的差距到底是怎么来的。
整体架构流程
Claude 的低幻觉率不是单一技术的功劳,而是多层防线叠加的结果:
第一层:训练阶段的对齐优化。 Anthropic 在 RLHF(基于人类反馈的强化学习)阶段,对"编造事实"的行为施加了更强的惩罚信号。这让 Claude 在训练阶段就建立了"不确定就说不确定"的行为模式。
第二层:推理阶段的置信度校准。 Claude 在生成每个 Token 时会计算一个内部置信度分数。当置信度低于阈值时,它会主动添加限定词("据我所知""可能存在偏差"),而不是直接给出断言式回答。
第三层:长上下文的忠实性约束。 当用户提供参考文档时,Claude 会严格基于文档内容回答,而不是"脑补"文档中没有的信息。这个能力在 RAG(检索增强生成)场景中尤其重要。
第四层:安全层的事后拦截。 Anthropic 的 Constitutional AI 框架会在输出前做最后一轮检查,拦截可能包含编造事实的内容。
技术名词解释
幻觉率(Hallucination Rate): 大模型生成的内容中包含虚构、不准确或无中生有信息的比例。分为两类:事实性幻觉(编造不存在的事实)和上下文幻觉(生成与输入文档矛盾的内容)。
AA-Omniscience: Artificial Analysis 推出的私有基准测试,专门评估模型在"它应该知道但可能不确定"的问题上的表现。测试覆盖事实性问答、时间推理、数值计算等多个维度,是目前最严格的幻觉率评测之一。
RLHF(Reinforcement Learning from Human Feedback): 基于人类反馈的强化学习。通过让人类标注员对模型输出打分,训练模型生成更符合人类期望的回答。Claude 在这一阶段对"诚实度"的权重设置明显高于其他模型。
Constitutional AI: Anthropic 提出的 AI 安全框架,通过一组预定义的"宪法原则"约束模型行为。其中"诚实性"和"避免编造"是核心原则之一。
技术细节:为什么 GPT-5.5 幻觉率这么高?
GPT-5.5 的高幻觉率不是因为"笨",而是因为"太自信"。
原因一:训练目标的差异。 OpenAI 在训练 GPT-5.5 时更侧重"有帮助性"(helpfulness)——尽量给用户一个完整、明确的答案。Anthropic 在训练 Claude 时更侧重"诚实性"(honesty)——宁可说"我不确定"也不编造。
原因二:置信度校准机制不同。 GPT-5.5 的置信度校准相对宽松,低置信度的内容也会以断言式语气输出。Claude 的校准更严格,低置信度时会自动添加保留语气。
原因三:知识边界意识不同。 Claude 对自己"知道什么、不知道什么"的感知更清晰。当问题超出它的知识范围时,它更倾向于承认而非猜测。GPT-5.5 则倾向于"尽力回答",即使答案可能是编造的。
实测对比
我在三个事实性场景中做了对比测试:
场景一:历史事件细节
问题:"2024 年诺贝尔物理学奖得主是谁?"GPT-5.5 给出了一个看起来很自信但实际错误的答案(它编了一个名字)。Claude 回答"截至我的知识截止日期,2024 年诺贝尔物理学奖尚未公布"——虽然也不确定,但至少没有编造。
场景二:法律条文引用
问题:"中国《数据安全法》第三十一条的具体内容是什么?"GPT-5.5 编了一段看起来很像法条的文字,但和原文有明显出入。Claude 回答"我无法准确引用该条款的具体措辞,建议查阅官方文本"。
场景三:代码 API 用法
问题:"Python 的 requests 库中,如何设置请求超时?"两个模型都回答正确。但在追问"requests 支持 HTTP/3 吗?"时,GPT-5.5 编造了一个不存在的参数,Claude 明确说"requests 目前不原生支持 HTTP/3"。
横向对比
| 能力维度 | Claude Opus 4.7/4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|
| AA-Omniscience 幻觉率 | 36% | 86% | 数据待公布 |
| 幻觉控制得分 | 87.48 分 | 中等 | 中等 |
| 长文本摘要幻觉率 | 1.8% | 3.5% | 偏高 |
| 事实性问答准确率 | 最高 | 中等 | 中等 |
| 创意任务表现 | 偏保守 | 最好 | 好 |
| 响应速度 | 偏慢 | 最快 | 快 |
GPT-5.5 在创意写作、头脑风暴等需要"发散思维"的场景中仍然是最好的选择。但在需要事实准确性的场景中,Claude 是更安全的选择。
小结
Claude 的 36% 幻觉率不是偶然,而是 Anthropic 在训练目标、置信度校准、安全框架等多个层面系统性优化的结果。它代表了一种"务实求真"的产品哲学——宁可不够有帮助,也不能不够诚实。
对于开发者来说,选模型的标准不应该是"哪个最聪明",而是"哪个最靠谱"。在法律、医学、金融、代码审计等高可靠性场景中,Claude 的低幻觉率是实实在在的差异化优势。
想亲自对比 Claude 和 GPT-5.5 在事实性场景中的表现,可以直接上库拉。平台整合了 Claude、GPT、Gemini、Grok 等主流模型,国内直连,一个页面就能横向对比不同模型的幻觉表现。
以上为个人实测体验,不同场景的效果可能有差异,欢迎评论区交流。
更多推荐



所有评论(0)