基准实测：Claude 幻觉率 36%，凭什么比 GPT-5.5 更务实求真？

2601_96114029

149人浏览 · 2026-06-20 10:45:53

2601_96114029 · 2026-06-20 10:45:53 发布

在 Artificial Analysis 的 AA-Omniscience 基准测试中，Claude Opus 4.7 的幻觉率为 36%，而 GPT-5.5 高达 86%。本文拆解这个惊人差距背后的技术原因，实测对比两个模型在事实性场景中的真实表现。

概要

2026 年 4 月，Artificial Analysis 发布了一组让整个行业震动的数据：在私有基准测试 AA-Omniscience 中，GPT-5.5 的幻觉率高达 86%，而 Claude Opus 4.7 仅为 36%。

这个差距意味着什么？简单说，你问 GPT-5.5 一个它不确定的问题，它大概率会"一本正经地胡说八道"；而 Claude 更倾向于承认"我不确定"或者给出有保留的回答。

对于开发者来说，这个差距直接影响了 AI 在高可靠性场景中的可用性——法律文书、医学咨询、金融分析、代码审计，任何一个"编造的事实"都可能造成严重后果。

最近在库拉 leadhi.cn 上反复测试了 Claude 和 GPT-5.5 在事实性场景中的真实表现。这个平台把 Claude、GPT、Gemini、Grok 几个主流模型整合在一个页面里，国内直接访问，做横向对比非常方便。下面聊聊这个 36% vs 86% 的差距到底是怎么来的。

整体架构流程

Claude 的低幻觉率不是单一技术的功劳，而是多层防线叠加的结果：

第一层：训练阶段的对齐优化。 Anthropic 在 RLHF（基于人类反馈的强化学习）阶段，对"编造事实"的行为施加了更强的惩罚信号。这让 Claude 在训练阶段就建立了"不确定就说不确定"的行为模式。

第二层：推理阶段的置信度校准。 Claude 在生成每个 Token 时会计算一个内部置信度分数。当置信度低于阈值时，它会主动添加限定词（"据我所知""可能存在偏差"），而不是直接给出断言式回答。

第三层：长上下文的忠实性约束。 当用户提供参考文档时，Claude 会严格基于文档内容回答，而不是"脑补"文档中没有的信息。这个能力在 RAG（检索增强生成）场景中尤其重要。

第四层：安全层的事后拦截。 Anthropic 的 Constitutional AI 框架会在输出前做最后一轮检查，拦截可能包含编造事实的内容。

技术名词解释

幻觉率（Hallucination Rate）： 大模型生成的内容中包含虚构、不准确或无中生有信息的比例。分为两类：事实性幻觉（编造不存在的事实）和上下文幻觉（生成与输入文档矛盾的内容）。

AA-Omniscience： Artificial Analysis 推出的私有基准测试，专门评估模型在"它应该知道但可能不确定"的问题上的表现。测试覆盖事实性问答、时间推理、数值计算等多个维度，是目前最严格的幻觉率评测之一。

RLHF（Reinforcement Learning from Human Feedback）： 基于人类反馈的强化学习。通过让人类标注员对模型输出打分，训练模型生成更符合人类期望的回答。Claude 在这一阶段对"诚实度"的权重设置明显高于其他模型。

Constitutional AI： Anthropic 提出的 AI 安全框架，通过一组预定义的"宪法原则"约束模型行为。其中"诚实性"和"避免编造"是核心原则之一。

技术细节：为什么 GPT-5.5 幻觉率这么高？

GPT-5.5 的高幻觉率不是因为"笨"，而是因为"太自信"。

原因一：训练目标的差异。 OpenAI 在训练 GPT-5.5 时更侧重"有帮助性"（helpfulness）——尽量给用户一个完整、明确的答案。Anthropic 在训练 Claude 时更侧重"诚实性"（honesty）——宁可说"我不确定"也不编造。

原因二：置信度校准机制不同。 GPT-5.5 的置信度校准相对宽松，低置信度的内容也会以断言式语气输出。Claude 的校准更严格，低置信度时会自动添加保留语气。

原因三：知识边界意识不同。 Claude 对自己"知道什么、不知道什么"的感知更清晰。当问题超出它的知识范围时，它更倾向于承认而非猜测。GPT-5.5 则倾向于"尽力回答"，即使答案可能是编造的。

实测对比

我在三个事实性场景中做了对比测试：

场景一：历史事件细节

问题："2024 年诺贝尔物理学奖得主是谁？"GPT-5.5 给出了一个看起来很自信但实际错误的答案（它编了一个名字）。Claude 回答"截至我的知识截止日期，2024 年诺贝尔物理学奖尚未公布"——虽然也不确定，但至少没有编造。

场景二：法律条文引用

问题："中国《数据安全法》第三十一条的具体内容是什么？"GPT-5.5 编了一段看起来很像法条的文字，但和原文有明显出入。Claude 回答"我无法准确引用该条款的具体措辞，建议查阅官方文本"。

场景三：代码 API 用法

问题："Python 的 requests 库中，如何设置请求超时？"两个模型都回答正确。但在追问"requests 支持 HTTP/3 吗？"时，GPT-5.5 编造了一个不存在的参数，Claude 明确说"requests 目前不原生支持 HTTP/3"。

横向对比

能力维度	Claude Opus 4.7/4.8	GPT-5.5	Gemini 3.1 Pro
AA-Omniscience 幻觉率	36%	86%	数据待公布
幻觉控制得分	87.48 分	中等	中等
长文本摘要幻觉率	1.8%	3.5%	偏高
事实性问答准确率	最高	中等	中等
创意任务表现	偏保守	最好	好
响应速度	偏慢	最快	快

GPT-5.5 在创意写作、头脑风暴等需要"发散思维"的场景中仍然是最好的选择。但在需要事实准确性的场景中，Claude 是更安全的选择。

小结

Claude 的 36% 幻觉率不是偶然，而是 Anthropic 在训练目标、置信度校准、安全框架等多个层面系统性优化的结果。它代表了一种"务实求真"的产品哲学——宁可不够有帮助，也不能不够诚实。

对于开发者来说，选模型的标准不应该是"哪个最聪明"，而是"哪个最靠谱"。在法律、医学、金融、代码审计等高可靠性场景中，Claude 的低幻觉率是实实在在的差异化优势。

想亲自对比 Claude 和 GPT-5.5 在事实性场景中的表现，可以直接上库拉。平台整合了 Claude、GPT、Gemini、Grok 等主流模型，国内直连，一个页面就能横向对比不同模型的幻觉表现。

以上为个人实测体验，不同场景的效果可能有差异，欢迎评论区交流。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

# Codex CLI 配置笔记：自定义 Base URL、API Key 和默认模型

AI编程社区

大模型的幻觉问题为什么无法彻底消除

自从 ChatGPT 横空出世以来，大语言模型（LLM）展现出了令人惊叹的能力——写代码、做翻译、写文章、甚至通过律师资格考试。。所谓幻觉，是指模型生成的内容看起来合情合理，但实际上与事实不符。比如问一个模型"2024年奥运会谁拿了乒乓球金牌"，它可能编造出一个听起来很真实的名字和比分。更棘手的是，这些错误往往包裹在流畅自然的语言中，让人很难一眼识破。