模型对比系列第 1 篇：Claude Fable 5 vs GPT-5.5，数学、物理、编程各跑一题

Jeff Met

39人浏览 · 2026-07-06 00:40:57

Jeff Met · 2026-07-06 00:40:57 发布

模型对比系列第 1 篇：Claude Fable 5 vs GPT-5.5，数学、物理、编程各跑一题

本文是一个长期模型对比系列的第一篇。
这次先用 claude-fable-5 和 gpt-5.5 做小样本测试，题目覆盖数学推导、物理受力分析和 Python 编程实现。
结论不做“大模型排行榜”，只记录这次测试中可复现的现象。

为什么要做这个系列

很多模型对比文章容易陷入两个问题：

只看主观感受，比如“这个模型回答更像人”。
只看单次复杂题，结果很难复现，也很难继续扩展。

我更想做一套可以持续追加的题库：数学题、物理题、编程实现题、代码审查题、结构化输出题都放进去。每次换模型，只要跑同一批题，就能逐步积累结果。

这次先从最小版本开始：

模型 1：claude-fable-5
模型 2：gpt-5.5
接口：Crazyrouter OpenAI-compatible API
Endpoint：POST /v1/chat/completions
测试时间：2026-07-05

本站测试入口：

https://crazyrouter.com/register?utm_source=blog&utm_medium=article&utm_campaign=model_compare_series&utm_content=fable5_gpt55_round1

测试方法

这次没有让模型互相评价，也没有给它们额外上下文。每个模型拿到同一段中文题目，要求用中文回答。

为了减少随机性，本轮参数较保守：

temperature = 0.2
max_tokens = 1200

本轮只执行 3 道题：

题号	类型	测试目标
MATH-001	数学	递推数列通项和前 n 项和
PHYS-001	物理	斜面摩擦、受力分析、加速度
CODE-001	编程	Python 合并闭区间，要求不修改原输入

题库已经单独记录，后续会继续增加题目和模型。

本轮题目

MATH-001：数列闭式与求和

设数列 a_n 满足 a_1 = 2，且 a_{n+1} = 3a_n + 2。
1. 求 a_n 的通项公式。
2. 求 S_n = a_1 + a_2 + ... + a_n 的闭式表达式。
请给出推导过程，不要只给答案。

标准答案：

a_n = 3^n - 1
S_n = (3^(n+1) - 3) / 2 - n

PHYS-001：斜面摩擦与加速度

一个质量 m = 2 kg 的小物块放在倾角 30° 的粗糙斜面上，从静止释放。
动摩擦因数 μ = 0.2，取 g = 9.8 m/s^2。
1. 判断物块是否会下滑。
2. 如果会下滑，求沿斜面向下的加速度。
请写出受力分析和计算过程。

标准答案要点：

mg sin30° = 9.8 N
μmg cos30° ≈ 3.39 N
物块会下滑
a = g(sin30° - μcos30°) ≈ 3.20 m/s^2

CODE-001：区间合并函数

请用 Python 实现函数 merge_intervals(intervals)，输入为若干闭区间列表，例如 [[1,3],[2,6],[8,10],[10,12]]。
要求：
1. 合并所有重叠或首尾相接的区间。
2. 返回按起点升序排列的新列表。
3. 不修改原始输入。
4. 给出至少 3 个测试用例。
示例：[[1,3],[2,6],[8,10],[10,12]] 应返回 [[1,6],[8,12]]。

关键点：

闭区间首尾相接也要合并，例如 [8,10] 和 [10,12] 合并为 [8,12]
不能原地修改 intervals
测试用例要覆盖重叠、相接、乱序、空列表和输入不变性

API 调用结果

本轮一共 6 次请求，结果如下：

指标	结果
请求总数	6
HTTP 200	6/6
returned model 与 requested model 一致	6/6
finish_reason=stop	6/6
编程题本地断言测试	两个模型代码都通过

分模型耗时：

题目	claude-fable-5	gpt-5.5
MATH-001	16.78s	31.13s
PHYS-001	16.03s	38.66s
CODE-001	21.45s	27.58s
平均	18.08s	32.45s

只看这次小样本，claude-fable-5 响应更快。但样本量还太小，不能直接推广成稳定速度结论。

答案质量对比

数学题

两个模型都给出了正确通项：

a_n = 3^n - 1

也都给出了正确求和：

S_n = (3^(n+1) - 3) / 2 - n

差异主要在表达风格：

模型	观察
`claude-fable-5`	推导简洁，还做了 n=1、n=2 的快速验证
`gpt-5.5`	步骤更细，公式展开更完整，但篇幅更长

这一题两者都可以给满分。

物理题

两个模型都判断物块会下滑，并算出加速度约为：

a ≈ 3.20 m/s^2

claude-fable-5 的回答很直接，先列重力分解，再比较下滑分力和摩擦力，最后代入公式。

gpt-5.5 多补了一句边界说明：严格判断从静止是否开始下滑，本应比较最大静摩擦力；题目只给动摩擦因数，所以按给定摩擦因数处理。这个说明更严谨。

这一题两者结果都正确，gpt-5.5 在物理建模限制上解释得更细。

编程题

两个模型都实现了正确的合并逻辑：

if start <= current_end:
    current_end = max(current_end, end)

这里 <= 是关键，因为题目要求首尾相接的闭区间也要合并。

我把两边代码抽出来，用同一组断言跑了一遍：

claude-fable-5 all tests passed
gpt-5.5 all tests passed

差异在测试表达：

模型	观察
`claude-fable-5`	直接写了 `assert` 测试，并额外验证原始输入不被修改
`gpt-5.5`	代码更短，测试用 `print` 展示结果，也保留了输入不变性示例

如果是生产代码，我更喜欢 claude-fable-5 这版，因为测试更接近自动化验证；如果是教程答案，gpt-5.5 这版更短。

人工初评

题目	claude-fable-5	gpt-5.5	说明
MATH-001	5/5	5/5	两者答案和推导都正确
PHYS-001	5/5	5/5	两者数值正确，GPT-5.5 的边界说明更细
CODE-001	5/5	5/5	两者代码均通过本地断言

这次小样本里，两边没有拉开正确性差距。更明显的差异是：

claude-fable-5：更快、更像“直接交作业”，编程题测试更完整。
gpt-5.5：解释更细，物理题边界意识更好，但本轮耗时更长。

这次测试不能说明什么

这篇文章不能证明：

claude-fable-5 一定比 gpt-5.5 快。
gpt-5.5 一定比 claude-fable-5 更严谨。
两个模型在所有数学、物理、编程任务上都同分。

原因很简单：这只是 3 道题、6 次请求的小样本。它更适合作为系列起点，而不是最终结论。

下一轮准备怎么扩展

后续我会继续增加题目类型：

类型	计划题目
数学	概率、组合、递推、极限、反例构造
物理	电路、能量守恒、圆周运动、单位换算
编程	日志聚合、LRU cache、异步重试、JSON schema 校验
工程	代码审查、接口设计、错误定位、性能分析
结构化输出	严格 JSON、表格抽取、字段缺失处理

模型也会继续增加，例如：

claude-sonnet-5
claude-opus-4-8
gpt-5.5-pro
deepseek-v4-pro
gemini-3.1-pro

总结

第一轮测试里，claude-fable-5 和 gpt-5.5 在数学、物理、编程三题上都给出了可用答案。

本轮更值得记录的是测试方法：

固定题库
固定提示词
记录 requested model 和 returned model
记录 HTTP 状态、耗时、finish_reason
编程题额外跑本地断言
只在样本范围内下结论

如果你也想复现类似测试，可以在本站创建 API Key，然后用同一批题分别调用不同模型：

https://crazyrouter.com/register?utm_source=blog&utm_medium=article&utm_campaign=model_compare_series&utm_content=fable5_gpt55_round1_final

下一篇会继续加题，并把模型范围扩大。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

第十二篇：MessageBuilder 深度解析 —— Claude Code 如何构建对话消息

/ 注意：content 是数组，不是字符串id: string;// base64 编码的图片数据Anthropic 的content是一个块数组，而不是单个字符串。这正是多模态和工具调用的基础。MessageBuilder 的核心职责，就是正确地生成这个数组。特性实现方式价值多模态块content块数组 +imagesource支持图片输入动态系统提示实时注入环境/工具上下文模型"身临其境"工

AI编程社区

第十三篇：Permission Model 深度解析 —— Claude Code 如何让 AI 安全执行命令

/ 外部可见的模式（settings.json / --permission-mode 可用）'acceptEdits', // 自动接受文件编辑'bypassPermissions',// 跳过所有权限检查'default', // 默认：按规则 + 询问'dontAsk', // 不问（危险：直接执行，无确认）'plan', // 计划模式：只思考不执行] as const// 内部模式额外包