模型对比系列第 1 篇:Claude Fable 5 vs GPT-5.5,数学、物理、编程各跑一题

本文是一个长期模型对比系列的第一篇。
这次先用 claude-fable-5gpt-5.5 做小样本测试,题目覆盖数学推导、物理受力分析和 Python 编程实现。
结论不做“大模型排行榜”,只记录这次测试中可复现的现象。

为什么要做这个系列

很多模型对比文章容易陷入两个问题:

  1. 只看主观感受,比如“这个模型回答更像人”。
  2. 只看单次复杂题,结果很难复现,也很难继续扩展。

我更想做一套可以持续追加的题库:数学题、物理题、编程实现题、代码审查题、结构化输出题都放进去。每次换模型,只要跑同一批题,就能逐步积累结果。

这次先从最小版本开始:

模型 1:claude-fable-5
模型 2:gpt-5.5
接口:Crazyrouter OpenAI-compatible API
Endpoint:POST /v1/chat/completions
测试时间:2026-07-05

本站测试入口:

https://crazyrouter.com/register?utm_source=blog&utm_medium=article&utm_campaign=model_compare_series&utm_content=fable5_gpt55_round1

测试方法

这次没有让模型互相评价,也没有给它们额外上下文。每个模型拿到同一段中文题目,要求用中文回答。

为了减少随机性,本轮参数较保守:

temperature = 0.2
max_tokens = 1200

本轮只执行 3 道题:

题号 类型 测试目标
MATH-001 数学 递推数列通项和前 n 项和
PHYS-001 物理 斜面摩擦、受力分析、加速度
CODE-001 编程 Python 合并闭区间,要求不修改原输入

题库已经单独记录,后续会继续增加题目和模型。

本轮题目

MATH-001:数列闭式与求和

设数列 a_n 满足 a_1 = 2,且 a_{n+1} = 3a_n + 2。
1. 求 a_n 的通项公式。
2. 求 S_n = a_1 + a_2 + ... + a_n 的闭式表达式。
请给出推导过程,不要只给答案。

标准答案:

a_n = 3^n - 1
S_n = (3^(n+1) - 3) / 2 - n

PHYS-001:斜面摩擦与加速度

一个质量 m = 2 kg 的小物块放在倾角 30° 的粗糙斜面上,从静止释放。
动摩擦因数 μ = 0.2,取 g = 9.8 m/s^2。
1. 判断物块是否会下滑。
2. 如果会下滑,求沿斜面向下的加速度。
请写出受力分析和计算过程。

标准答案要点:

mg sin30° = 9.8 N
μmg cos30° ≈ 3.39 N
物块会下滑
a = g(sin30° - μcos30°) ≈ 3.20 m/s^2

CODE-001:区间合并函数

请用 Python 实现函数 merge_intervals(intervals),输入为若干闭区间列表,例如 [[1,3],[2,6],[8,10],[10,12]]。
要求:
1. 合并所有重叠或首尾相接的区间。
2. 返回按起点升序排列的新列表。
3. 不修改原始输入。
4. 给出至少 3 个测试用例。
示例:[[1,3],[2,6],[8,10],[10,12]] 应返回 [[1,6],[8,12]]。

关键点:

闭区间首尾相接也要合并,例如 [8,10] 和 [10,12] 合并为 [8,12]
不能原地修改 intervals
测试用例要覆盖重叠、相接、乱序、空列表和输入不变性

API 调用结果

本轮一共 6 次请求,结果如下:

指标 结果
请求总数 6
HTTP 200 6/6
returned model 与 requested model 一致 6/6
finish_reason=stop 6/6
编程题本地断言测试 两个模型代码都通过

分模型耗时:

题目 claude-fable-5 gpt-5.5
MATH-001 16.78s 31.13s
PHYS-001 16.03s 38.66s
CODE-001 21.45s 27.58s
平均 18.08s 32.45s

只看这次小样本,claude-fable-5 响应更快。但样本量还太小,不能直接推广成稳定速度结论。

答案质量对比

数学题

两个模型都给出了正确通项:

a_n = 3^n - 1

也都给出了正确求和:

S_n = (3^(n+1) - 3) / 2 - n

差异主要在表达风格:

模型 观察
claude-fable-5 推导简洁,还做了 n=1、n=2 的快速验证
gpt-5.5 步骤更细,公式展开更完整,但篇幅更长

这一题两者都可以给满分。

物理题

两个模型都判断物块会下滑,并算出加速度约为:

a ≈ 3.20 m/s^2

claude-fable-5 的回答很直接,先列重力分解,再比较下滑分力和摩擦力,最后代入公式。

gpt-5.5 多补了一句边界说明:严格判断从静止是否开始下滑,本应比较最大静摩擦力;题目只给动摩擦因数,所以按给定摩擦因数处理。这个说明更严谨。

这一题两者结果都正确,gpt-5.5 在物理建模限制上解释得更细。

编程题

两个模型都实现了正确的合并逻辑:

if start <= current_end:
    current_end = max(current_end, end)

这里 <= 是关键,因为题目要求首尾相接的闭区间也要合并。

我把两边代码抽出来,用同一组断言跑了一遍:

claude-fable-5 all tests passed
gpt-5.5 all tests passed

差异在测试表达:

模型 观察
claude-fable-5 直接写了 assert 测试,并额外验证原始输入不被修改
gpt-5.5 代码更短,测试用 print 展示结果,也保留了输入不变性示例

如果是生产代码,我更喜欢 claude-fable-5 这版,因为测试更接近自动化验证;如果是教程答案,gpt-5.5 这版更短。

人工初评

题目 claude-fable-5 gpt-5.5 说明
MATH-001 5/5 5/5 两者答案和推导都正确
PHYS-001 5/5 5/5 两者数值正确,GPT-5.5 的边界说明更细
CODE-001 5/5 5/5 两者代码均通过本地断言

这次小样本里,两边没有拉开正确性差距。更明显的差异是:

claude-fable-5:更快、更像“直接交作业”,编程题测试更完整。
gpt-5.5:解释更细,物理题边界意识更好,但本轮耗时更长。

这次测试不能说明什么

这篇文章不能证明:

  1. claude-fable-5 一定比 gpt-5.5 快。
  2. gpt-5.5 一定比 claude-fable-5 更严谨。
  3. 两个模型在所有数学、物理、编程任务上都同分。

原因很简单:这只是 3 道题、6 次请求的小样本。它更适合作为系列起点,而不是最终结论。

下一轮准备怎么扩展

后续我会继续增加题目类型:

类型 计划题目
数学 概率、组合、递推、极限、反例构造
物理 电路、能量守恒、圆周运动、单位换算
编程 日志聚合、LRU cache、异步重试、JSON schema 校验
工程 代码审查、接口设计、错误定位、性能分析
结构化输出 严格 JSON、表格抽取、字段缺失处理

模型也会继续增加,例如:

claude-sonnet-5
claude-opus-4-8
gpt-5.5-pro
deepseek-v4-pro
gemini-3.1-pro

总结

第一轮测试里,claude-fable-5gpt-5.5 在数学、物理、编程三题上都给出了可用答案。

本轮更值得记录的是测试方法:

固定题库
固定提示词
记录 requested model 和 returned model
记录 HTTP 状态、耗时、finish_reason
编程题额外跑本地断言
只在样本范围内下结论

如果你也想复现类似测试,可以在本站创建 API Key,然后用同一批题分别调用不同模型:

https://crazyrouter.com/register?utm_source=blog&utm_medium=article&utm_campaign=model_compare_series&utm_content=fable5_gpt55_round1_final

下一篇会继续加题,并把模型范围扩大。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐