模型对比系列第 1 篇:Claude Fable 5 vs GPT-5.5,数学、物理、编程各跑一题
模型对比系列第 1 篇:Claude Fable 5 vs GPT-5.5,数学、物理、编程各跑一题
本文是一个长期模型对比系列的第一篇。
这次先用claude-fable-5和gpt-5.5做小样本测试,题目覆盖数学推导、物理受力分析和 Python 编程实现。
结论不做“大模型排行榜”,只记录这次测试中可复现的现象。
为什么要做这个系列
很多模型对比文章容易陷入两个问题:
- 只看主观感受,比如“这个模型回答更像人”。
- 只看单次复杂题,结果很难复现,也很难继续扩展。
我更想做一套可以持续追加的题库:数学题、物理题、编程实现题、代码审查题、结构化输出题都放进去。每次换模型,只要跑同一批题,就能逐步积累结果。
这次先从最小版本开始:
模型 1:claude-fable-5
模型 2:gpt-5.5
接口:Crazyrouter OpenAI-compatible API
Endpoint:POST /v1/chat/completions
测试时间:2026-07-05
本站测试入口:
https://crazyrouter.com/register?utm_source=blog&utm_medium=article&utm_campaign=model_compare_series&utm_content=fable5_gpt55_round1
测试方法
这次没有让模型互相评价,也没有给它们额外上下文。每个模型拿到同一段中文题目,要求用中文回答。
为了减少随机性,本轮参数较保守:
temperature = 0.2
max_tokens = 1200
本轮只执行 3 道题:
| 题号 | 类型 | 测试目标 |
|---|---|---|
| MATH-001 | 数学 | 递推数列通项和前 n 项和 |
| PHYS-001 | 物理 | 斜面摩擦、受力分析、加速度 |
| CODE-001 | 编程 | Python 合并闭区间,要求不修改原输入 |
题库已经单独记录,后续会继续增加题目和模型。
本轮题目
MATH-001:数列闭式与求和
设数列 a_n 满足 a_1 = 2,且 a_{n+1} = 3a_n + 2。
1. 求 a_n 的通项公式。
2. 求 S_n = a_1 + a_2 + ... + a_n 的闭式表达式。
请给出推导过程,不要只给答案。
标准答案:
a_n = 3^n - 1
S_n = (3^(n+1) - 3) / 2 - n
PHYS-001:斜面摩擦与加速度
一个质量 m = 2 kg 的小物块放在倾角 30° 的粗糙斜面上,从静止释放。
动摩擦因数 μ = 0.2,取 g = 9.8 m/s^2。
1. 判断物块是否会下滑。
2. 如果会下滑,求沿斜面向下的加速度。
请写出受力分析和计算过程。
标准答案要点:
mg sin30° = 9.8 N
μmg cos30° ≈ 3.39 N
物块会下滑
a = g(sin30° - μcos30°) ≈ 3.20 m/s^2
CODE-001:区间合并函数
请用 Python 实现函数 merge_intervals(intervals),输入为若干闭区间列表,例如 [[1,3],[2,6],[8,10],[10,12]]。
要求:
1. 合并所有重叠或首尾相接的区间。
2. 返回按起点升序排列的新列表。
3. 不修改原始输入。
4. 给出至少 3 个测试用例。
示例:[[1,3],[2,6],[8,10],[10,12]] 应返回 [[1,6],[8,12]]。
关键点:
闭区间首尾相接也要合并,例如 [8,10] 和 [10,12] 合并为 [8,12]
不能原地修改 intervals
测试用例要覆盖重叠、相接、乱序、空列表和输入不变性
API 调用结果
本轮一共 6 次请求,结果如下:
| 指标 | 结果 |
|---|---|
| 请求总数 | 6 |
| HTTP 200 | 6/6 |
| returned model 与 requested model 一致 | 6/6 |
| finish_reason=stop | 6/6 |
| 编程题本地断言测试 | 两个模型代码都通过 |
分模型耗时:
| 题目 | claude-fable-5 | gpt-5.5 |
|---|---|---|
| MATH-001 | 16.78s | 31.13s |
| PHYS-001 | 16.03s | 38.66s |
| CODE-001 | 21.45s | 27.58s |
| 平均 | 18.08s | 32.45s |
只看这次小样本,claude-fable-5 响应更快。但样本量还太小,不能直接推广成稳定速度结论。
答案质量对比
数学题
两个模型都给出了正确通项:
a_n = 3^n - 1
也都给出了正确求和:
S_n = (3^(n+1) - 3) / 2 - n
差异主要在表达风格:
| 模型 | 观察 |
|---|---|
claude-fable-5 |
推导简洁,还做了 n=1、n=2 的快速验证 |
gpt-5.5 |
步骤更细,公式展开更完整,但篇幅更长 |
这一题两者都可以给满分。
物理题
两个模型都判断物块会下滑,并算出加速度约为:
a ≈ 3.20 m/s^2
claude-fable-5 的回答很直接,先列重力分解,再比较下滑分力和摩擦力,最后代入公式。
gpt-5.5 多补了一句边界说明:严格判断从静止是否开始下滑,本应比较最大静摩擦力;题目只给动摩擦因数,所以按给定摩擦因数处理。这个说明更严谨。
这一题两者结果都正确,gpt-5.5 在物理建模限制上解释得更细。
编程题
两个模型都实现了正确的合并逻辑:
if start <= current_end:
current_end = max(current_end, end)
这里 <= 是关键,因为题目要求首尾相接的闭区间也要合并。
我把两边代码抽出来,用同一组断言跑了一遍:
claude-fable-5 all tests passed
gpt-5.5 all tests passed
差异在测试表达:
| 模型 | 观察 |
|---|---|
claude-fable-5 |
直接写了 assert 测试,并额外验证原始输入不被修改 |
gpt-5.5 |
代码更短,测试用 print 展示结果,也保留了输入不变性示例 |
如果是生产代码,我更喜欢 claude-fable-5 这版,因为测试更接近自动化验证;如果是教程答案,gpt-5.5 这版更短。
人工初评
| 题目 | claude-fable-5 | gpt-5.5 | 说明 |
|---|---|---|---|
| MATH-001 | 5/5 | 5/5 | 两者答案和推导都正确 |
| PHYS-001 | 5/5 | 5/5 | 两者数值正确,GPT-5.5 的边界说明更细 |
| CODE-001 | 5/5 | 5/5 | 两者代码均通过本地断言 |
这次小样本里,两边没有拉开正确性差距。更明显的差异是:
claude-fable-5:更快、更像“直接交作业”,编程题测试更完整。
gpt-5.5:解释更细,物理题边界意识更好,但本轮耗时更长。
这次测试不能说明什么
这篇文章不能证明:
claude-fable-5一定比gpt-5.5快。gpt-5.5一定比claude-fable-5更严谨。- 两个模型在所有数学、物理、编程任务上都同分。
原因很简单:这只是 3 道题、6 次请求的小样本。它更适合作为系列起点,而不是最终结论。
下一轮准备怎么扩展
后续我会继续增加题目类型:
| 类型 | 计划题目 |
|---|---|
| 数学 | 概率、组合、递推、极限、反例构造 |
| 物理 | 电路、能量守恒、圆周运动、单位换算 |
| 编程 | 日志聚合、LRU cache、异步重试、JSON schema 校验 |
| 工程 | 代码审查、接口设计、错误定位、性能分析 |
| 结构化输出 | 严格 JSON、表格抽取、字段缺失处理 |
模型也会继续增加,例如:
claude-sonnet-5
claude-opus-4-8
gpt-5.5-pro
deepseek-v4-pro
gemini-3.1-pro
总结
第一轮测试里,claude-fable-5 和 gpt-5.5 在数学、物理、编程三题上都给出了可用答案。
本轮更值得记录的是测试方法:
固定题库
固定提示词
记录 requested model 和 returned model
记录 HTTP 状态、耗时、finish_reason
编程题额外跑本地断言
只在样本范围内下结论
如果你也想复现类似测试,可以在本站创建 API Key,然后用同一批题分别调用不同模型:
https://crazyrouter.com/register?utm_source=blog&utm_medium=article&utm_campaign=model_compare_series&utm_content=fable5_gpt55_round1_final
下一篇会继续加题,并把模型范围扩大。
更多推荐

所有评论(0)