#Claude Sonnet 4.6 #材料约束 #Smoke轻量评测 #主榜排名 #执行满分

Smoke 今日快测最直接的结论是:代码执行已成及格线,材料约束才是真正分水岭。

前三名差距仅 1.58 分,Claude 两连冠

Claude Sonnet 4.6 以 97.53 分位居第一,Opus 4.7 紧随其后 96.54 分,Grok 4 95.95 分排第三。三者代码执行均为 100 分,真正拉开差距的是材料约束:Sonnet 94.5、Opus 92.3、Grok 91。0.45 的权重让这三项分数直接决定了主榜名次。

执行满分已成常态,文心一言成唯一例外

11 个模型里,10 个代码执行拿到 100 分。唯一不及格的是文心一言 4.5,仅 50 分。这直接把它的主榜分数压到 53.83,比第二名低近 44 分。执行维度已经不再是大多数模型的短板,材料约束反而成为决定性变量。

材料约束分差超过 33 分,国产模型集体承压

材料约束最高 94.5,最低 58.5,极差 36 分。GPT-5.5、豆包 Pro、Gemini 系列均在 75-79.5 区间徘徊,Qwen3 Max 仅 61 分。约束能力不足的模型,在需要严格引用原文、避免幻觉的题目上会持续丢分,这也是今日排名后半段扎堆的主要原因。

今日数据再次印证一个趋势:当执行能力普遍达标后,模型间的真实差异就集中体现在对输入材料的忠实程度上。Claude Sonnet 4.6 在这一维度的领先,已经连续两日转化为榜首优势。

材料约束每提升 10 分,主榜就能多抢 4.5 分,文心一言用 50 分执行和 58.5 分约束交出了最贵的一课。

数据来源:赢政指数 (YZ Index) | Run #156 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐