Claude Sonnet 4.6 97.53 分领跑，材料约束把文心一言拉开 40 分

Winzheng_Index

92人浏览 · 2026-06-10 05:22:55

Winzheng_Index · 2026-06-10 05:22:55 发布

#Claude Sonnet 4.6 #材料约束 #Smoke轻量评测 #主榜排名 #执行满分

Smoke 今日快测最直接的结论是：代码执行已成及格线，材料约束才是真正分水岭。

前三名差距仅 1.58 分，Claude 两连冠

Claude Sonnet 4.6 以 97.53 分位居第一，Opus 4.7 紧随其后 96.54 分，Grok 4 95.95 分排第三。三者代码执行均为 100 分，真正拉开差距的是材料约束：Sonnet 94.5、Opus 92.3、Grok 91。0.45 的权重让这三项分数直接决定了主榜名次。

执行满分已成常态，文心一言成唯一例外

11 个模型里，10 个代码执行拿到 100 分。唯一不及格的是文心一言 4.5，仅 50 分。这直接把它的主榜分数压到 53.83，比第二名低近 44 分。执行维度已经不再是大多数模型的短板，材料约束反而成为决定性变量。

材料约束分差超过 33 分，国产模型集体承压

材料约束最高 94.5，最低 58.5，极差 36 分。GPT-5.5、豆包 Pro、Gemini 系列均在 75-79.5 区间徘徊，Qwen3 Max 仅 61 分。约束能力不足的模型，在需要严格引用原文、避免幻觉的题目上会持续丢分，这也是今日排名后半段扎堆的主要原因。

今日数据再次印证一个趋势：当执行能力普遍达标后，模型间的真实差异就集中体现在对输入材料的忠实程度上。Claude Sonnet 4.6 在这一维度的领先，已经连续两日转化为榜首优势。

材料约束每提升 10 分，主榜就能多抢 4.5 分，文心一言用 50 分执行和 58.5 分约束交出了最贵的一课。

数据来源：赢政指数 (YZ Index) | Run #156 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

cover

新手接入 Claude API，最容易忽略的五个配置项

cover

Claude API 认证机制深度拆解：新手避坑 + 企业安全方案优化

cover

如何在 VS Code 上使用 DeepSeek 版 Claude Code：不走 CCSwitch，小白直接用插件版

所有评论(0)

查看更多评论

Winzheng_Index

@Winzheng_Index

已为社区贡献7条内容