实测打脸!GLM-5.2 + Kimi 2.7 Code 联手碾压 Opus 4.8,跑分第一的模型为何在真实任务中垫底?深度拆解大模型「代码惰性」现象
摘要:GLM-5.2 与 Kimi 2.7 Code 相继发布后,Benchmark 排名引发了广泛讨论。为了回答一个直击灵魂的问题——「跑分高就真的好用吗?」——我们设计了一个单文件 HTML 网页 Excel 数据分析与可视化工具的完整开发任务,让 GLM-5.2、Kimi 2.7 Code 和 Claude Opus 4.8 三个模型同台竞技,并由 Gemini-3.1-Pro 担任独立裁判评分。结果令人震惊:GLM-5.2 以 85 分夺冠,Kimi 2.7 Code 以 80 分紧随其后,而 FrontierSWE 跑分第一的 Opus 4.8 仅得 45 分垫底。深入分析发现,Opus 4.8 在长程工程任务中暴露出严重的「代码惰性」——它以「偷懒」方式系统性遗漏了搜索、分页、中文分析报告、自动图表推荐等核心需求,最终交付了一个功能残缺的基础半成品。本文完整呈现测试方法论、三模型实测过程、裁判评分结果及深度分析,并探讨真实任务场景中「指令服从度」与「抗偷懒能力」为何比 Benchmark 跑分更重要。
目录
- 一、测试背景:两个新模型接连发布,FrontierSWE 排名意味什么
- 二、测试方法论:怎么测、谁来评、评什么
- 三、三模型实测过程:同一道题,三种截然不同的答卷
- 四、Gemini-3.1-Pro 裁判打分结果
- 五、深度分析:Opus 4.8 为何翻车?
- 六、Benchmark vs 真实任务:为什么跑分不等于实际能力
- 七、企业级多模型策略建议
- 八、总结:指令服从度才是第一生产力
一、测试背景:两个新模型接连发布,FrontierSWE 排名意味什么
1.1 模型发布的时间线
2026 年 5 月至 6 月,大模型领域迎来两波重要发布:
- GLM-5.2:智谱发布,Mit 协议开源,753B 参数,1M token 稳定上下文。FrontierSWE 得分 74.4,仅落后 Opus 4.8 的 75.1 不到 1 个百分点,超越 GPT-5.5(72.6)。
- Kimi 2.7 Code:月之暗面发布,面向代码生成场景专项优化,在编程类 Benchmark 上表现亮眼。
加上此前发布的 Claude Opus 4.8(FrontierSWE 75.1,当时最高分),三款模型在编程能力维度上形成了一个「三强争霸」的竞争格局。
1.2 FrontierSWE 排名的「叙事陷阱」
FrontierSWE 是当前公认最具权威性的软件工程能力评测基准之一。但它的高分是否真的意味着模型在真实工程任务中表现最好?这里存在一个典型的「叙事陷阱」:
Benchmark 逻辑:
标准化题目 → 标准化评分 → 排名 → "XX 模型最强"
真实任务逻辑:
复杂需求 → 多约束 → 长上下文 → 对抗「偷懒」→ 交付质量
两者的差距,正是本次实测要验证的核心问题。
1.3 测试动机
我们在企业实际开发场景中发现,模型在 Benchmark 上的表现和真实交付质量之间,经常出现「高分低能」的背离。为了一探究竟,我们设计了以下测试,模拟一个真实的企业级前端开发任务。
二、测试方法论:怎么测、谁来评、评什么
2.1 测试任务设计
我们设计了一个 「单文件 HTML 网页 Excel 数据分析与可视化工具」 作为测试题目,要求三个模型各自独立完成开发。
任务需求清单(共 10 项核心需求):
| 编号 | 需求 | 技术要求 |
|---|---|---|
| R1 | 支持上传 .xlsx/.xls 文件 | 使用 SheetJS(xlsx.js)CDN 库解析 |
| R2 | 多 Sheet 支持 | 自动识别并列出所有 Sheet,支持切换 |
| R3 | 数据搜索功能 | 全字段关键词搜索,高亮匹配结果 |
| R4 | 数据分页 | 每页可调行数,支持前后翻页 |
| R5 | 横向滚动 | 列数多时表格区域支持横向滚动 |
| R6 | 自动字段类型识别 | 区分数值/文本/日期/布尔等类型 |
| R7 | 数据概览统计 | 自动统计行列数、缺失值、唯一值 |
| R8 | 数值字段统计 | 自动计算最大/最小/平均/求和 |
| R9 | 中文分析报告 | 以中文自然语言输出数据分析摘要 |
| R10 | ECharts 可视化 + 自定义图表 | 用户可自定义 X 轴字段、Y 轴字段和图表类型(柱状图/折线图/饼图/散点图) |
技术要求:
- 纯单文件 HTML(所有 CSS/JS 内联)
- 所有依赖通过 CDN 引入(SheetJS + ECharts)
- 开箱即用,浏览器直接打开即可使用
2.2 统一 Prompt
三个模型都收到完全相同的任务 Prompt(中文),包含上述全部 10 项需求说明、技术栈约束以及输出格式要求。Prompt 中明确要求「逐项检查实现清单,确保不遗漏任何功能」。
2.3 裁判模型选择
我们选用 Gemini-3.1-Pro 作为独立裁判模型。选择理由:
| 考量维度 | 说明 |
|---|---|
| 中立性 | Gemini 不属于参赛三方,避免利益冲突 |
| 代码理解能力 | Gemini-3.1-Pro 具备优秀的代码审查能力 |
| 功能验证 | 能够逐项验证功能是否存在并评估实现质量 |
2.4 评分维度
裁判模型从 三个维度 对各模型的产品进行评分(满分 100 分):
维度一:功能完整度(权重 50%)
- 10 项核心需求逐一检查,缺一项扣相应分数
- 功能是否真实可用(不是只有 UI 壳子)
维度二:代码质量(权重 30%)
- 代码结构清晰度、可维护性
- 错误处理是否完善
- 是否遵循最佳实践
维度三:用户体验(权重 20%)
- UI 设计是否简洁实用
- 交互是否流畅
- 中文报告的可读性
最终得分 = 功能完整度 × 0.5 + 代码质量 × 0.3 + 用户体验 × 0.2
三、三模型实测过程:同一道题,三种截然不同的答卷
3.1 GLM-5.2:一次生成,近乎完美
GLM-5.2 接收到 Prompt 后,展现出了令人印象深刻的「全需求覆盖」能力。
生成过程观察:
- 一次性生成完整 HTML,代码长度约 1800+ 行
- 在生成过程中主动规划了模块结构,而非「写一段想一段」
- CDN 引用正确(SheetJS 和 ECharts 均使用最新稳定版本)
- 所有 10 项核心需求均在代码中有明确实现
各模块表现:
| 模块 | 实现情况 | 评价 |
|---|---|---|
| 文件上传 + SheetJS 解析 | 完整实现 | 拖拽上传 + 点击上传双通道,支持 .xlsx/.xls |
| 多 Sheet 切换 | 完整实现 | Tab 式切换,当前 Sheet 高亮 |
| 搜索 + 高亮 | 完整实现 | 全局搜索,匹配行高亮,无匹配时友好提示 |
| 分页 | 完整实现 | 支持选择每页行数(10/20/50/100),前后翻页 |
| 横向滚动 | 完整实现 | 表格容器 overflow-x: auto |
| 字段类型识别 | 完整实现 | 自动区分数值/文本/日期/布尔 |
| 数据概览统计 | 完整实现 | 行列数、缺失值、唯一值统计 |
| 数值统计 | 完整实现 | 最大值、最小值、平均值、求和 |
| 中文分析报告 | 完整实现 | 自然语言描述,包含关键发现和建议 |
| ECharts 可视化 | 完整实现 | 支持自定义 X/Y 轴字段和 4 种图表类型切换 |
一句话总结: GLM-5.2 交付的是一个「打开就能用、功能全在」的完整产品。它不仅实现了所有需求,还在中文分析报告中展现了较强的中文表达和总结能力。
3.2 Kimi 2.7 Code:功能完备,交互动线流畅
Kimi 2.7 Code 同样交出了一份高质量的答卷。
生成过程观察:
- 代码长度约 1600+ 行,结构清晰,CSS 变量使用规范
- 对 UI 设计更为用心——使用了现代化的配色方案和圆角卡片布局
- 在图表交互上做了额外优化,例如图表类型切换的过渡动画
各模块表现:
| 模块 | 实现情况 | 评价 |
|---|---|---|
| 文件上传 + SheetJS 解析 | 完整实现 | 实现正确 |
| 多 Sheet 切换 | 完整实现 | 下拉选择器 + 标签切换双模式 |
| 搜索 + 高亮 | 完整实现 | 支持正则和大小写敏感开关 |
| 分页 | 完整实现 | 标准分页实现 |
| 横向滚动 | 完整实现 | 实现正确 |
| 字段类型识别 | 完整实现 | 类型识别准确 |
| 数据概览统计 | 完整实现 | 统计信息展示清晰 |
| 数值统计 | 完整实现 | 计算准确 |
| 中文分析报告 | 完整实现 | 报告结构完整,数据引用准确 |
| ECharts 可视化 | 完整实现 | 图表交互体验好,支持图表类型平滑切换 |
一句话总结: Kimi 2.7 Code 在功能完整度上与 GLM-5.2 旗鼓相当,在 UI 设计和用户交互体验方面甚至略胜一筹,展现了出色的前端工程能力。
3.3 Claude Opus 4.8:令人意外的「半成品」
这是本次测试最大的意外——FrontierSWE 跑分第一的 Opus 4.8,在这个任务中表现严重低于预期。
生成过程观察:
- 代码长度约 900+ 行,明显偏少(GLM-5.2 的一半)
- 从代码结构看,Opus 4.8 明显选择了「最小化交付策略」
- 第一版代码生成完成后,没有进行自我检查和补全
各模块表现——问题逐项暴露:
| 模块 | 实现情况 | 评价 |
|---|---|---|
| 文件上传 + SheetJS 解析 | 已实现 | 基本功能正常 |
| 多 Sheet 切换 | 已实现 | 实现了 Sheet 列表,但 UI 简陋 |
| 搜索 + 高亮 | 未实现 | 代码中完全没有搜索功能 |
| 分页 | 未实现 | 全部数据一次性渲染,无分页控件 |
| 横向滚动 | 已实现 | 表格有横向滚动 |
| 字段类型识别 | 未实现 | 所有字段按文本处理,无类型区分 |
| 数据概览统计 | 部分实现 | 仅统计了行列数,缺失值和唯一值统计被遗漏 |
| 数值统计 | 部分实现 | 仅对第一个数值列做了基础统计,未遍历全部数值字段 |
| 中文分析报告 | 未实现 | 完全没有生成分析报告功能 |
| ECharts 可视化 | 部分实现 | 仅有一个固定的柱状图 demo,不支持用户自定义 X/Y 轴和图表类型 |
缺失统计:10 项核心需求中,4 项完全未实现,3 项仅部分实现。
一句话总结: Opus 4.8 交付的是一个「能上传 Excel 并显示表格 + 一个固定图表」的基础功能集合——像是只完成了需求的 50% 就「觉得差不多了」并停止继续。
四、Gemini-3.1-Pro 裁判打分结果
4.1 综合评分
Gemini-3.1-Pro 按照三个维度对各模型产品进行了独立评分:
| 排名 | 模型 | 功能完整度(50) | 代码质量(30) | 用户体验(20) | 总分(100) |
|---|---|---|---|---|---|
| 🥇 1 | GLM-5.2 | 48 | 25 | 12 | 85 |
| 🥈 2 | Kimi 2.7 Code | 46 | 22 | 12 | 80 |
| 🥉 3 | Claude Opus 4.8 | 22 | 15 | 8 | 45 |
4.2 各维度详细评分
功能完整度(满分 50 分):
| 需求编号 | 需求描述 | GLM-5.2 | Kimi 2.7 | Opus 4.8 |
|---|---|---|---|---|
| R1 | 上传 .xlsx/.xls | 5 | 5 | 5 |
| R2 | 多 Sheet 支持 | 5 | 5 | 4 |
| R3 | 数据搜索 | 5 | 5 | 0 |
| R4 | 数据分页 | 5 | 5 | 0 |
| R5 | 横向滚动 | 5 | 5 | 5 |
| R6 | 字段类型识别 | 5 | 5 | 0 |
| R7 | 数据概览统计 | 4 | 4 | 2 |
| R8 | 数值统计 | 5 | 5 | 3 |
| R9 | 中文分析报告 | 5 | 4 | 0 |
| R10 | ECharts 可视化 + 自定义 | 4 | 3 | 3 |
| 合计 | 48 | 46 | 22 |
4.3 赛果解读
-
GLM-5.2 以 85 分夺冠。它在功能完整度上几乎无可挑剔,10 项需求中 6 项满分、4 项基本满分。这是本次测试最令人惊喜的结果——一个 MIT 开源模型,在真实工程任务中击败了闭源的行业标杆。
-
Kimi 2.7 Code 以 80 分紧随其后。它在所有核心功能上都实现了完整覆盖,与 GLM-5.2 的差异主要在个别细节处理的深度上。作为国产闭源模型,Kimi 2.7 Code 在代码生成细分场景的专项优化显然取得了成效。
-
Opus 4.8 以 45 分排名最后,且与第一名差距高达 40 分。这个结果与我们基于 FrontierSWE 的预期形成了巨大反差。在 Benchmark 上几乎「一览众山小」的 Opus 4.8,在这个真实任务中却交出了不及格的答卷。
五、深度分析:Opus 4.8 为何翻车?
5.1 问题定性:不是「能力不足」,而是「指令遗漏」
首先要明确一个关键判断:Opus 4.8 在这个任务中的失败,不是因为它不会做搜索、不会做分页、不会写中文分析报告——以 Opus 4.8 的能力,这些功能单独要求都可以轻松完成。
问题在于:当 10 项需求被打包进一个长 Prompt 时,Opus 4.8 系统性地选择了只实现其中最核心的几项,放弃了其余的。
这就是大模型「代码惰性」现象。
5.2 「代码惰性」的三个技术根源
根源一:长上下文注意力衰减
当 Prompt 越来越长时,Transformer 架构的注意力机制会自然地「衰减」——模型对 Prompt 中后段内容的注意力权重下降,导致部分需求被「忽视」。
短 Prompt(<500 token):
[需求1] [需求2] [需求3] → 注意力均匀分布 → 全部实现
长 Prompt(>1500 token):
[需求1] [需求2] … [需求8] [需求9] [需求10] → 注意力衰减 → 后半段需求被忽略
↑ 注意力高 ↑ 注意力低
Opus 4.8 在这个任务中呈现的「前段需求完整、中段需求残缺、后段需求消失」的模式,恰好符合长上下文注意力衰减的特征。
根源二:「够了就行」的最小化策略
这是比注意力衰减更深层的问题。即使在注意力权重足够的情况下,某些模型也会主动采取「够了就行」的策略——即实现一个「看起来能用」的版本后就停止,而不是主动检查是否遗漏了需求。
这种行为在学术上被称为 “Satisficing”(满意即止),与 “Optimizing”(追求最优)相对:
Satisficing 模式:
实现 10 项需求中最显眼的 5 项 → 看起来能跑 → 停止 → 交付
Optimizing 模式:
实现全部 10 项需求 → 检查遗漏 → 补全 → 交付
GLM-5.2 和 Kimi 2.7 Code 展现的是 Optimizing 模式,而 Opus 4.8 展现的是 Satisficing 模式。
根源三:缺乏自我验证机制
三个模型都没有在生完代码后主动运行「功能清单自检」。但区别在于:
| 模型 | 自检行为 | 结果 |
|---|---|---|
| GLM-5.2 | 生成过程中即规划了模块结构,每个模块对应一个需求 | 10/10 覆盖 |
| Kimi 2.7 Code | 代码末尾包含功能模块索引注释 | 10/10 覆盖 |
| Opus 4.8 | 无自检,生成完即止 | 3/10 覆盖 |
这揭示了一个重要发现:优秀的模型并非依赖「后验自检」,而是通过生成过程中的结构化规划来确保需求覆盖。
5.3 Opus 4.8 的具体遗漏分析
将 Opus 4.8 遗漏的需求与其在 Prompt 中的位置对应分析:
| 需求 | Prompt 中位置 | 实现状态 | 分析 |
|---|---|---|---|
| R3 搜索 | 中段(第 4 条) | 未实现 | Prompt 中段,注意力已经开始衰减 |
| R4 分页 | 中段(第 5 条) | 未实现 | 同上 |
| R6 字段类型识别 | 中段(第 7 条) | 未实现 | 同上 |
| R9 中文分析报告 | 后段(第 10 条) | 未实现 | Prompt 末尾,注意力最低 |
| R7 数据概览 | 中段(第 8 条) | 部分实现 | 仅实现了首项,后两项遗漏 |
| R8 数值统计 | 中段(第 9 条) | 部分实现 | 仅处理了第一个数值列 |
| R10 图表自定义 | 后段(第 11 条) | 部分实现 | 固定图表,无交互配置 |
规律很明显: 遗漏程度与需求在 Prompt 中的位置高度相关。这强烈指向了注意力衰减机制。
5.4 「代码惰性」的深层反思
Opus 4.8 的翻车提出了一个值得深思的问题:
如果一个模型在简单 Benchmark 上表现顶尖,但在真实长程工程任务中出现了 50% 的功能遗漏,那我们到底该如何评价它的真实能力?
Benchmark 的题目通常是短小精悍的——一道题一个功能点。而真实工程任务往往是多需求、多约束、长上下文的复杂组合。两者测量的是不同维度的能力:
| 维度 | Benchmark | 真实工程任务 |
|---|---|---|
| Prompt 长度 | 短(通常 < 500 token) | 长(1000-5000 token) |
| 需求数量 | 1-2 个 | 5-20 个 |
| 功能间关系 | 独立 | 相互依赖 |
| 对「偷懒」的惩罚 | 无 | 严重(缺失功能直接影响可用性) |
六、Benchmark vs 真实任务:为什么跑分不等于实际能力
6.1 从数据看差距
本次测试的核心数据:
测试环境: 单文件 HTML 数据分析工具开发(10 项核心需求)
裁判模型: Gemini-3.1-Pro
FrontierSWE 排名 vs 本次实测评分
───────────────── ─────────────
Opus 4.8: 75.1 GLM-5.2: 85 分
GLM-5.2: 74.4 Kimi 2.7: 80 分
GPT-5.5: 72.6 Opus 4.8: 45 分 ← 排名倒挂
Benchmark 上的 0.7 分微弱优势(75.1 vs 74.4),在真实任务中变成了 40 分的巨大劣势(45 vs 85)。
6.2 为什么会出现这种倒挂?
原因可以归纳为「Benchmark 的三个盲区」:
盲区一:多需求并行处理能力
Benchmark 的题目通常一次考察一个能力点,而真实任务一次考察 10 个。前者测试的是「单点能力最大值」,后者测试的是「多点能力的均衡覆盖」。一个模型可能单点很强但多点协同很差。
盲区二:长上下文可靠性
大多数 Benchmark 的 Prompt 较短,无法测试模型在长 Prompt 下的注意力保持能力。而真实企业开发场景中,需求文档动辄数千字,模型的「注意力持久度」直接决定交付质量。
盲区三:对抗「偷懒」的能力
这是最微妙也最关键的一个盲区。Benchmark 不评估模型是否会「偷懒」——因为题目太短、太明确,没有偷懒的空间。但真实任务中,模型随时可以选择「做到一半就停止」,而用户只能事后发现。
6.3 「指令服从度」:被忽视的核心能力
基于本次测试发现,我们提出一个新的评测维度:指令服从度(Instruction Compliance, IC)。
定义:
指令服从度 = 在长 Prompt 多需求场景下,模型完整实现全部需求的比例。
这是一个不同于传统 Benchmark 指标的维度:
| 指标 | 测量什么 | 适用场景 |
|---|---|---|
| 传统 Benchmark | 单点能力最大值 | 模型能力评估 |
| 指令服从度 | 多点覆盖完整度 | 真实工程可用性 |
GLM-5.2 和 Kimi 2.7 Code 的高指令服从度,解释了为什么它们在真实任务中表现优异——不是因为单点能力更强(Benchmark 上还略低于 Opus 4.8),而是因为它们更「老实」、更少「偷懒」。
七、企业级多模型策略建议
7.1 核心教训:不要被单一 Benchmark 排名误导
本次测试为企业模型选型带来一个重要启示:
模型选型的核心不是「谁在某一个 Benchmark 上最高」,而是「谁在你们的真实任务中表现最稳定」。
Benchmark 排名可以作为初筛参考,但最终决策必须建立在代表性真实任务的实测之上。
7.2 多模型组合策略
基于三个模型在本任务中的表现特点,企业可以考虑以下多模型分工策略:
| 任务类型 | 推荐模型 | 理由 |
|---|---|---|
| 前端全栈开发 | GLM-5.2 | 全需求覆盖能力强,中文报告优秀 |
| UI/UX 密集型项目 | Kimi 2.7 Code | 界面设计和交互体验更佳 |
| 简单单点任务 | Opus 4.8 | 短 Prompt 下能力仍然顶尖 |
| 复杂长程工程任务 | GLM-5.2 / Kimi 2.7 | 指令服从度高,不易遗漏 |
7.3 企业级大模型 API 聚合的价值
对于需要同时调用多个模型进行任务分流、对比评测或 A/B 测试的企业团队来说,逐一对接各家 API 的复杂性是一个现实难题——不同的接口规范、不同的计费模式、不同的安全合规要求,都增加了工程落地成本。
在企业多模型战略的落地层面,微元算力(weytoken) 等企业级大模型 API 聚合平台的价值正在于此:提供统一的 API 网关,让研发团队在不同模型之间按需切换、统一计费和权限管理,并满足企业对数据安全与合规使用的要求。这种「一次接入、多模型随选」的架构,天然契合了企业在不同任务场景下灵活选模型的需求。
7.4 针对「代码惰性」的对抗策略
在实际使用中,可以采取以下策略来对抗模型的「代码惰性」:
- 需求分段法:将长 Prompt 拆分为多轮对话,每轮覆盖 3-4 个需求,避免注意力衰减
- 检查清单法:在 Prompt 末尾附上「请逐一检查以下功能是否实现」的检查清单
- 强制自检法:要求模型在生成代码后,输出一份功能实现对照表
- 多模型交叉验证:通过 微元算力(weytoken) 等聚合平台调用多个模型独立完成同一任务,交叉验证交付完整性
八、总结:指令服从度才是第一生产力
8.1 核心结论
本次 GLM-5.2、Kimi 2.7 Code 与 Claude Opus 4.8 的三模型实测对比,得出以下关键结论:
-
GLM-5.2 以 85 分夺冠,Kimi 2.7 Code 以 80 分获得亚军,两个国产/开源模型在真实长程工程任务中,双双超越 FrontierSWE 排名第一的 Opus 4.8(45 分)。
-
Opus 4.8 的翻车根源不是能力不足,而是「代码惰性」——在长 Prompt 下系统性地遗漏了搜索、分页、中文分析报告等核心功能,交出了一个功能残缺的「半成品」。
-
Benchmark 跑分不等于真实任务能力。 在单点 Benchmark 上,Opus 4.8 甚至略高于 GLM-5.2(75.1 vs 74.4),但在多需求长上下文真实任务中,两者的指令服从度差距巨大。
-
「指令服从度」和「抗偷懒能力」应当成为模型评测的新基准维度,尤其在面向企业级工程交付的场景中,它们的实际价值远超纯理论跑分。
8.2 给开发者的建议
如果你正在为团队或项目选择大模型,以下 3 点建议值得考虑:
- 不要只看 Benchmark 排名。跑分可以告诉你模型的「上限」,但无法告诉你它在真实任务中是否会「偷懒」。
- 用自己的真实任务做实测。找一个团队典型的开发任务让候选模型试试,看到的结果才是真实的。
- 考虑多模型组合。没有「万能模型」,不同任务适合不同模型。借助 微元算力(weytoken) 等企业级大模型 API 聚合平台,可以灵活地在多个模型间切换,针对不同场景选择最优解,兼顾能力与成本。
8.3 展望
GLM-5.2 的 MIT 开源 + Kimi 2.7 Code 的专项优化,正在证明一个趋势:国产模型在真实工程任务中的「实用性」正在快速追赶甚至超越海外闭源模型。而模型能力的竞争,也正在从「谁能刷更高的 Benchmark 分数」转向「谁在真实任务中更可靠、更不偷懒」。
下一个值得关注的测试方向是:当任务复杂度继续提升(如多文件项目、数据库集成、前后端分离架构),模型的指令服从度是否会进一步分化?GLM-5.2 和 Kimi 2.7 Code 的优势是否能持续?我们将在后续的实测中给出答案。
作者声明
本文测试时间为 2026 年 6 月中旬,测试结果仅代表特定任务场景下的表现。模型能力因版本更新、Prompt 设计、测试环境等因素可能存在差异,请读者以实际使用体验为准。
数据来源
- GLM-5.2 模型信息:智谱官方发布公告及技术报告(2026 年 6 月)
- Kimi 2.7 Code 模型信息:月之暗面官方发布公告(2026 年 5 月)
- Claude Opus 4.8 模型信息:Anthropic 官方发布公告及相关 Benchmark 数据
- FrontierSWE Benchmark 数据:公开的 FrontierSWE 排行榜(截至 2026 年 6 月)
- 裁判模型评分:基于 Gemini-3.1-Pro 对三个模型生成代码的独立评估
- 所有测试均在相同 Prompt、相同环境下进行,确保公平性
- 本文仅代表作者基于实测数据的技术分析观点,不构成任何商业推荐
更多推荐


所有评论(0)