Github Copilot付费模型对比

Github Copilot 目前提供了 7 种模型, 但缺少对这 7 种模型的介绍, 本文简略的描述它们在各领域的评分, 以区分它们擅长的领域, 方便读者在处理特定问题时, 切换到更合适的模型.

破坏的艺术 · 2025-03-04 12:07:30 发布

Github Copilot 目前提供了 7 种模型,

官方缺少对这 7 种模型的介绍, 本文简略的描述它们在各领域的评分, 以区分它们擅长的领域, 方便读者在处理特定问题时, 切换到更合适的模型.

基于公开评测数据（部分数据为估算与不同来源折算后得出）的多维度对比表，涵盖编码（SWE‑Bench Verified）、数学（AIME’24）和推理（GPQA Diamond）三个关键指标：

模型	编码表现 (SWE‑Bench Verified)	数学表现 (AIME’24)	推理表现 (GPQA Diamond)
Claude 3.5 Sonnet	70.3%	49.0%	77.0%
Claude 3.7 Sonnet (标准模式)	≈83.7% (提高 ≈19%)	≈58.3% (提高 ≈19%)	≈91.6% (提高 ≈19%)
Claude 3.7 Sonnet Thinking	≈83.7% (与标准相近)	≈64.0% (思考模式进一步提升)	≈95.0% (更强推理能力)
Gemini 2.0 Flash	≈65.0% (估算)	≈45.0% (估算)	≈75.0% (估算)
GPT‑4o	38.0%	36.7%	71.4%
o1	48.9%	83.3%	78.0%
o3‑mini	49.3%	87.3%	79.7%

说明：

上表数值取自部分公开评测（例如 Vellum 平台的对比报告 VELLUM.AI）以及部分数据折算（例如 Claude 3.7 相比 3.5 大约提升 19%），部分 Gemini 2.0 Flash 数值为估算值。
“Claude 3.7 Sonnet Thinking”指的是在开启“思考模式”（即延长内部推理步骤）的情况下，模型在数学与推理任务上的表现显著改善。

Claude 系列（3.5/3.7 Sonnet 与其 Thinking 变体）

优势：
在编码和多步推理任务上具有较高准确率，尤其是 3.7 版本较 3.5 有明显提升；
“Thinking”模式下数学和推理表现更佳，适合处理复杂逻辑或需要详细计划的任务；
内置对工具调用和长上下文处理有优势。
劣势：
标准模式下数学指标相对较低，只有在开启延长推理时才能显著改善；
成本和响应时长在某些场景下可能较高。
适用领域：
软件工程、代码生成与调试、复杂问题求解、多步决策及企业级自动化工作流。

Gemini 2.0 Flash

优势：
具备较大上下文窗口，适合长文档处理与多模态输入（例如图像解析）；
推理能力与编码表现在部分测试中表现不俗，且响应速度快。
劣势：
部分场景下（如复杂编码任务）可能会出现“卡住”现象，稳定性有待验证；
部分指标为初步估算，整体表现仍需更多公开数据确认。
适用领域：
多模态任务、实时交互、需要大上下文的应用场景，如长文档摘要、视频解析及信息检索。

GPT‑4o

优势：
语言理解和生成自然流畅，适合开放性对话和一般文本处理。
劣势：
在编码、数学等专业任务上的表现相对较弱，部分指标远低于同类模型；
成本较高（与 GPT‑4.5 类似），性价比不如部分竞争对手。
适用领域：
通用对话系统、内容创作、文案撰写及日常问答任务。

o1 与 o3‑mini（OpenAI 系列）

优势：
数学推理方面表现出色，o1 与 o3‑mini 在 AIME 类任务上分别达到 83.3% 和 87.3%；
推理能力较稳定，适合需要高精度数学和逻辑分析的应用。
劣势：
编码表现中等，相较于 Claude 系列稍逊一筹；
整体性能在不同任务上表现略有不平衡。
适用领域：
科学计算、数学问题求解、逻辑推理、教育辅导及专业数据分析领域。