一个Key打通3个编程Agent:国内模型接入实录

上周五下午,一个做独立开发的朋友在微信上问了我一个问题:
「Claude Code 用着还行,但 Anthropic 的账单实在扛不住了,有没有办法把它背后的大模型换成便宜点的?」
我说能。而且不光是 Claude Code——GitHub Copilot、WorkBuddy,凡是支持 OpenAI 兼容接口的编程 Agent,理论上都能换。
他说你给我出个教程。于是我周末花了 4 个小时,把三个编程 Agent 全部配置了一遍,全用同一个 API Key 接入了国内模型。整个过程的状态变化大概是这样:
- 第 1 小时:信心满满打开 Claude Code 文档
- 第 2 小时:被 WorkBuddy 的自定义模型配置绕晕
- 第 3 小时:发现三个工具用的是同一套配置逻辑,想抽自己
- 第 4 小时:开始写这篇文章
先说结论:只要你的 Agent 支持 “OpenAI Compatible” 或者 “自定义服务商”,就能用国内大模型驱动它。而且只需要一个 API Key。
为什么要把国内模型装进编程 Agent?
三个原因,由浅到深:
第一,省钱。 Claude Code 走 Anthropic 的官方 API,按美元计费,Claude 4 Sonnet 大概是 $3/百万 input token + $15/百万 output token。换成 DeepSeek-V3,同样能力下费用大约是它的 1/8。不是谁都能每天烧几十美金的。
第二,不翻墙。 Anthropic、OpenAI 的 API 从国内直接访问,懂的都懂。国内模型的 API 服务器在国内,延迟 30-50ms,不用折腾网络层。
第三,随时切换模型。 代码生成用 DeepSeek-V3,代码审查用 Qwen3-Max,调试报错用 Kimi K2(长上下文强项),重构逻辑用 GLM。不同任务用不同模型,比死磕一个聪明得多。
三个 Agent,一个 Key,怎么做到?
核心逻辑一句话就讲清楚了:
所有这些编程 Agent,在「自定义模型源」这个配置项里,本质上都在问同一个问题:你的 API 地址是什么?你的 Key 是什么?你想用哪个模型?
拿器灵模型广场举例——平台聚合了千问、DeepSeek、Kimi、GLM、MiniMax 等全系列国内大模型,提供的是 OpenAI 兼容接口。所以配置逻辑对任何 Agent 都一样:
Base URL: https://www.extratoken.cn/api/v1/chat/completions
API Key: sk-你的密钥
Model: 选一个国内模型(比如 deepseek-v3-0324)
你不需要为每个 Agent 单独注册模型提供商、不需要记四五个 API Key、不需要理解每个模型原生的鉴权方式。一次配置,所有工具通用。

说白了,这背后依赖的是 OpenAI 兼容接口这套事实标准。OpenAI 当年开放 API 时定义了请求格式(/v1/chat/completions + JSON body),后来因为 GPT 太火,整个行业——从 Anthropic 的 Claude API 到国内的千问、DeepSeek、Kimi——全都主动兼容了这套格式。对 Agent 来说,它不关心你背后跑的是 GPT-4o 还是 DeepSeek-V3,它只认这套格式。只要你给的 Base URL 能正确响应这套协议,Agent 就能工作。
理解这个底层逻辑之后,你会发现配置任何工具的步骤都差不多——下面逐个走一遍。
Claude Code:把 DeepSeek 塞进去
Claude Code 是 Anthropic 官方的 AI 编程 Agent,支持自定义 OpenAI 兼容接口——这个功能是 2025 年底才开放的,很多教程还没更新。
配置步骤:
- 确保 Claude Code 版本 ≥ 1.0.0(我用的
claude-code@1.3.2) - 在 Claude Code 设置中找到「模型提供方」→「添加自定义服务商」
- 选「OpenAI Compatible」,填入:
- Base URL:
https://www.extratoken.cn/api/v1/chat/completions - API Key:
sk-你的密钥
- Base URL:
- 在模型列表中会出现平台支持的所有模型,选
deepseek-v3-0324 - 回到对话界面,让 Claude Code 帮你写一段代码试试
踩坑提醒:
我第一次配的时候,模型列表一片空白,排查了半天才发现是 Base URL 末尾多打了一个 /。OpenAI 兼容接口对路径格式要求很严格,Base URL 必须精确到 /chat/completions,前后不能有多余字符。
配好之后,Claude Code 的代码生成能力基本没降级。我让它在 DeepSeek-V3 下写了一个 Python 的异步爬虫框架,代码结构、错误处理、类型注解都符合预期。代价只是输出 token 价格从每百万 $15 降到了约 $1.8。
接着我又丢了一个实际需求给它:给一个现有的 Flask 项目加 JWT 鉴权中间件。Claude Code + DeepSeek-V3 从接收需求到生成完整方案,大约 12 秒。生成的代码包含了 token 刷新逻辑、错误码定义、以及单元测试——这说明它不是在做简单补全,而是理解项目结构后在给整体方案。
这个差价,用过的人都知道意味着什么。
GitHub Copilot:告别美元计费
Copilot 支持自定义模型源是 2026 年初上的功能,入口藏得比较深。
配置路径:
VS Code → Copilot 插件设置 → 「Advance」→ 「Custom Model Provider」→ 添加服务商。
填的信息和 Claude Code 完全一样——同一个 Base URL、同一个 API Key。区别在于 Copilot 的模型选择器是按场景分类的,你需要分别指定「代码补全」和「对话」各自用哪个模型。
我的配置:
- 代码补全 →
qwen3.6-flash(响应快,150ms 以内出提示) - 对话/解释 →
deepseek-v3-0324(逻辑能力强)
跑了一下午,代码补全的体感延迟和 Copilot 原生模型基本没区别。Qwen3-Flash 的响应速度确实够快,偶尔生成的补全不够精准,但这个可以容忍,毕竟价格差了接近 10 倍。
一个让人无语的细节:
Copilot 配置自定义模型后,代码补全功能正常工作,但内联对话(Ctrl+I)首次调用会报 “Model not found”。查了 GitHub 的 issue 发现是 Copilot 1.82 版本的 bug,升级到 1.84 就解决了。这个坑我排查了 40 分钟,写到这希望你别踩。
WorkBuddy:开发助手的国产模型方案
WorkBuddy/CodeBuddy 是国内开发者常用的全能助手,支持代码编写、BUG 排查、项目解读。它对接自定义大模型的方式最直接——直接在设置页里填 Base URL 和 Key,没有多余的步骤。
配完之后我选了 Qwen3-Max,让它分析了一个 2000 行的 Go 项目,看它能不能理清模块之间的调用关系。
结果出乎意料。Qwen3-Max 打出的分析报告很准确——不仅梳理了核心模块的依赖关系,还发现了一个潜在的循环导入问题。这个问题我在 Code Review 时确实漏掉了。
说实话,WorkBuddy + Qwen3-Max 这个组合的体验比我想象中好。之前一直觉得国产模型在复杂代码理解上弱一档,这次改观了。
Cursor 和 Cline:顺手测了另外两个
既然已经在配工具了,我顺手把 Cursor 和 Cline 也跑了一遍——反正用同一个 Key。
Cursor:Settings → Models → Add Model → 选 OpenAI Compatible。配置入口做得最顺滑,填 Base URL 和 Key 就完事了。比较舒服的是 Cursor 的模型切换——在聊天框里打 /model 就能随时换,代码生成用 DeepSeek,调试复盘用 Qwen-Max,来回切不用退出界面。
Cline(VS Code 插件):配置在插件设置的「API Provider」→「OpenAI Compatible」,同样填 Base URL 和 Key。Cline 有个实用功能是支持自定义 system prompt——你可以预设「用中文回复」「优先使用 async/await」「代码注释用中文」之类的偏好,这些设置会跟着所有对话走,不用每次都提。
五个工具,同一套配置方式。写到这我忍不住想:标准化这件事,真的省掉了太多无意义的重复劳动。
一个 Key 的真正价值,不在便宜
写到这,如果你只看到「省钱」,那说明我没讲清楚。
一个 Key 打通三个 Agent 的真正价值是:你不需要在工具链的每个环节重新做模型选型。
Claude Code、Copilot、WorkBuddy——它们本质上做同一件事:理解你的代码意图,给出合理的建议。你用同一个 API Key 接入同一个模型广场,在 Claude Code 里用 DeepSeek 写代码、在 Copilot 里用 Qwen-Flash 做补全、在 WorkBuddy 里用 Qwen-Max 做分析——这三个体验共享一套计费、一个余额、一份用量报表。
月底看账单的时候,不用分别登录 Anthropic、OpenAI、各模型厂商的后台一个一个对账。
我来给你算一笔实账。拿我上周的实际用量——Claude Code 用 DeepSeek-V3 生成了约 300 万 output token,Copilot 用 Qwen3-Flash 高频补全约 500 万 token,WorkBuddy 用 Qwen-Max 审查代码约 150 万 token。三个工具加在一起,一周的模型费用大约是 ¥35。
如果这三个工具全部走原厂模型——Claude Code 配 Claude Sonnet($15/百万 output)、Copilot 配 GPT-4o($10/百万 output)、WorkBuddy 同样走高级模型——同样用量一周要约 ¥280。差了整整 8 倍。这不是「优化了几个百分点」,这是「用得起」和「不敢用」之间的区别。
这一点,等你手上的编程工具超过 3 个的时候,会越来越有感觉。
模型选择速查:五个场景,五个推荐
不展开了,直接上表和结论:
| 场景 | 推荐模型 | 选它的原因 | 预估月费 |
|---|---|---|---|
| 日常代码生成 | DeepSeek-V3 | 代码能力均衡,综合性价比最高 | ~¥50-80 |
| 高频代码补全 | Qwen3.6-Flash | 150ms 响应延迟,体感接近原生 | ~¥30-50 |
| 代码审查/Bug发现 | Qwen3-Max | 逻辑推理强,能发现隐藏问题 | ~¥40-60 |
| 大型项目重构 | Kimi K2 | 长上下文,2000行代码不丢上下文 | ~¥60-100 |
| 快速原型/实验 | GLM-4-Flash | 速度快,适合高频切换试错 | ~¥20-40 |
以上月费按「工作日每天 4 小时高频使用」估算,实际取决于你的代码量和调用频率。
一个我用了两个月的结论:日常开发 90% 的场景,DeepSeek-V3 + Qwen3-Flash 的组合就够了。 代码生成交 DeepSeek,高频补全交 Flash。剩下 10% 需要深度推理或大规模重构时,临时切到 Qwen-Max 或 Kimi K2。这种分层使用的方式比死磕一个高级模型划算太多——月费控制在 ¥100 以内,体验基本不打折。
文中所有 Agent 工具配置均基于同一套 OpenAI 兼容接口,Base URL 和 API Key 由器灵模型广场统一提供,切换模型仅需修改 model 参数。
更多推荐


所有评论(0)