2026年AI API大跳水实测：小米降99%、DeepSeek再降价，中转到底值不值？

kkevinnn1

1157人浏览 · 2026-05-28 21:05:37

kkevinnn1 · 2026-05-28 21:05:37 发布

2026年AI API大跳水实测：小米降99%、DeepSeek再降价，中转到底值不值？

一、这波降价有多猛？

5月份AI圈出了两件大事。

5月22日，DeepSeek宣布V4-Pro永久降价75%。旗舰模型的输出价格直接打到$0.87/百万tokens，折合人民币约6块钱。去年GPT-4输出还要$60/百万tokens，差了将近两个数量级。

更狠的在后头。5月27日，小米MiMo-V2.5系列宣布最高降幅99%。不是某款边缘模型清仓，是全线产品调价。MiMo-V2-Flash的输出才¥2.10/百万tokens，输入只要¥0.70。

跟2024年那波不一样。那时候大家都在卷"免费的午餐"，送额度、限免、送算力包。今年这轮是永久降价，直接写入定价表的。

DeepSeek V4-Pro（5月22日降价75%）：

价格项	降价前	降价后
输入（缓存命中）	$0.0145	$0.003625
输入（非缓存）	$1.74	$0.435
输出	$3.48	$0.87

缓存命中的输入只要2.5分钱。两年前谁敢信。

小米MiMo-V2.5系列（5月27日降价57%到99%）：

模型	输入（¥/百万tokens）	输出（¥/百万tokens）
MiMo-V2.5-Pro	7.00	21.00
MiMo-V2-Pro	7.00	21.00
MiMo-V2.5	2.80	14.00
MiMo-V2-Omni	2.80	14.00
MiMo-V2-Flash	0.70	2.10

MiMo-V2-Flash的输出两块一，日常对话、翻译、文本分类，性价比确实高。

二、降价背后发生了什么？

2024年5月是第一轮价格战。阿里云通义千问降97%，百度宣布文心ERNIE Speed免费，字节豆包pro降99%。那轮的特点是"表面猛，实际缩水"。降得最多的基本都是轻量版或阉割版，旗舰模型价格纹丝不动。我当时试过几个"免费"模型，回答质量只能说凑合用。

2026年这轮不一样。DeepSeek降的是旗舰V4-Pro，小米降的是主力产品线。原因是算力成本确实在降，推理效率在提。DeepSeek自己说过，通过MoE架构优化和推理引擎重写，单次推理成本同比降了60%以上。

还有一个趋势：缓存成本跳水。几乎所有降价后的模型都有缓存命中价，通常是标准价的五分之一到十分之一。如果你的任务重复度高，实际成本还能再降一个数量级。

三、说不出的痛——直连的门槛

价格是下来了，但不是每个人都能直接享受到。我踩过的坑，一个个说。

坑1：银行卡。 DeepSeek官方接的是Stripe支付，银联卡经常过不去。小米MiMo接的是自己的支付体系，必须国内手机号注册加实名认证。我帮一个海外朋友注册，卡在接收验证码那一步——他用的国外手机号，直接弹"暂不支持该地区"。绕了一圈，最后还是找代收才搞定。

坑2：区域限制。 好几个大模型的官方接口，国内IP访问极不稳定。不是封你号，是时不时给你个"Service Temporarily Unavailable"。有次我晚上跑批量翻译，跑到一半断了，第二天看日志发现凌晨两点到五点半，连接失败率超过40%。

坑3：多模型切换。 没有一家模型能打所有场景。我有个项目需要文本摘要用DeepSeek（便宜），代码生成用Claude Sonnet（质量高），多模态识别用GPT-5.4。如果每个都单独接，要维护3套API Key、3套计费、3套错误处理、3套日志。

坑4：价格波动。 DeepSeek突然砍75%，看到账单降了当然开心。但反过来呢？哪天涨价了谁说得准。

四、中转方案到底值不值？

API中转站的逻辑很简单：中转站跟多个厂商签了合作协议，拿到批发价，再以零售价卖给开发者。它赚差价，你省对接成本和维护成本。

我用实际账单算了一笔账。测试条件：同一个任务，每天调用约50万tokens，其中70%是重复性Prompt（可走缓存），30%是新输入。

方案A：全部直连

DeepSeek官网注册，卡在支付
Claude通过Amazon Bedrock接入，需要AWS账号
维护3套API端点和计费系统
每月成本≈¥280

方案B：全部走中转站

一个API Key搞定所有模型
统一的计费和日志
缓存自动利用
每月成本≈¥210

方案C：混用，部分直连部分中转

最复杂，维护两套系统
每月成本≈¥245

方案B比A便宜25%，还省掉了3套API的对接时间。我花了两天把所有模型迁移到一个中转接口，之后半年再没为API对接操过心。

我自己现在用的是 www.aifast.club/v1。选的它不是因为什么花哨的理由，就是支持的模型够全——DeepSeek系列、小米MiMo系列、通义千问、Claude、GPT系列都有，一个endpoint搞定。而且缓存命中率还可以，我的场景里大概65%的请求走了缓存，实际支出比官方报价还低一截。