2026年AI API大跳水实测:小米降99%、DeepSeek再降价,中转到底值不值?
2026年AI API大跳水实测:小米降99%、DeepSeek再降价,中转到底值不值?
一、这波降价有多猛?
5月份AI圈出了两件大事。
5月22日,DeepSeek宣布V4-Pro永久降价75%。旗舰模型的输出价格直接打到$0.87/百万tokens,折合人民币约6块钱。去年GPT-4输出还要$60/百万tokens,差了将近两个数量级。
更狠的在后头。5月27日,小米MiMo-V2.5系列宣布最高降幅99%。不是某款边缘模型清仓,是全线产品调价。MiMo-V2-Flash的输出才¥2.10/百万tokens,输入只要¥0.70。
跟2024年那波不一样。那时候大家都在卷"免费的午餐",送额度、限免、送算力包。今年这轮是永久降价,直接写入定价表的。
DeepSeek V4-Pro(5月22日降价75%):
| 价格项 | 降价前 | 降价后 |
|---|---|---|
| 输入(缓存命中) | $0.0145 | $0.003625 |
| 输入(非缓存) | $1.74 | $0.435 |
| 输出 | $3.48 | $0.87 |
缓存命中的输入只要2.5分钱。两年前谁敢信。
小米MiMo-V2.5系列(5月27日降价57%到99%):
| 模型 | 输入(¥/百万tokens) | 输出(¥/百万tokens) |
|---|---|---|
| MiMo-V2.5-Pro | 7.00 | 21.00 |
| MiMo-V2-Pro | 7.00 | 21.00 |
| MiMo-V2.5 | 2.80 | 14.00 |
| MiMo-V2-Omni | 2.80 | 14.00 |
| MiMo-V2-Flash | 0.70 | 2.10 |
MiMo-V2-Flash的输出两块一,日常对话、翻译、文本分类,性价比确实高。
二、降价背后发生了什么?
2024年5月是第一轮价格战。阿里云通义千问降97%,百度宣布文心ERNIE Speed免费,字节豆包pro降99%。那轮的特点是"表面猛,实际缩水"。降得最多的基本都是轻量版或阉割版,旗舰模型价格纹丝不动。我当时试过几个"免费"模型,回答质量只能说凑合用。
2026年这轮不一样。DeepSeek降的是旗舰V4-Pro,小米降的是主力产品线。原因是算力成本确实在降,推理效率在提。DeepSeek自己说过,通过MoE架构优化和推理引擎重写,单次推理成本同比降了60%以上。
还有一个趋势:缓存成本跳水。几乎所有降价后的模型都有缓存命中价,通常是标准价的五分之一到十分之一。如果你的任务重复度高,实际成本还能再降一个数量级。
三、说不出的痛——直连的门槛
价格是下来了,但不是每个人都能直接享受到。我踩过的坑,一个个说。
坑1:银行卡。 DeepSeek官方接的是Stripe支付,银联卡经常过不去。小米MiMo接的是自己的支付体系,必须国内手机号注册加实名认证。我帮一个海外朋友注册,卡在接收验证码那一步——他用的国外手机号,直接弹"暂不支持该地区"。绕了一圈,最后还是找代收才搞定。
坑2:区域限制。 好几个大模型的官方接口,国内IP访问极不稳定。不是封你号,是时不时给你个"Service Temporarily Unavailable"。有次我晚上跑批量翻译,跑到一半断了,第二天看日志发现凌晨两点到五点半,连接失败率超过40%。
坑3:多模型切换。 没有一家模型能打所有场景。我有个项目需要文本摘要用DeepSeek(便宜),代码生成用Claude Sonnet(质量高),多模态识别用GPT-5.4。如果每个都单独接,要维护3套API Key、3套计费、3套错误处理、3套日志。
坑4:价格波动。 DeepSeek突然砍75%,看到账单降了当然开心。但反过来呢?哪天涨价了谁说得准。
四、中转方案到底值不值?
API中转站的逻辑很简单:中转站跟多个厂商签了合作协议,拿到批发价,再以零售价卖给开发者。它赚差价,你省对接成本和维护成本。
我用实际账单算了一笔账。测试条件:同一个任务,每天调用约50万tokens,其中70%是重复性Prompt(可走缓存),30%是新输入。
方案A:全部直连
- DeepSeek官网注册,卡在支付
- Claude通过Amazon Bedrock接入,需要AWS账号
- 维护3套API端点和计费系统
- 每月成本≈¥280
方案B:全部走中转站
- 一个API Key搞定所有模型
- 统一的计费和日志
- 缓存自动利用
- 每月成本≈¥210
方案C:混用,部分直连部分中转
- 最复杂,维护两套系统
- 每月成本≈¥245
方案B比A便宜25%,还省掉了3套API的对接时间。我花了两天把所有模型迁移到一个中转接口,之后半年再没为API对接操过心。
我自己现在用的是 www.aifast.club/v1。选的它不是因为什么花哨的理由,就是支持的模型够全——DeepSeek系列、小米MiMo系列、通义千问、Claude、GPT系列都有,一个endpoint搞定。而且缓存命中率还可以,我的场景里大概65%的请求走了缓存,实际支出比官方报价还低一截。
五、不同场景怎么选?
场景1:个人Chat/翻译/写作
预算敏感,质量要求不极端。选MiMo-V2-Flash或DeepSeek-V4-Flash。输入几毛钱,输出两块左右。每天几千tokens的用量,一个月花不了一杯奶茶钱。
场景2:代码生成/调试
Claude Sonnet 4.6加DeepSeek V4-Pro混用。简单代码补全用DeepSeek,复杂架构设计用Sonnet。中转站上可以按任务动态切换模型,比手动换API Key方便太多。
场景3:批量生产/数据清洗
对成本极度敏感。全走DeepSeek V4-Pro,缓存命中价2.5分/百万tokens。量大还能跟中转站谈折扣。
场景4:多模态/AI Agent
小米MiMo-V2-Omni和GPT-5.4都能处理图文混输。MiMo-V2-Omni输出¥14/百万tokens,GPT-5.4输出$15/百万tokens,价格差了一个数量级,质量也差一个档次。简单任务走MiMo,核心推理走GPT。
六、最后说几句
这波降价是好事,但跟大多数人关系不大。直连的门槛——支付、区域、多Key管理——才是真正的拦路虎。中转站本质上是在帮开发者跨过这些门槛。
如果你兼用两个以上的模型,直接上中转,省心。关注缓存命中率,这是最能省钱的地方。别只看官价,中转站拿到的批发价往往更低。降价周期越来越短,别签死锁定长期合同。
AI工具的价格正在加速平民化。两年前花100块钱做的事,现在10块钱甚至1块钱就能搞定。接下来真正拉开差距的,不是谁用的模型更贵,而是谁的工具链搭得更顺。
价格来源:DeepSeek、小米MiMo、OpenAI、Anthropic 官方定价页
更多推荐




所有评论(0)