2026年AI API大跳水实测:小米降99%、DeepSeek再降价,中转到底值不值?

一、这波降价有多猛?

5月份AI圈出了两件大事。

5月22日,DeepSeek宣布V4-Pro永久降价75%。旗舰模型的输出价格直接打到$0.87/百万tokens,折合人民币约6块钱。去年GPT-4输出还要$60/百万tokens,差了将近两个数量级。

更狠的在后头。5月27日,小米MiMo-V2.5系列宣布最高降幅99%。不是某款边缘模型清仓,是全线产品调价。MiMo-V2-Flash的输出才¥2.10/百万tokens,输入只要¥0.70。

跟2024年那波不一样。那时候大家都在卷"免费的午餐",送额度、限免、送算力包。今年这轮是永久降价,直接写入定价表的。

DeepSeek V4-Pro(5月22日降价75%):

价格项 降价前 降价后
输入(缓存命中) $0.0145 $0.003625
输入(非缓存) $1.74 $0.435
输出 $3.48 $0.87

缓存命中的输入只要2.5分钱。两年前谁敢信。

小米MiMo-V2.5系列(5月27日降价57%到99%):

模型 输入(¥/百万tokens) 输出(¥/百万tokens)
MiMo-V2.5-Pro 7.00 21.00
MiMo-V2-Pro 7.00 21.00
MiMo-V2.5 2.80 14.00
MiMo-V2-Omni 2.80 14.00
MiMo-V2-Flash 0.70 2.10

MiMo-V2-Flash的输出两块一,日常对话、翻译、文本分类,性价比确实高。

二、降价背后发生了什么?

2024年5月是第一轮价格战。阿里云通义千问降97%,百度宣布文心ERNIE Speed免费,字节豆包pro降99%。那轮的特点是"表面猛,实际缩水"。降得最多的基本都是轻量版或阉割版,旗舰模型价格纹丝不动。我当时试过几个"免费"模型,回答质量只能说凑合用。

2026年这轮不一样。DeepSeek降的是旗舰V4-Pro,小米降的是主力产品线。原因是算力成本确实在降,推理效率在提。DeepSeek自己说过,通过MoE架构优化和推理引擎重写,单次推理成本同比降了60%以上。

还有一个趋势:缓存成本跳水。几乎所有降价后的模型都有缓存命中价,通常是标准价的五分之一到十分之一。如果你的任务重复度高,实际成本还能再降一个数量级。

三、说不出的痛——直连的门槛

价格是下来了,但不是每个人都能直接享受到。我踩过的坑,一个个说。

坑1:银行卡。 DeepSeek官方接的是Stripe支付,银联卡经常过不去。小米MiMo接的是自己的支付体系,必须国内手机号注册加实名认证。我帮一个海外朋友注册,卡在接收验证码那一步——他用的国外手机号,直接弹"暂不支持该地区"。绕了一圈,最后还是找代收才搞定。

坑2:区域限制。 好几个大模型的官方接口,国内IP访问极不稳定。不是封你号,是时不时给你个"Service Temporarily Unavailable"。有次我晚上跑批量翻译,跑到一半断了,第二天看日志发现凌晨两点到五点半,连接失败率超过40%。

坑3:多模型切换。 没有一家模型能打所有场景。我有个项目需要文本摘要用DeepSeek(便宜),代码生成用Claude Sonnet(质量高),多模态识别用GPT-5.4。如果每个都单独接,要维护3套API Key、3套计费、3套错误处理、3套日志。

坑4:价格波动。 DeepSeek突然砍75%,看到账单降了当然开心。但反过来呢?哪天涨价了谁说得准。

四、中转方案到底值不值?

API中转站的逻辑很简单:中转站跟多个厂商签了合作协议,拿到批发价,再以零售价卖给开发者。它赚差价,你省对接成本和维护成本。

我用实际账单算了一笔账。测试条件:同一个任务,每天调用约50万tokens,其中70%是重复性Prompt(可走缓存),30%是新输入。

方案A:全部直连

  • DeepSeek官网注册,卡在支付
  • Claude通过Amazon Bedrock接入,需要AWS账号
  • 维护3套API端点和计费系统
  • 每月成本≈¥280

方案B:全部走中转站

  • 一个API Key搞定所有模型
  • 统一的计费和日志
  • 缓存自动利用
  • 每月成本≈¥210

方案C:混用,部分直连部分中转

  • 最复杂,维护两套系统
  • 每月成本≈¥245

方案B比A便宜25%,还省掉了3套API的对接时间。我花了两天把所有模型迁移到一个中转接口,之后半年再没为API对接操过心。

我自己现在用的是 www.aifast.club/v1。选的它不是因为什么花哨的理由,就是支持的模型够全——DeepSeek系列、小米MiMo系列、通义千问、Claude、GPT系列都有,一个endpoint搞定。而且缓存命中率还可以,我的场景里大概65%的请求走了缓存,实际支出比官方报价还低一截。

五、不同场景怎么选?

场景1:个人Chat/翻译/写作
预算敏感,质量要求不极端。选MiMo-V2-Flash或DeepSeek-V4-Flash。输入几毛钱,输出两块左右。每天几千tokens的用量,一个月花不了一杯奶茶钱。

场景2:代码生成/调试
Claude Sonnet 4.6加DeepSeek V4-Pro混用。简单代码补全用DeepSeek,复杂架构设计用Sonnet。中转站上可以按任务动态切换模型,比手动换API Key方便太多。

场景3:批量生产/数据清洗
对成本极度敏感。全走DeepSeek V4-Pro,缓存命中价2.5分/百万tokens。量大还能跟中转站谈折扣。

场景4:多模态/AI Agent
小米MiMo-V2-Omni和GPT-5.4都能处理图文混输。MiMo-V2-Omni输出¥14/百万tokens,GPT-5.4输出$15/百万tokens,价格差了一个数量级,质量也差一个档次。简单任务走MiMo,核心推理走GPT。

六、最后说几句

这波降价是好事,但跟大多数人关系不大。直连的门槛——支付、区域、多Key管理——才是真正的拦路虎。中转站本质上是在帮开发者跨过这些门槛。

如果你兼用两个以上的模型,直接上中转,省心。关注缓存命中率,这是最能省钱的地方。别只看官价,中转站拿到的批发价往往更低。降价周期越来越短,别签死锁定长期合同。

AI工具的价格正在加速平民化。两年前花100块钱做的事,现在10块钱甚至1块钱就能搞定。接下来真正拉开差距的,不是谁用的模型更贵,而是谁的工具链搭得更顺。


价格来源:DeepSeek、小米MiMo、OpenAI、Anthropic 官方定价页

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐