聊聊Deepseek V4，你可能忽略的彩蛋

谢璞

476人浏览 · 2026-04-29 19:09:43

谢璞 · 2026-04-29 19:09:43 发布

4月24号，万众期待的DeepSeek，终于发布了V4版本。千呼万唤始出来啊。

依然开源，依然便宜，而且还升级到了万亿参数。

不过如果你关注AI圈，就会发现上周除了DeepSeek-V4，还有另一个万亿参数的开源模型发布，那就是Kimi K2.6。

在最新的Artificial Analysis和Openrouter榜单上，这两家创业公司排排坐，双双挤入前列，追赶GPT、Claude和Gemini，场面非常和谐。

但是，如果你把视线移到太平洋对岸，你就会看到另一幅画面：硅谷AI的竞争，已经快从“智力竞赛”变成“黑手党火并”了。

1、

现在的硅谷，已经不是那个“开放、共享、改变世界”的理想国了，更像大型《甄嬛传》现场，《小时代》加强版。

OpenAI、Anthropic、谷歌这三家，过去半年干的事情只有两件：“造墙”顺便攻击“友商”。

为什么？

因为他们是闭源的捍卫者，在这条路线下，提高估值和收入的前提是我的模型比别人好。

所以，必须维持技术领先，封锁核心技术。

于是，我们可以看到这样的画面：

你今天发布新模型，我两小时后就上线新功能，主打一个“截胡”。

OpenAI敢说全球领先，Gemini就说，家族能覆盖全生态全路径。

Anthropic刚说自己年入300亿，OpenAI首席营收官就立马发内部信，说他收入注水严重，吹了最少80亿。

来而不往非礼也，在“超级碗”这个美国春晚的舞台上，Anthropic也是不惜重金，买个广告位，广告词是，“广告正在进入AI领域，但不会进入Claude”。

简直是公开内涵刚刚测试广告业务的OpenAI。

这哪是科技竞争？分明是大型修罗场。

大家就在内耗的泥潭里，一边烧着投资人的钱，一边互相揣几脚。

2、

但是当视野回到国内，我看到了一个非常反常的画面。

如果你仔细看DeepSeek-V4的技术报告，会发现他们这次采用了一个叫Muon的优化器来训练模型。

Muon这东西，最早是一个叫Keller Jordan的独立研究者提出来的。但是，把这个理论上的“实验室产品”真正拿到万亿参数规模上跑通，并且做出关键改进（MuonClip）的，是Kimi。

他们验证了这玩意儿在超大规模预训练中能做到“全程零Loss Spike”——翻译一下，就是训练过程稳如老狗，不会突然崩盘。

DeepSeek一看，哥们儿，你这优化器挺稳啊，行，我也整一个。

Kimi这边也是一样。

在Kimi K2的技术报告里，直接表示采用了DeepSeek的MLA架构。

这玩意儿相当于汽车界的涡轮增压。它最牛逼的地方在于，能把KV Cache的压缩率做到93%以上。

听不懂没关系，你只需要知道，随着AI对话越来越长，内存开销会呈指数级爆炸。

Kimi 一看，这玩意儿真香，直接用在了自己的万亿模型里。

你用我的架构省显存，我用你的优化器搞训练。

没有授权谈判，没有专利官司，没有律师函警告。

我都怀疑这俩公司私底下是不是串通好了。

他们不在乎谁是“第一发明人”，在乎的是“谁能把这玩意儿落地”。

可能也正是这种协同进化，让中国AI在极短的时间内，完成了一次又一次的迭代。

3、

说到底，中美两边的不同景象，主要是开源和闭源路线，以及资源差异带来的。

美国那边呢，OpenAI和Anthropic都是闭源，并且可以说拿着全球最顶级的资源在训练模型。

他们更关注的就是市场占有率和行业的定义权。

但是中国这边，客观来讲距离头部AI还有差距，这很大程度上是由芯片被卡、算力和资金不足带来的。

所以，Deepseek 和 Kimi 现在都在走开源路线，这是为了从性价比的路线包抄闭源模型，不卷用户量、先做大生态，让更多开发者、企业能够先应用起来。

而且如果你仔细看这两家公司这一路的发展，就会发现，中国AI并不是在跟随美国的策略，其实已经进入到“平行探索”的阶段。

比如，DeepSeek引领了“思维链”（CoT），让AI学会了像人一样思考、打草稿。Kimi则在“智能体”（Agent）上走得更远。

这就是良性竞争。

我不是抄你的，但我会参考你的。你走这条路，我走那条路，最后大家在山顶汇合，顺便把路上的坑都给填平了。

此外，这两家公司也有不同的坚持。

DeepSeek走的是“单点极致”路线：聚焦基础模型的核心能力，模型能力要强，价格要低，规模化要快，用极致的性价比横扫市场。

而Kimi走的是“落地为王”路线：解决Agentic模型进入真实工作场景的痛点，提高AI的自主工作能力和时长。

这种差异化，让中国的开源AI生态变得丰富起来。

4、

这场AI大仗，拼到最后其实就两样东西：算力和效率。

在算力封锁的大背景下，中国AI公司和中国芯片公司，正在完成一次隐秘的会师。

DeepSeek-V4已经公开表示，他们用了华为芯片做推理。

Kimi的新论文《Prefill-as-a-Service》也在证明国产芯片可以和国外芯片一起用于推理。

以前，模型公司觉得国产芯片不好用，芯片公司觉得模型公司不给反馈。

现在，DeepSeek和Kimi成了中间的那个连接点。

他们在最极端的条件下，倒逼国产芯片去适配最先进的算法。

这种“软硬结合”的阵痛期一旦过去，中国AI的底层底座，将会变得前所未有的稳固。

2025年，DeepSeek R1让我们拿到了牌桌的入场券。

2026年，这群中国卷王正在用开源和协同，努力定义牌桌的规则。

也许有人依然认为国产模型是落后的，这点即便是Deepseek，也不能否认。

但就像原子弹一样，最重要的是，我们先拥有。

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

Codex AGENTS.md 与项目规范配置：让 AI 从一开始就懂你的项目

项目一开始就写好 AGENTS.md——晚写不如早写，Codex 第一次接触项目时就对了具体优于抽象——不说"写好代码"，说"每个函数写类型注解和 docstring"覆盖率比完美重要——先写 80% 的规范，比追求 100% 完美但不写强随项目进化——AGENTS.md 不是一次写完就不动的，项目加了新工具就更新和 husky/lint-staged 配合——AGENTS.md 管 Codex