摘要:2026年6月17日,MiniMax发布全球首个开源大规模混合架构推理模型MiniMax-M1。该模型基于独创的闪电注意力机制(Lightning Attention)实现100万Token上下文输入——与闭源Gemini 2.5 Pro并列全球最高,是DeepSeek-R1的8倍。深度推理时仅需DeepSeek-R1约30%算力;新提出的CISPO强化学习算法收敛速度2倍于DAPO;SWE-bench Verified 55.6%略逊DeepSeek-R1-0528但显著超越其他开源模型;长上下文理解全球第二仅逊Gemini 2.5 Pro。API定价业内最低,0-32K输入0.8元/百万Token,同时APP/Web不限量免费使用。这是开源推理模型从"追随"走向"引领"的标志性时刻。


什么是MiniMax-M1?为什么它如此重要?

MiniMax-M1 是MiniMax于2026年6月17日发布的全球首个开源大规模混合架构推理模型。它的核心创新在于两点:一是基于独创的闪电注意力机制(Lightning Attention)构建混合架构,实现了目前业内最高的100万Token上下文输入能力(与闭源Gemini 2.5 Pro并列全球最高);二是提出了更快的强化学习算法CISPO(Clipped Importance Sampling with Per-token Optimization),收敛速度达到DAPO的2倍。

这两个技术创新的组合效果令人震撼:在8万Token深度推理时,M1仅需使用DeepSeek-R1约**30%**的算力(来源:MiniMax官方,2026-06-17)。

核心结论:MiniMax-M1标志着开源推理模型从"追随闭源"走向"引领范式"——闪电注意力机制让100万Token上下文不再是闭源模型的独家特权,CISPO算法让强化学习效率翻倍,30%算力开销让推理模型从"奢侈品"变成"日用品"。开源推理模型的性价比革命正在到来。


一、闪电注意力机制:100万Token上下文的技术基石

1.1 传统注意力机制的瓶颈

主流大模型采用标准的Transformer注意力机制,其计算复杂度为O(n²)——随着序列长度n的增加,计算量呈二次增长。这就是为什么:

模型 上下文长度 注意力计算量(相对)
GPT-5.5 65,536
DeepSeek-R1 128,000
DeepSeek-R1-0528 128,000
Gemini 2.5 Pro 1,000,000 256×
MiniMax-M1 1,000,000 仅约30%

传统模型在处理100万Token时,注意力计算量将暴增256倍。但MiniMax-M1通过闪电注意力机制,将这个代价压缩到了极低水平。

1.2 Lightning Attention的原理

闪电注意力机制的核心思想是将注意力计算从"全局计算"改为"线性增量计算"

传统注意力:Q × K^T → 全局softmax → 与V相乘
闪电注意力:每个token仅需计算与之前token的增量注意力 → 线性累积

具体实现:

  • 线性复杂度:闪电注意力将O(n²)的注意力计算降为O(n),使100万Token上下文成为可能
  • 混合架构:在浅层使用闪电注意力(处理长序列),在深层使用标准注意力(保证精确推理),两者互补
  • 推理效率:深度推理8万Token时,仅需DeepSeek-R1约30%算力,意味着同等硬件可服务3.3倍用户

1.3 与竞争对手的上下文对比

模型 最大上下文输入 最大推理输出 类别
MiniMax-M1 1,000,000 80,000 开源推理
Gemini 2.5 Pro 1,000,000 65,536 闭源
DeepSeek-R1 128,000 32,000 开源推理
GPT-5.5 65,536 16,000 闭源
Claude Opus 4.8 500,000 16,000 闭源

MiniMax-M1在上下文长度上是DeepSeek-R1的8倍,推理输出长度是DeepSeek-R1的2.5倍(来源:MiniMax官方,2026-06-17)。


二、CISPO算法:强化学习效率翻倍的秘密

2.1 从GRPO到DAPO到CISPO的演进

大模型推理能力的提升离不开强化学习(RL)训练。过去一年,RL算法经历了三代演进:

算法 提出者 核心机制 收敛效率
GRPO DeepSeek (2025-01) Group Relative Policy Optimization 基准
DAPO 字节跳动 (2026-04) Dynamic Adaptive Policy Optimization GRPO的1.5×
CISPO MiniMax (2026-06) Clipped Importance Sampling + Per-token优化 GRPO的

2.2 CISPO的核心创新

CISPO的关键突破在于裁剪重要性采样权重而非传统Token更新

传统PPO/GRPO:裁剪策略更新比率 → 限制梯度方向
CISPO:裁剪重要性采样权重 → 限制样本贡献度

这一改变带来了三个优势:

  1. 更稳定的训练:重要性采样权重裁剪避免了过大的梯度更新,训练更稳定
  2. 更快的收敛:在AIME实验中,CISPO收敛速度2倍于DAPO,显著优于DeepSeek早期使用的GRPO
  3. 更低的算力成本:整个RL阶段仅用512块H800训练3周,租赁成本仅53.47万美元——比预期少了一个数量级(来源:MiniMax官方,2026-06-17)

2.3 RL训练成本对比

模型 RL训练GPU规模 RL训练时长 RL训练成本
DeepSeek-R1 2048+ H800 数周 数百万美元
MiniMax-M1 512 H800 3周 53.47万美元

MiniMax-M1的RL训练成本仅为DeepSeek-R1的约1/10。这正是闪电注意力+CISPO双重创新的叠加效应。


三、性能基准测试:开源推理模型的新标杆

3.1 核心基准数据

MiniMax在17个主流评测集上详细评测了M1系列,核心数据如下:

基准测试 MiniMax-M1-40k MiniMax-M1-80k DeepSeek-R1-0528 最佳开源对比
SWE-bench Verified 55.6% 56.0% 57.6% 48.9%(Qwen3.7-Max)
AIME 2025 88.0% 90.0% 91.6% 82.5%
长上下文理解 全球第三 全球第二 仅逊Gemini 2.5 Pro
TAU-bench (Agent工具) 开源第一 超越Gemini 2.5 Pro

关键发现:

  • SWE-bench:M1-40k/80k分别55.6%/56.0%,略逊DeepSeek-R1-0528的57.6%,但显著超越所有其他开源权重模型
  • 长上下文理解:M1系列全面超越所有开源模型,甚至超越OpenAI o3和Claude Opus 4.8,全球排名第二仅以微弱差距落后于Gemini 2.5 Pro(来源:MiniMax官方,2026-06-17)
  • Agent工具使用:M1-40k在TAU-bench中领跑所有开源模型,并战胜Gemini 2.5 Pro
  • 扩展测试时计算:M1-80k在大多数基准测试中始终优于M1-40k,验证了扩展测试时计算的有效性

3.2 长上下文能力的意义

100万Token上下文意味着M1可以一次性处理:

  • 一本500页的书籍(约75万汉字)
  • 完整的代码仓库(数万行代码+文档)
  • 连续对话历史(数百轮交互)
  • 长篇法律合同/财报(无需分块处理)

这在开源模型中是前所未有的——此前只有闭源的Gemini 2.5 Pro才能做到。


四、定价与性价比:推理模型的"日用品化"

4.1 API定价

MiniMax-M1的API定价是业内最低的,且按上下文长度阶梯定价:

输入长度 输入价格(元/百万Token) 输出价格(元/百万Token) 对比DeepSeek-R1
0-32K 0.8 8 更高性价比
32K-128K 1.2 16 更高性价比
128K-1M 2.4 24 DeepSeek不支持

关键点:

  • 前两档定价都比DeepSeek-R1性价比更高
  • 第三档(128K-1M)是DeepSeek-R1根本不支持的场景——M1是唯一的选择
  • APP/Web端不限量免费使用(来源:MiniMax官方,2026-06-17)

4.2 推理算力性价比

模型 深度推理算力消耗 推理输出速度 有效上下文
DeepSeek-R1 100%(基准) 280 t/s 128K
MiniMax-M1-80k 30% 1,000K

同等硬件下,M1可服务的用户量是DeepSeek-R1的3.3倍——这对于企业部署而言是巨大的成本优势。


五、MiniMax的战略布局:从模型到IPO

5.1 五连发计划

MiniMax宣布M1发布后连续四个工作日还有更新——这是继美团LongCat五连发(2026-05-25)之后,又一个中国AI团队的密集发布计划(来源:MiniMax官方,2026-06-17)。

5.2 A股回归

MiniMax(00100.HK)于2026年1月在港交所上市,挂牌不足半年即启动A股回归计划。5月底向上海证监局递交A股IPO辅导备案(中信证券),启动"A+H"双平台布局(来源:zglg.work,2026-06-18)。

5.3 支付生态

6月15日,MiniMax M3全面接入支付宝Token Pay——全球首个大规模商用的AI原生支付基建已完成3亿笔AI智能体支付(来源:zglg.work,2026-06-18)。


六、开源推理模型格局重塑

6.1 2026年6月开源推理模型对比

模型 参数量 上下文 SWE-bench 定价 特色
MiniMax-M1 456B MoE 1M 56.0% 0.8元/M 闪电注意力+CISPO
DeepSeek-R1-0528 685B MoE 128K 57.6% 1元/M 开源推理标杆
Kimi K2.7 Code 1.1T/32B激活 256K MIT开源 编程专用
Qwen3.7-Max 48.9% Agentic Coding

6.2 MiniMax-M1的差异化定位

MiniMax-M1不是"另一个DeepSeek-R1"——它选择了三个差异化路径:

  1. 上下文长度碾压:1M vs 128K,8倍优势
  2. 算力效率碾压:30%算力消耗,3.3倍服务能力
  3. RL训练成本碾压:53.47万美元 vs 数百万美元

这不是"参数更多所以更强"的传统路径,而是**“架构更高效所以更实用”**的新路径。


FAQ

Q1:MiniMax-M1和DeepSeek-R1有什么本质区别?
A:架构层面,M1使用闪电注意力(线性复杂度)混合架构,R1使用标准Transformer(二次复杂度);效果层面,M1上下文是R1的8倍,算力消耗仅30%;定位层面,M1主打"性价比+长上下文",R1主打"极致推理深度"。

Q2:100万Token上下文在实际中有什么用?
A:可一次性处理完整书籍(约75万汉字)、大型代码仓库、数百轮对话历史、长篇法律合同/财报等——无需分块处理,保留全局信息完整性。

Q3:CISPO和DAPO哪个更强?
A:MiniMax官方AIME实验数据表明CISPO收敛速度是DAPO的2倍,是DeepSeek GRPO的显著提升。关键创新在于裁剪重要性采样权重而非传统Token更新。

Q4:MiniMax-M1免费使用是否可持续?
A:MiniMax明确APP/Web不限量免费+API业内最低定价。闪电注意力30%算力消耗是免费策略的技术基础——同等硬件可服务3.3倍用户,边际成本极低。

Q5:MiniMax-M1与闭源模型差距多大?
A:SWE-bench 56%略逊DeepSeek-R1-0528的57.6%,但超越所有其他开源模型;长上下文全球第二仅逊Gemini 2.5 Pro(闭源),超越o3和Claude Opus 4.8;Agent工具使用超越Gemini 2.5 Pro。差距正在迅速缩小。


参考资料

  1. MiniMax官方博客 (2026-06-17): “MiniMax-M1,全球首个开源大规模混合架构的推理模型”
  2. MiniMax技术报告 (2026-06-17): MiniMax-M1 Technical Report
  3. MiniMax HuggingFace (2026-06-17): 模型权重与推理部署
  4. 腾讯云开发者社区 (2026-06-17): “MiniMax发布推理模型M1”
  5. 掘金 (2026-06-17): “MiniMax发布MiniMax-M1推理模型”
  6. zglg.work (2026-06-18): “2026-06-18 AI国内外新闻”
  7. MiniMax M3开源 (2026-06-12): HuggingFace MoE模型
Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐