MiniMax也玩起了开源周？Day1先开源混合注意力推理模型M1，效果如何？附实测效果！ - 文章 - 开发者社区

大家好，我是刘聪NLP。

卷起来了呀，MiniMax也玩起了开源周，哈哈哈哈，这是对标DeepSeek开源周的节奏呀！

picture.image

先狠狠地期待一手，不知道后面四天都会有什么内容，不过，现在大模型厂真的卷到飞起了！

Day1，MiniMax 是先开源了混合注意力推理模型-M1，这个模型是在今年1月份开源的MiniMax-Text-01模型上增量训练得来的，结构跟MiniMax-Text-01模型一致，MoE结构，总参数456B，激活参数45.9B。

  
Paper：https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax\_M1\_tech\_report.pdf  
Github：https://github.com/MiniMax-AI/MiniMax-M1/  
HF：https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

MiniMax-M1应该是上下文长度最长的推理模型了，输入支持1M，输出有两个版本，40K和80K，80K比Gemini2.5 pro还长，长文本做到底啦！

picture.image

今天我来讲一下MiniMax-M1的模型架构和一些技术细节，再通过实测用例，看看MiniMax-M1模型效果到底如何！

模型结构

MiniMax-M1模型结构与MiniMax-Text-01模型一致，均为混合注意力模型，如下图所示，是将模型部分Softmax Attention替换成了Lightning Attention，

picture.image

利用线性注意力替换Softmax Attention，将时间复杂度为O(n²)降到O(n)，显著减少了计算量，尤其在处理长序列时更为高效。

但是为了弥补Lightning Attention在超大规模参数的效果的不足，每7层线性注意力后加一层Softmax Attention，保证模型的稳定性，如上。

picture.image

模型训练

模型训练主要三个部分，Continue Pretrain、SFT和RL。

Continue Pretrain

增量预训练使用了7.5T Tokens的数据，整体STEM、代码、书籍和推理相关数据的占比达到70%。

模型训练增加了训练批次，在MiniMax-Text-01上，采用8e-5的恒定学习率，先继续训练2.5T Tokens，再采用衰减学习率降低到8e-6，完成最后5T Tokens的训练。

同时，分4个阶段逐步将32K上下文长度扩充到1M，以解决过于激进地扩展训练长度导致的训练过程中突然出现梯度爆炸的现象。

SFT

通过高质量数据让模型学会特定的推理模型，为下一阶段RL打下基础，SFT为长CoT数据，涉及数学、代码、STEM、写作、问答（QA）和多轮对话等多个领域，其中数学和代码占比60%。

RL

这个部分是整个M1模型训练的核心，MiniMax提出了一个新的强化学习算法CISPO（Clipped IS-weight Policy Optimization），通过裁剪重要性采样权重而非token更新来稳定训练，从而避免了传统PPO/GRPO算法中token被裁剪的问题。

M1模型在该算法下，仅使用512个H800 GPU 训了3周，大概53万刀，整体的RL训练成本，相较于456B的庞然大物来说，真是超级高效了。

Minimax在最一开始对模型进行zero-RL 时，发现GRPO算法对混合注意力架构训练不理想，并没有出现长CoT推理现象，经过消融实验发现原始PPO/GRPO损失中的裁剪（ clipping）操作导致模型性能下降。

发现，比如与反思行为相关的Tokens（“然而”、“重新检查”、“等一下”、“啊哈”）等，在基础模型概率较低，策略更新后，这些标记的IS（importance sampling，重要性采样）变高，而这些Tokens在第一次策略更新后，会被裁剪，无法对后续的离策略梯度更新做出贡献。即使DAPO通过增加上裁剪界限解决该问题，但在实验中，依旧不理想。

CISPO优化目标如下，

picture.image