大家好,我是刘聪NLP。
卷起来了呀,MiniMax也玩起了开源周,哈哈哈哈,这是对标DeepSeek开源周的节奏呀!
先狠狠地期待一手,不知道后面四天都会有什么内容,不过,现在大模型厂真的卷到飞起了!
Day1,MiniMax 是先开源了混合注意力推理模型-M1,这个模型是在今年1月份开源的MiniMax-Text-01模型上增量训练得来的,结构跟MiniMax-Text-01模型一致,MoE结构,总参数456B,激活参数45.9B。
Paper:https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax\_M1\_tech\_report.pdf
Github:https://github.com/MiniMax-AI/MiniMax-M1/
HF:https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
MiniMax-M1应该是上下文长度最长的推理模型了,输入支持1M,输出有两个版本,40K和80K,80K比Gemini2.5 pro还长,长文本做到底啦!
今天我来讲一下MiniMax-M1的模型架构和一些技术细节,再通过实测用例,看看MiniMax-M1模型效果到底如何!
模型结构
MiniMax-M1模型结构与MiniMax-Text-01模型一致,均为混合注意力模型,如下图所示,是将模型部分Softmax Attention替换成了Lightning Attention,
利用线性注意力替换Softmax Attention,将时间复杂度为O(n²)降到O(n),显著减少了计算量,尤其在处理长序列时更为高效。
但是为了弥补Lightning Attention在超大规模参数的效果的不足,每7层线性注意力后加一层Softmax Attention,保证模型的稳定性,如上。
模型训练
模型训练主要三个部分,Continue Pretrain、SFT和RL。
Continue Pretrain
增量预训练使用了7.5T Tokens的数据,整体STEM、代码、书籍和推理相关数据的占比达到70%。
模型训练增加了训练批次,在MiniMax-Text-01上,采用8e-5的恒定学习率,先继续训练2.5T Tokens,再采用衰减学习率降低到8e-6,完成最后5T Tokens的训练。
同时,分4个阶段逐步将32K上下文长度扩充到1M,以解决过于激进地扩展训练长度导致的训练过程中突然出现梯度爆炸的现象。
SFT
通过高质量数据让模型学会特定的推理模型,为下一阶段RL打下基础,SFT为长CoT数据,涉及数学、代码、STEM、写作、问答(QA)和多轮对话等多个领域,其中数学和代码占比60%。
RL
这个部分是整个M1模型训练的核心,MiniMax提出了一个新的强化学习算法CISPO(Clipped IS-weight Policy Optimization),通过裁剪重要性采样权重而非token更新来稳定训练,从而避免了传统PPO/GRPO算法中token被裁剪的问题。
M1模型在该算法下,仅使用512个H800 GPU 训了3周,大概53万刀,整体的RL训练成本,相较于456B的庞然大物来说,真是超级高效了。
Minimax在最一开始对模型进行zero-RL 时,发现GRPO算法对混合注意力架构训练不理想,并没有出现长CoT推理现象,经过消融实验发现原始PPO/GRPO损失中的裁剪( clipping)操作导致模型性能下降。
发现,比如与反思行为相关的Tokens(“然而”、“重新检查”、“等一下”、“啊哈”)等,在基础模型概率较低,策略更新后,这些标记的IS(importance sampling,重要性采样)变高,而这些Tokens在第一次策略更新后,会被裁剪,无法对后续的离策略梯度更新做出贡献。即使DAPO通过增加上裁剪界限解决该问题,但在实验中,依旧不理想。
CISPO优化目标如下,
其中,
表示停止梯度操作,
是裁剪后的重要性采样权重,在实验时,没有对IS权重设置下限,只调整了
。
最后进一步提出了一个统一的公式,通过在CISPO目标中引入标记级掩码,允许通过超参数调整来控制是否以及在什么条件下丢弃特定标记的梯度:
其中,
相当于PPO信任区域中隐含定义的掩码:
验证,CISPO有效性,在Qwen2.5-32B-base进行了对比实验,相较于DAPO和GRPO,在AIME 2024均有提到,大概近在50%的训练步骤下,就与DAPO效果相当。
在混合注意力下,RL扩展训练还存在一些,计算精度不匹配、优化器超参数敏感等问题。通过将语言模型输出头的精度提高到FP32、AdamW的β1设置为0.9,β2设置为0.95,eps设置为1e-15、加入Tokens概率的启发式规则防止模型生成过长且重复 等方法,使得MiniMax-M1性能稳定。
在RL阶段,数据多样性和奖励函数也十分重要,主要包括通过规则验证的任务和通过奖励模型进行验证的一般性任务。
- 通过规则验证的推理任务:数学推理(5w)、逻辑推理(5.3w)、编程竞赛(3w)、软件工程
- 通过模型反馈的一般任务:具有真实答案(STEM等)、没有真实答案(令遵循、创造性写作等),共计2.5w
最后,榜单效果如下,在AIME、Live Codebench上与DeepSeek-R1和Qwen3-235B基本持平,在辅助软件工程SWE、工具利用TAU和长上下文任务(MRCR)上效果很好。
当然还有,因为混合注意力机制,在生成长度128K,M1的计算量仅为DeepSeek R1的25%。
效果测试
整体测试的感觉:
- 正常、文本推理、数学问题上效果不错,小红问题也是给了相关说明。
- 代码上,基本功能可以实现,但是审美上,有待提升。
弱智吧
prompt:生蚝煮熟了叫什么?
结果:没有熟蚝就没有问题,哈哈哈
文本推理
prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹
结果:很不错,还说了,是基于小红是女生的条件得出的,若有其他条件则再看。
prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是
结果:老鹰依旧不会自己飞,这个逻辑陷阱,真是陷了所有模型
数学
这里就不测高考题了,毕竟2025年数学卷,各大模型都是130+,甚至很多都145,这里就先测了满血R1测试题。
prompt:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。
结果:正确,√3/3
prompt:一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何
结果:正确,能够过去。
长文测试
让模型直接告诉我三体讲了什么内容
但是deepseek就接受不了这么长的内容。
还大海捞了个针,统计正确了,37次
代码
prompt:生成一个打工人时钟的html页面
prompt:创建一个红白机风格的"贪吃蛇"游戏,包含自动演示AI功能,使用纯HTML/CSS/JavaScript实现为单文件
prompt:创建一个在悬停时翻转的 3D 卡片组件,其中正面内容为刘聪NLP和背面内容为logCong,在翻转时效果平滑且逼真。
写在最后
MiniMax这次开源的M1整体效果还不错,
同时报告中也写了很多混合注意力模型在训练过程中的踩坑点,以及他们的优化点,实话实话,很良心。
也不知道接下来4天还有什么,期待的打期待,哈哈哈!
PS:看到这里,如果觉得不错,可以来个点赞 、在看 、关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!
欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!