MiniMax-M1技术报告亮点解读:当前世界上最长上下文窗口的大模型开源了!
Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax\_M1\_tech\_report.pdf
一、什么是MiniMax-M1?
MiniMax-M1是世界首个开源的大规模混合注意力推理模型 ,核心目标是解决大模型"推理时计算量爆炸"的问题。它基于团队之前的MiniMax-Text-01模型(4560亿参数,每token激活459亿参数),加入了Lightning Attention(闪电注意力) 机制,能原生支持100万token的输入上下文 (是DeepSeek R1的8倍),同时推理时的计算量(FLOPs)大幅降低——比如生成10万token时,比DeepSeek R1少用25%的计算资源。
简单来说,它是一个"又能装(长上下文)、又能算(高效推理)"的大模型,特别适合需要处理长文本(比如代码、论文)或复杂推理(比如数学题、软件调试)的场景。
二、核心亮点1:Lightning Attention——解决传统注意力的"计算瓶颈"
传统Transformer的软注意力 (Softmax Attention)有个致命问题:计算量随输入长度增长呈二次方 上升(比如输入长度翻倍,计算量翻四倍)。这导致大模型处理长文本时,推理速度慢得让人崩溃。
MiniMax-M1用了混合注意力架构 :每7个线性注意力块 (Lightning Attention,计算量线性增长)后面接1个传统软注意力块 。这样既保留了传统注意力对"全局信息"的捕捉能力,又用线性注意力解决了长文本的计算问题。
举个例子,当生成10万token时,DeepSeek R1需要的计算量,MiniMax-M1只用25%就能搞定。这意味着,同样的GPU资源,MiniMax-M1能处理更长的文本,或者更快地完成推理。
三、核心亮点2:CISPO算法——让RL训练更稳定、更高效
要让AI学会「深度思考」,强化学习(RL) 是关键——就像训练小孩做数学题,做对了给奖励,做错了给惩罚,慢慢学会正确的方法。但传统RL算法(比如PPO、GRPO)有个大问题:会剪掉一些「关键尝试」 。
比如,AI在解决数学题时,可能会生成「再检查一下步骤」这样的反思token(虽然这些token的概率很低),但传统算法会因为这些token的「重要性采样权重」太大,直接把它们剪掉,导致AI无法从这些「反思」中学习。
具体来说,像"However"、"Recheck"、"Wait"、"Aha"这类表示反思和推理转折的词汇,虽然在基础模型中出现概率很低,但它们往往是推理路径的关键"分叉点"。在策略更新时,这些token会产生很高的重要性采样权重
,结果在第一次策略更新后就被clipping机制给"砍掉"了,无法参与后续的梯度更新。
团队提出了CISPO算法 ,解决了这个问题:
- 传统算法剪辑的是「token更新」(直接删掉某些token的梯度);
- CISPO剪辑的是「重要性采样权重」(只限制权重的大小,不删掉token)。
用公式来说,CISPO的目标函数是:
其中,
是 剪辑后的重要性采样权重 (比如限制在[0.9, 1.1]之间),
是「停止梯度」(不让权重影响梯度计算),
是「优势函数」(衡量这个token的「好坏」)。
通俗来说,CISPO就像「教练批改作业」:不会直接划掉学生的错误答案,而是在旁边标注「这里可以改进」,让学生从所有尝试中学 。这样一来,AI就能保留那些「反思token」的梯度,慢慢学会「先检查再回答」的好习惯。
四、核心亮点3:解决了RL训练中的"工程难题"
光有算法还不够,MiniMax团队还解决了几个关键的工程问题,让RL训练能顺利scale到大规模:
1. 计算精度不匹配问题
训练时,模型的token概率和推理时的概率不一致(比如训练时认为"再检查"的概率是0.8,推理时却只有0.5),导致奖励无法正常增长。团队发现,问题出在LM头(输出层)的精度不够 ,于是把LM头改成了FP32精度,让训练和推理的概率相关性从0.9提升到了0.99(几乎完全一致)。
2. 优化器超参数调整
AdamW优化器的默认参数(β1=0.9, β2=0.999, eps=1e-8)不适合MiniMax-M1的大规模训练。团队通过分析梯度分布,把β2调整为0.95,eps调整为1e-15,解决了训练不收敛的问题。
3. 早期终止重复生成
训练时,模型有时会生成"无限重复"的文本(比如"我想想...我想想...我想想..."),导致计算资源浪费。团队用了一个简单的规则:如果连续3000个token的概率都超过0.99,就提前终止生成。这既避免了资源浪费,又稳定了训练。
五、核心亮点4:多样化的RL训练数据——覆盖"可验证"和"通用"任务
MiniMax-M1的RL训练数据非常丰富,涵盖了可验证任务 (有明确正确答案)和通用任务 (没有明确答案,需要奖励模型评估):
1. 可验证任务
- 数学推理 :从竞赛题、 textbooks中收集了5万道题,过滤掉简单题和重复题,保留" pass@10 率在0-0.9之间"的中等难度题(太难或太简单都不利于训练)。
- 逻辑推理 :用团队自己的SynLogic框架生成了5.3万道逻辑题(比如密码题、数独),难度随模型能力提升而增加。
- Competitive Programming :从在线OJ平台收集了3万道编程题,用MiniMax-Text-01生成测试用例,确保题目的有效性。
- 软件工程 :基于SWE-bench(真实GitHub问题)构建了sandbox环境,用"执行结果"作为奖励(比如代码能通过所有测试用例,就给正奖励),让模型学会解决实际的代码问题。
2. 通用任务
- STEM问题 :用奖励模型(GenRM)评估答案的一致性(比如"1+1=2"和"一加一等于二"都算对)。
- 指令跟随 :用 pairwise 比较(模型输出 vs 参考答案)给奖励,避免模型生成"冗长但无意义"的文本。
六、实验结果:在复杂场景中表现突出
MiniMax-M1的实验结果主要集中在复杂场景 (软件工程、长上下文、工具使用),这些场景最能体现模型的"推理能力":
1. 软件工程:SWE-bench Verified 56%
SWE-bench是评估模型解决真实GitHub问题的 benchmark,MiniMax-M1-80k的准确率是56%,略低于DeepSeek-R1-0528(57.6%),但远高于其他开源模型(比如Qwen3-235B的34.4%)。这说明,模型通过sandbox环境的训练,确实学会了处理实际的代码问题。
2. 长上下文:LongBench-v2 61.5%
LongBench-v2是评估长文本理解的 benchmark,MiniMax-M1-80k的准确率是61.5%,超过了OpenAI o3(58.8%)和Claude 4 Opus(55.6%),仅次于Gemini 2.5 Pro(65.0%)。这得益于Lightning Attention的线性计算能力,让模型能高效处理长文本。
3. 工具使用:TAU-bench 62%
TAU-bench是评估模型使用工具(比如API)的 benchmark,MiniMax-M1-80k的准确率是62%,超过了Gemini 2.5 Pro(50.0%)和DeepSeek-R1-0528(53.5%)。这说明,模型学会了"如何正确使用工具",能处理复杂的工具调用场景。
七、总结:MiniMax-M1的价值
MiniMax-M1的核心价值在于**"高效推理"和"强推理能力"的结合**:
- 高效性 :Lightning Attention让模型能处理100万token的长上下文,同时推理计算量大幅降低。
- 强推理能力 :CISPO算法和多样化的RL训练数据,让模型在数学、代码、软件工程等复杂场景中表现突出。
- 开源 :作为世界首个开源的大规模混合注意力模型,MiniMax-M1为学术界和工业界提供了一个"可复用的推理模型基础"。
团队提到,未来会把MiniMax-M1应用到真实世界的复杂任务 中,比如:
- 自动化公司 workflows(比如自动处理文档、调试代码);
- 科学研究(比如自动生成论文、分析数据);
- 多 agent 交互(比如让模型和其他模型或人类协作解决问题)。
MiniMax-M1是一个"既能装长文本、又能高效推理、还能解决复杂问题"的开源大模型,它的出现,让大模型的"推理能力"更接近真实世界的需求。