MiniMax-M1技术报告关键技术点解读，当前世界上最长上下文窗口的大模型开源了! - 文章 - 开发者社区

MiniMax-M1技术报告亮点解读：当前世界上最长上下文窗口的大模型开源了!

Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094

GitHub: https://github.com/MiniMax-AI/MiniMax-M1

Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax\_M1\_tech\_report.pdf

picture.image

一、什么是MiniMax-M1？

MiniMax-M1是世界首个开源的大规模混合注意力推理模型 ，核心目标是解决大模型"推理时计算量爆炸"的问题。它基于团队之前的MiniMax-Text-01模型（4560亿参数，每token激活459亿参数），加入了Lightning Attention（闪电注意力） 机制，能原生支持100万token的输入上下文 （是DeepSeek R1的8倍），同时推理时的计算量（FLOPs）大幅降低——比如生成10万token时，比DeepSeek R1少用25%的计算资源。

简单来说，它是一个"又能装（长上下文）、又能算（高效推理）"的大模型，特别适合需要处理长文本（比如代码、论文）或复杂推理（比如数学题、软件调试）的场景。

二、核心亮点1：Lightning Attention——解决传统注意力的"计算瓶颈"

传统Transformer的软注意力 （Softmax Attention）有个致命问题：计算量随输入长度增长呈二次方 上升（比如输入长度翻倍，计算量翻四倍）。这导致大模型处理长文本时，推理速度慢得让人崩溃。

MiniMax-M1用了混合注意力架构 ：每7个线性注意力块 （Lightning Attention，计算量线性增长）后面接1个传统软注意力块 。这样既保留了传统注意力对"全局信息"的捕捉能力，又用线性注意力解决了长文本的计算问题。

举个例子，当生成10万token时，DeepSeek R1需要的计算量，MiniMax-M1只用25%就能搞定。这意味着，同样的GPU资源，MiniMax-M1能处理更长的文本，或者更快地完成推理。 picture.image

三、核心亮点2：CISPO算法——让RL训练更稳定、更高效

要让AI学会「深度思考」，强化学习（RL） 是关键——就像训练小孩做数学题，做对了给奖励，做错了给惩罚，慢慢学会正确的方法。但传统RL算法（比如PPO、GRPO）有个大问题：会剪掉一些「关键尝试」 。

比如，AI在解决数学题时，可能会生成「再检查一下步骤」这样的反思token（虽然这些token的概率很低），但传统算法会因为这些token的「重要性采样权重」太大，直接把它们剪掉，导致AI无法从这些「反思」中学习。

具体来说，像"However"、"Recheck"、"Wait"、"Aha"这类表示反思和推理转折的词汇，虽然在基础模型中出现概率很低，但它们往往是推理路径的关键"分叉点"。在策略更新时，这些token会产生很高的重要性采样权重

，结果在第一次策略更新后就被clipping机制给"砍掉"了，无法参与后续的梯度更新。

团队提出了CISPO算法 ，解决了这个问题：

传统算法剪辑的是「token更新」（直接删掉某些token的梯度）；
CISPO剪辑的是「重要性采样权重」（只限制权重的大小，不删掉token）。

用公式来说，CISPO的目标函数是：

picture.image

其中，

是 剪辑后的重要性采样权重 （比如限制在[0.9, 1.1]之间），

是「停止梯度」（不让权重影响梯度计算），

是「优势函数」（衡量这个token的「好坏」）。

通俗来说，CISPO就像「教练批改作业」：不会直接划掉学生的错误答案，而是在旁边标注「这里可以改进」，让学生从所有尝试中学 。这样一来，AI就能保留那些「反思token」的梯度，慢慢学会「先检查再回答」的好习惯。

四、核心亮点3：解决了RL训练中的"工程难题"

光有算法还不够，MiniMax团队还解决了几个关键的工程问题，让RL训练能顺利scale到大规模：

1. 计算精度不匹配问题

训练时，模型的token概率和推理时的概率不一致（比如训练时认为"再检查"的概率是0.8，推理时却只有0.5），导致奖励无法正常增长。团队发现，问题出在LM头（输出层）的精度不够 ，于是把LM头改成了FP32精度，让训练和推理的概率相关性从0.9提升到了0.99（几乎完全一致）。

2. 优化器超参数调整

AdamW优化器的默认参数（β1=0.9, β2=0.999, eps=1e-8）不适合MiniMax-M1的大规模训练。团队通过分析梯度分布，把β2调整为0.95，eps调整为1e-15，解决了训练不收敛的问题。

3. 早期终止重复生成

训练时，模型有时会生成"无限重复"的文本（比如"我想想...我想想...我想想..."），导致计算资源浪费。团队用了一个简单的规则：如果连续3000个token的概率都超过0.99，就提前终止生成。这既避免了资源浪费，又稳定了训练。

五、核心亮点4：多样化的RL训练数据——覆盖"可验证"和"通用"任务

MiniMax-M1的RL训练数据非常丰富，涵盖了可验证任务 （有明确正确答案）和通用任务 （没有明确答案，需要奖励模型评估）：

1. 可验证任务

数学推理 ：从竞赛题、 textbooks中收集了5万道题，过滤掉简单题和重复题，保留" pass@10 率在0-0.9之间"的中等难度题（太难或太简单都不利于训练）。
逻辑推理 ：用团队自己的SynLogic框架生成了5.3万道逻辑题（比如密码题、数独），难度随模型能力提升而增加。
Competitive Programming ：从在线OJ平台收集了3万道编程题，用MiniMax-Text-01生成测试用例，确保题目的有效性。
软件工程 ：基于SWE-bench（真实GitHub问题）构建了sandbox环境，用"执行结果"作为奖励（比如代码能通过所有测试用例，就给正奖励），让模型学会解决实际的代码问题。

2. 通用任务

STEM问题 ：用奖励模型（GenRM）评估答案的一致性（比如"1+1=2"和"一加一等于二"都算对）。
指令跟随 ：用 pairwise 比较（模型输出 vs 参考答案）给奖励，避免模型生成"冗长但无意义"的文本。

六、实验结果：在复杂场景中表现突出

MiniMax-M1的实验结果主要集中在复杂场景 （软件工程、长上下文、工具使用），这些场景最能体现模型的"推理能力"：

1. 软件工程：SWE-bench Verified 56%

SWE-bench是评估模型解决真实GitHub问题的 benchmark，MiniMax-M1-80k的准确率是56%，略低于DeepSeek-R1-0528（57.6%），但远高于其他开源模型（比如Qwen3-235B的34.4%）。这说明，模型通过sandbox环境的训练，确实学会了处理实际的代码问题。

2. 长上下文：LongBench-v2 61.5%

LongBench-v2是评估长文本理解的 benchmark，MiniMax-M1-80k的准确率是61.5%，超过了OpenAI o3（58.8%）和Claude 4 Opus（55.6%），仅次于Gemini 2.5 Pro（65.0%）。这得益于Lightning Attention的线性计算能力，让模型能高效处理长文本。

3. 工具使用：TAU-bench 62%

TAU-bench是评估模型使用工具（比如API）的 benchmark，MiniMax-M1-80k的准确率是62%，超过了Gemini 2.5 Pro（50.0%）和DeepSeek-R1-0528（53.5%）。这说明，模型学会了"如何正确使用工具"，能处理复杂的工具调用场景。

picture.image

七、总结：MiniMax-M1的价值

MiniMax-M1的核心价值在于**"高效推理"和"强推理能力"的结合**：

高效性 ：Lightning Attention让模型能处理100万token的长上下文，同时推理计算量大幅降低。
强推理能力 ：CISPO算法和多样化的RL训练数据，让模型在数学、代码、软件工程等复杂场景中表现突出。
开源：作为世界首个开源的大规模混合注意力模型，MiniMax-M1为学术界和工业界提供了一个"可复用的推理模型基础"。

团队提到，未来会把MiniMax-M1应用到真实世界的复杂任务 中，比如：

自动化公司 workflows（比如自动处理文档、调试代码）；
科学研究（比如自动生成论文、分析数据）；
多 agent 交互（比如让模型和其他模型或人类协作解决问题）。

MiniMax-M1是一个"既能装长文本、又能高效推理、还能解决复杂问题"的开源大模型，它的出现，让大模型的"推理能力"更接近真实世界的需求。