当大模型不再依赖人类投喂,而是开始自我迭代,Scaling Law 将被重新定义
“龙虾”还在增强基座模型,“悟空”刚刚成立事业部,而在刚刚过去的一周,一个看似低调却极具颠覆性的名词悄然浮出水面——AI自我进化。
在众多模型迭代和商业架构调整的新闻中,MiniMax 推出 M2.7 模型的这条消息,显得格外意味深长。它没有像英伟达的 Rubin 那样用 35 倍算力狂飙来吸引眼球,也没有像 Midjourney V8 那样用视觉震撼来刷屏。它选择了一条更难、更远的路:让 AI 自己成为自己的老师。
如果周一的“理论前沿”只能选一个话题深度探讨,那一定是它。
一、 什么是“AI自我进化”?
在传统的大模型研发范式下,模型的成长路径是线性的、被动的:
数据收集 → 人工标注 → 监督微调 → 强化学习对齐 → 上线
每一次能力的跃升,都伴随着大量人力、算力和时间的投入。模型的智力边界,本质上是由“人类投喂的数据边界”决定的。
而 MiniMax M2.7 提出的“自我进化”,指向了一种截然不同的范式:
模型在脱离人工干预的情况下,能够自主生成训练数据、自我评估、自我修正,并在此过程中实现能力的持续增长。
这并非概念炒作。根据MiniMax官方披露,M2.7能够自行构建复杂Agent Harness(智能体执行框架),在研发过程中,模型被用于构建强化学习Harness中的数十个复杂技能,更新自己的记忆,驱动自身的强化学习,并基于结果优化强化学习过程和Harness——这就是MiniMax所说的“开启模型的自我进化”。
二、 数据背后的自我进化能力
M2.7的自我进化能力,在官方披露的数据中得到了具体印证。
在研发流程中的参与度:在强化学习实验场景中,M2.7能够自动监控实验状态、读取日志、排查问题、分析指标、修复代码、提交合并请求并完成冒烟测试。MiniMax官方数据显示,在部分研发流程中,M2.7可承担30%至50%的工作量。
自我迭代的深度:在内部测试中,M2.7能够连续执行超过100轮“分析失败轨迹→规划改动→修改脚手架代码→运行评测→对比结果→决定保留或回退”的自主迭代循环,最终在内部评测集上实现约30%的效果提升。
在机器学习任务中的表现:在MLE Bench Lite的22个机器学习任务测试中(这些任务几乎囊括了研发的所有环节),M2.7的最好成绩是9枚金牌、5枚银牌、1枚铜牌。三次测试的平均得牌率为66.6%,这一成绩仅次于Opus-4.6(75.7%)和GPT-5.4(71.2%),与Gemini-3.1(66.6%)持平。
三、自我进化的三重理论挑战
当然,“自我进化”绝非没有争议。在将它推上理论前沿的同时,我们也必须正视其带来的深层问题。
- 可控性与目标漂移
当一个模型开始自我迭代,它优化的目标究竟是谁定义的?如果脱离了人类反馈的锚点,模型会不会在“自我优化”的过程中,逐渐偏离设计者的初衷?这不仅是技术问题,更是对齐(alignment)研究的全新挑战。
- 反馈闭环的质量
自我进化的前提是模型能够准确评估自己的输出质量。但如果评估器本身也是模型的一部分,就可能出现“自欺欺人”的风险——模型认为自己进步了,实际上只是在重复自身的偏见。如何构建一个自我免疫的反馈机制,是这一范式能否成立的关键。
- 进化边界
自我进化是否存在极限?当模型达到训练数据的分布边缘,它能否通过自我生成真正“超越”原有分布?还是说,自我进化最终只能带来“局部最优”的收敛,而无法突破结构性的天花板?
这些问题,恰恰构成了“理论前沿”最值得探讨的议题。
四、 行业格局的潜在重构
MiniMax 不是第一个提出“自我进化”概念的团队,但 M2.7 的发布,标志着这一理念从学术探索走向了规模化落地。
如果自我进化成为下一代大模型的主流范式,行业的竞争逻辑将被重新书写:
● 算力优势可能被算法效率部分替代
● 数据壁垒可能被自我生成能力部分消解
● 模型迭代周期从“月级”压缩到“天级”甚至“小时级”
这也可以解释,为什么英伟达在疯狂堆算力、阿里在重整组织架构的同时,MiniMax 选择了另一条看似“逆潮流”的路径——与其在算力战场正面交锋,不如在范式层面另辟蹊径。
五、 AI 的“自我”意味着什么?
在技术之外,M2.7 提出的“自我进化”还带来了一个更深层的哲学追问:
当 AI 开始自我迭代、自我修正、自我超越,“自我”这个词的分量正在发生变化。它不再只是营销话术中的拟人化表达,而可能成为技术架构中的核心组件。
也许在不久的将来,我们会发现:
● 最懂模型的,是模型自己
● 最能优化模型的,也是模型自己
● 而人类,将从“训练者”转变为“守护者”与“共舞者”
MiniMax M2.7 的发布,也许只是这条长路上的一小步。但它开启的“自我进化”方向,值得我们每一个关注 AI 前沿的人认真思考。
而如果你也想亲手体验让模型“自己训练自己”的进化魔力,不妨从LlamaFactory Online开始——在这里,微调、迭代、甚至尝试构建属于你的自我进化实验,都比想象中更简单。
