MiniMax 放大招!线性注意力让AI一次读完3套《哈利·波特》,性能比肩DeepSeek-V3、GPT-4o

大模型向量数据库机器学习

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

400万token的上下文窗口,相当于整个《哈利·波特》总字数的三倍。

这次,MiniMax 放了个大招。

他们开源了MiniMax-01系列,分为基础语言模型 MiniMax-Text-01 和 视觉多模态模型 MiniMax-VL-01。

这个团队,曾做出过顶级AI视频模型 海螺AI。

picture.image

picture.image

他们在视频模型上的成就,已经证明了自己的实力。

而这次的MiniMax-Text-01用了混合架构:Lightning Attention、Softmax Attention和MoE。用 Lightning Attention 替代传统Transformer,让模型更高效。 性能和DeepSeek-V3、GPT-4o相当,超长文本处理时还略胜一筹,支持长度是GPT-4o的32倍。参数量高达456B,单次激活45.9B

Hailuo AI:https://hailuoai.com/ 上已经可以免费试用。

picture.image

网友们的测试反馈很积极,和Gemini、o1的表现不相上下。

picture.image

MiniMax-VL-01的一些能力,让我想起第一次用AI写歌的感觉。

创作歌词时,它能捕捉到那些细腻的情感。"失落之城"的歌词里,每一个意象都恰到好处:月光、古老的城墙、时光的低语。

picture.image

卫星图像分析更有意思。从8月到9月的植被变化,它不只是看到了颜色的转变,还理解了背后可能的原因:干旱、火灾,或是人类活动。

picture.image

流程图分析特别实用。53.6秒的发票输入瓶颈,它直接给出六个优化方案,从OCR到并行处理,都很有操作性。

picture.image

语言学习和论文解读,展现了它处理长文本的能力。无论是从375个平行语料中学习新语言,

picture.image 还是总结带着复杂图表的论文,都显得从容不迫。

picture.image

MiniMax-Text-01和顶级模型同台竞技。

基准测试上,MMLU 88.5%,MMLU-Pro 75.7%,都和GPT-4o、Claude-3.5相当。

picture.image

长文本任务上更强,即使在 1M 个 token 的上下文窗口中也能保持更高的准确性,优于 Claude-3.5 和 Gemini 等模型,后两者在 256K 个 token 之后表现出明显的下降趋势。

这,主要受益于创新的架构:主打Lightning Attention的线性注意力机制,突破了传统Transformer架构的记忆瓶颈,这让它在处理长文本时特别强,延迟增长接近线性:

picture.image

在第三方测评 LongBench v2的最新结果中,MiniMax-Text-01仅次于 OpenAI的o1-preview和人类,位列第三。( 注:Long Bench V2是面向现实情景,进行长上下文多任务进行深入的理解和推理测试集。)

picture.image

网友评论:看起来中国人工智能公司确实在保持前进势头。

picture.image

模型的架构很有意思:主要用Lightning Attention,但保留一些Softmax Attention。具体是每8层中,7层Lightning,1层Softmax。

从Scaling Law到MoE结合,从结构设计到训练优化,每个环节都经过精心设计。为了支持这个架构,团队重构了整个系统,包括MoE通信优化、序列处理优化,还有线性注意力的高效实现。这是线性注意力首次在商用大模型上的应用。

picture.image

MiniMax-VL-01的多模态测试也很亮眼。ChartQA得分91.7,DocVQA达到96.4,OCRBench更是拿下865分,都是顶级水平。

picture.image

此外,MiniMax-01的价格真的很惊喜:每百万token输入只要1元,输出8元。

这或许会推动AI Agent的发展,特别是在需要长期记忆和大上下文处理的场景(比如代码库 AI Coder、多篇论文解析):

picture.image

picture.image

其次,论文最有趣的部分是他们如何结合 softmax 和线性注意力机制来增加上下文窗口,以及他们如何在此之上进行计算高效训练:

picture.image

论文链接:

https://filecdn.minimax.chat/\_Arxiv\_MiniMax\_01\_Report.pdf

最后,这两个模型的开源地址是:https://github.com/MiniMax-AI,官方后续会把模型和代码更新上去,开源宽松许可证(类似于Llama许可)。

如果想使用的话,国内可以用 hailuoai.com,海外就访问 hailuo.ai,同时还提供便宜的 API 。

以下,本期主题封面:

picture.image

picture.image

picture.image

🌟 知音难求,自我修 炼亦艰, 抓住前沿技术的机遇,与我们一起成为创新的超级个体 (把握AIGC时代的个人力量)。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论