详解小红书最新开源的142B MoE模型,附效果实测!

大模型向量数据库机器学习

大家好,我是刘聪NLP。

小红书开源了MoE大模型dots.llm1,总参数量142B,激活参数14B,共有128个专家(每次激活6个),2个共享专家。

dots.llm1让我比较惊喜的是不仅开源了模型,还把预训练过程中每1T tokens的checkpoint也同步开源了,利好基础研究工作。

论文上的效果也是跟Qwen3-235B-A22B、Qwen2.5-72B打的有来有回!

picture.image

PS:题外话,谁知道dots.llm1这名字啥意思,小红书大模型为啥不叫red.llm,手动狗头!

我们今天先看dots.llm1的报告细节,再分享实测感悟!

模型架构

整体架构跟DeepSeek-V3保持一致,不过注意力采用MHA机制,同时在QK上做了normalization,如下图所示。

picture.image

在Infra上,还做了MoE训练效率的优化,采用Interleaved 1F1B 流水并行的AlltoAll overlap方案,提升训练效率。

该部分与NVIDIA合作,详细内容可见 https://zhuanlan.zhihu.com/p/28463368206

picture.image

同时,还优化了Grouped GEMM的实现,与 NVIDIA Transformer Engine中的 Grouped GEMM API 相比,在 H800 上前向计算中平均提升了 14.00%,在反向计算中平均提升了 6.68%。

picture.image

Pre-Train阶段

Pre-Train阶段数据总量11.2T Tokens,数据处理上就是基于规则和基于模型的预处理,其中创新部分是,在网页清理上,专门训练了一个轻量级模型,解决网页行级别内容重复的问题;还训练一个200分类的模型,以平衡网络数据比例。

在预训练期间,保持中文与英文数据的平衡比例为1:1,并且没有合成数据。(这一点跟其他论文方法不太一样,尤其是Phi)

预训练有4个阶段,

  • 第一阶段,正常进行训练,共使用10T Tokens数据,最大长度8K,学习率热身4000步,最后稳定在3e-4。
  • 第二阶段,在1T Tokens数据上进行退火训练,逐渐将学习率从3e-4降低到3e-5,同时,将推理相关和知识相关数据的比例大幅增加到90%。
  • 第三阶段,继续在200B Token上进行退火训练,将学习率从3e-5降低到1e-5,并增加代码、数学和推理数据的比例。
  • 第四阶段,在128B数据上使用UtK策略进行长度扩展,从8K扩展到32K,学习率保存1e-5不变。

榜单效果如下:

picture.image

Post-Train阶段

Post-Train阶段,数据主要来自开源数据集和内部标注的高质量中文数据集。对于开源数据中回复内容质量不足的,用DeepSeek-V3 0324优化重新生成。同时对于复杂指令遵循数据,也精细设计了带有条件约束的指令集。

训练涉及两个阶段,第一阶段,用40w 指令数据进行模型微调,2个epoch。第二阶段,主要用拒绝采样微调,进一步提升模型在数学、编程等方面的能力。

每阶段,均采用余弦学习率调度器,学习率从5e-6逐渐衰减至最小值1e-6。

榜单效果如下:

picture.image

dots.llm1模型实测

先说一下实测感受:

  • 常识类问题效果还不错,跟Qwen、DeepSeek等相差不大
  • 数学能力上,跟非think版本的Qwen3模型差不多,但不如Think版本模型
  • 长文回答时,偶尔会出现中英文夹杂现象,短回答没出现
  • 代码上,不如Qwen3、DeepSeek模型,大体ok,但在小细节上会出问题
  • 指令遵循上不错,角色扮演的拟人方面也很有意思,dots.llm1应该是最懂小红书风格的模型了,哈哈哈哈

常见问题

Prompt: 将“I love dots.llm1”这句话的所有内容反过来写

结果:正确,虽然不是think模型,但是流程步骤还是有的。

picture.image

依旧弱智吧

Prompt: 生蚝煮熟了叫什么?

结果:正确,没说熟蚝,哈哈哈哈。

picture.image

Prompt: 用水来兑水,得到的是浓水还是稀水

结果:正确。

picture.image

文本推理

Prompt: 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

结果:正确,推理步骤很详细,很长只截了部分。

picture.image

Prompt: 未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

结果:不对,老鹰本来就会飞,docs.llm在解体时确实验证了逻辑一致性,但这道题确实存在误导,模型没有辩证过来。其他很多模型也一样,辩证不过来。

picture.image

高考数学

Prompt: 2024年年高考全国甲卷数学(文)试题

picture.image

结果:正确,-7/2

picture.image

上周高考,测了一下2025年高考题。

新课标I卷数学试卷picture.image

结果:正确,B

picture.image

picture.image

结果:正确,61/25

picture.image

蹭波高考热点,哈哈哈哈,评测了数学的单选、多选、填空,总分73分,得了65分,整体表现不错。

大数计算

Prompt: 178939247893 * 299281748617等于多少?

结果:错误,正常,市面上的模型都对不了,还是得调用工具,不过这样说明了仅仅LLM得局限性,也是为啥Agent是必然得原因。

picture.image

代码

Prompt: 写一个打工人时钟

结果:页面做出来了,但是时间不对呀,下午5点多了,我还剩余6h工作,这妥妥得资本家呀

picture.image

Prompt: 写一个贪吃蛇得游戏。

结果:虽然做出了,但是细节有点问题,会有多个方块给蛇吃。

角色写作

Prompt: 用贴吧嘴臭老哥的风格点评大模型套壳现象

结果:写的很不错

picture.image

Prompt: 请你作为小红书重度女性用户,写一篇关于《小红书开源142BMOE模型》的帖子

结果:虽然纯在内容得幻觉,但是风格,我服了,这应该是最懂小红书得模型了,哈哈哈。带8个保镖,两个拎包,笑死。

picture.image

写在最后

整体体验效果还不错,目前市面上也没有什么特别好得100B级别的MoE模型,同时dots.llm1还开源了一系列的base模型,还是很良心的。

期待小红书团队的下一步更新开源,比如think模型啥的!

愿国内开源越来越好,不过国内开源模型已经是世界第一了,没人反对吧!

PS:看到这里,如果觉得不错,可以来个点赞在看关注 。 给公众号添加【星标⭐️】不迷路!您的支持是我坚持的最大动力!

欢迎多多关注公众号「刘聪NLP」,加入交流群,交个朋友吧,一起学习,一起进步!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎AB测试总体经济影响
为充分了解火山引擎A/B测试平台为企业带来的潜在投资回报,火山引擎委托Forrester Consulting使用总 体经济影响(TEI)模型进行对其A/B测试产品潜在的投资回报率(ROI)进行评估分析。该研究的目的是为了给读者提供火山引擎A/B测试产品带来潜在财务影响评估的参考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论