今天凌晨,俊旸兄发x,说下周一定会开源,但现在正在进行更多的RL实验,所以最后开的模型有多强,还不知道,但一定会开源一些东西。
期待一手Qwen开源。
同时值得注意的一点是,现在qwen.ai上的QwQ-max-Preview模型的推理收益,应该更多来自于SFT过程,因为还没有充分进行RL。
QwQ-Max-Preview如果是在Qwen2.5-Max上训练的,那么也会是一个MoE模型。
因为这周太卷了,一直在跟DeepSeek的开源内容,还没来得及给大家实测,下周一定测!!!
最后,NLP工作站 4群 成立啦!欢迎入群交流!