话不多说,线上链接: https://huggingface.co/Qwen/QwQ-32B
QwQ-32B模型为Dense模型,总参数32.5B,非嵌入参数31B,64层,采用GQA,Q为40,KV为8,上下文长度为131K。
同时,指标很强,在LiveBench、IFEval、BFCL上都超过了DeepSeek-R1-671B模型。如图2。
值得注意的是,QwQ-32B还在推理模型中集成了Agent能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。
其中,QwQ-32B的强化学习有两个阶段, 第一阶段,主要针对math和code任务,奖励为规则校验的ORM,判断数据生成答案是否准确,代码执行是否开源通过执行测试样例测试; 第二阶段,主要针对通用任务,奖励为通用奖励模型和一些基于规则的验证器,发现经过少量训练可以提高通用能力同时,在math和code上不下降。
没有资源的可以通过chat.qwen.ai直接测试,我已经开始模型下载啦,看看效果到底如何,欢迎留言探讨!!
最后,NLP工作站 4群 成立啦!欢迎入群讨论!!