QwenLong-L1-32B,首个专为长上下文推理而以 RL 训练的长上下文语言推理模型(LRM)。
在七个长上下文DocQA基准测试中的实验结果表明,QwenLong-L1-32B优于旗舰型LRM,如OpenAI-o3-mini和Qwen3-235B-A22B,其性能可媲美Claude-3.7-Sonnet-Thinking,在当前最先进的LRM中表现领先。
开源地址:https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B
项目地址:https://github.com/Tongyi-Zhiwen/QwenLong-L1
还有数据集:https://huggingface.co/datasets/Tongyi-Zhiwen/DocQA-RL-1.6K
R1的含金量还是太高了~
最大长度支持120k