还是Unsloth,优化了GRPO的训练流程。做到了比 Hugging Face + FA2 少使用 80%的 VRAM。也就是说你可以只用 7GB 的 VRAM 即可使用 Qwen2.5(1.5B)重现 R1-Zero 的“啊哈时刻”。
跑着玩,还提供了一个colab的jupyter: https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1\_(8B)-GRPO.ipynb
还有一个惊喜是,Unsloth x vLLM。
强强联合后, 可以直接在微调中使用 vLLM,达到更高的吞吐量,同时进行模型微调和推理!在 1x A100 40GB 上,使用 Unsloth 的 Llama 3.2 3B Instruct 动态 4 位量化,预计每秒可达 4000 个 token。在 16GB Tesla T4(免费 Colab GPU)上,您可以得到每秒 300 个 token。
博客地址:https://unsloth.ai/blog/r1-reasoning
目前开源生态,2条路线打的火热。
一边,在专心复现R1,发现各种意外的惊喜,典型的如open-r1,tinyzero,logicrl等。
一边通过挖掘高质量的推理链,发现高质量的数据+SFT,即可达到推理模型的效果,如 R1s、LIMO.