训练自己的R1,仅需7GB显存~

大模型向量数据库机器学习

还是Unsloth,优化了GRPO的训练流程。做到了比 Hugging Face + FA2 少使用 80%的 VRAM。也就是说你可以只用 7GB 的 VRAM 即可使用 Qwen2.5(1.5B)重现 R1-Zero 的“啊哈时刻”。

跑着玩,还提供了一个colab的jupyter: https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1\_(8B)-GRPO.ipynb

picture.image

还有一个惊喜是,Unsloth x vLLM。

强强联合后, 可以直接在微调中使用 vLLM,达到更高的吞吐量,同时进行模型微调和推理!在 1x A100 40GB 上,使用 Unsloth 的 Llama 3.2 3B Instruct 动态 4 位量化,预计每秒可达 4000 个 token。在 16GB Tesla T4(免费 Colab GPU)上,您可以得到每秒 300 个 token。

博客地址:https://unsloth.ai/blog/r1-reasoning

目前开源生态,2条路线打的火热。

一边,在专心复现R1,发现各种意外的惊喜,典型的如open-r1,tinyzero,logicrl等。

一边通过挖掘高质量的推理链,发现高质量的数据+SFT,即可达到推理模型的效果,如 R1s、LIMO.

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 EB 级湖仓一体分析服务 LAS 的实践与展望
火山引擎湖仓一体分析服务 LAS 是面向湖仓一体架构的 Serverless 数据处理分析服务,提供一站式的海量数据存储计算和交互分析能力,完全兼容 Spark、Presto、Flink 生态,在字节跳动内部有着广泛的应用。本次演讲将介绍 LAS 在字节跳动内部的发展历程和大规模应用实践,同时介绍 LAS 在火山引擎上的发展规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论