开源项目推荐 | LLaMA训练加速38%，650亿参数大模型预训练方案开源可商用！ - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

来源丨量子位编辑丨小书童

650亿 参数大模型的预训练方案，发布即开源。

训练速度较传统方案提升38% 。

这就是由Colossal-AI最新发布的类LLaMA基础大模型预训练方案。

picture.image

要知道，在“百模大战”背景下，谁拥有自家大模型，往往被视为核心竞争力。

在这个节点下，愿意开源大模型的公司少之又少。

但自己从头训练一个大模型，对技术、资金都有很高要求。

由此，Colossal-AI最新的开源动作，可以说是应时势所需了。

并且它还不限制商业使用，开箱即用仅需4步 。

具体项目有哪些内容？一起往下看~

开源地址：https://github.com/hpcaitech/ColossalAI

32张A100/A800即可使用

实际上，自从Meta开源LLaMA后，掀起了一波微调项目热潮，如Alpaca、Vicuna、ColossalChat等都是在其基础上打造的。

picture.image

但是LLaMA只开源了模型权重且限制商业使用 ，微调能够提升和注入的知识与能力也相对有限。

对于真正想要投身大模型浪潮的企业来说，训练自己的核心大模型非常重要。

开源社区也此前已献了一系列工作：

RedPajama：开源可商用类LLaMA数据集（无训练代码和模型）
OpenLLaMA：开源可商用类LLaMA 7B/13B模型，使用EasyLM基于JAX和TPU训练
Falcon：开源可商用类LLaMA 7B/40B模型（无训练代码）

但这些都还不够，因为对于最主流的PyTorch+GPU生态，仍缺乏高效、可靠、易用的类LLaMA基础大模型预训练方案 。

所以Colossal-AI交出了最新的开源答卷。

仅需32张A100/A800 ，即可搞定650亿参数类LLaMA大模型预训练，训练速度提升38%。

picture.image

而像原生PyTorch、FSDP等，则因显存溢出无法运行该任务。

Hugging Face accelerate、DeepSpeed、Megatron-LM也未对LLaMA预训练进行官方支持。

开箱即用、4步搞定

而这一项目真正上手起来也很简易。共有四步：

1、安装Colossal-AI
2、安装其他依赖项
3、数据集
4、运行命令

具体代码如下：

第一步、安装Colossal-AI。


            
git clone -b example/llama https://github.com/hpcaitech/ColossalAI.git  
cd ColossalAI  
# install and enable CUDA kernel fusion  
CUDA_EXT=1 pip install .

第二步、安装其他依赖项。


            
cd examples/language/llama  
# install other dependencies  
pip install -r requirements.txt  
# use flash attention  
pip install xformers

第三步、数据集。

默认数据集togethercomputer/RedPajama-Data-1T-Sample将在首次运行时自动下载，也可通过-d或—dataset指定自定义数据集。

第四步、运行命令。

已提供7B和65B的测速脚本，仅需根据实际硬件环境设置所用多节点的host name即可运行性能测试。


            
cd benchmark_65B/gemini_auto  
bash batch12_seq2048_flash_attn.sh

对于实际的预训练任务，使用与速度测试一致，启动相应命令即可，如使用4节点*8卡训练65B的模型。


            
colossalai run --nproc_per_node 8 --hostfile YOUR_HOST_FILE --master_addr YOUR_MASTER_ADDR pretrain.py -c '65b' --plugin "gemini" -l 2048 -g -b 8 -a