“ 之前的选文还是有一些滞后,后面尽可能保证3天内的文章把,除非真是找不到好玩的,就随缘发了。另外今天的模型换成了gpt4。。。
https://arxiv.org/pdf/2310.18313.pdf
https://github.com/Azure/MS-AMP
本文提出了一种使用FP8低位数据格式训练大语言模型(LLMs)的新框架,可以显著降低这些模型的训练成本。这项工作的核心论断和含义是:
- LLM训练中的大多数变量,如梯度和优化器状态,可以使用低精度数据格式而不影响模型准确性或需要更改超参数。
- 所提出的FP8混合精度训练框架与现有的BF16混合精度训练方法相比,可以实现显著的内存使用和通信开销降低。
- FP8框架是通用的,可以应用于其他任务,如LLM指令调整和带有人类反馈的强化学习,从而节省微调费用。
所提出的FP8框架的机制涉及三个优化级别
- FP8梯度和全局规约通信:作者提出了一种自动缩放技术,以防止梯度通信过程中的下溢和上溢问题。这种方法涉及使用共享缩放因子将梯度量化为FP8格式跨GPU,从而减少GPU内存使用和通信带宽消耗。
- FP8优化器:作者引入了一种精度解耦技术,确定哪些优化器变量可以使用较低精度而不影响准确性。他们发现一阶梯度矩可以容忍高量化误差,并且可以分配低精度FP8,而二阶矩需要更高的精度。主权重使用FP16存储,并进行张量缩放以节省内存而不影响准确性。
- FP8分布式并行训练:作者为包括张量、管道和序列并行性在内的流行并行计算范例提供了FP8支持。这使得利用FP8有效地训练大型基础模型成为可能。
简单来说,这项研究提出了一个新的框架,使用一种称为FP8的8位数据格式更有效地训练大型语言模型(LLMs)。LLMs是强大的AI模型,可以理解和生成类似人类的文本,但需要大量的计算资源进行训练,这是昂贵的。
所提出的FP8框架显著降低了内存使用量并加速了训练过程,与现有方法相比,不会影响模型的准确性。这意味着公司可以以更低的成本训练更大、更强大的AI模型,使得更多企业能够利用先进的AI技术带来的好处并负担得起。
总之,这个FP8框架使得大型语言模型的训练更快、更具成本效益,这可以带来更好的AI能力和降低企业投资AI技术的费用。
