FP8-LM: 微软开源的一个基于FP8训练大模型的框架 - 文章 - 开发者社区

“ 之前的选文还是有一些滞后，后面尽可能保证3天内的文章把，除非真是找不到好玩的，就随缘发了。另外今天的模型换成了gpt4。。。


        
          
https://arxiv.org/pdf/2310.18313.pdf  
https://github.com/Azure/MS-AMP

本文提出了一种使用FP8低位数据格式训练大语言模型（LLMs）的新框架，可以显著降低这些模型的训练成本。这项工作的核心论断和含义是：

picture.image

所提出的FP8框架的机制涉及三个优化级别

FP8梯度和全局规约通信：作者提出了一种自动缩放技术，以防止梯度通信过程中的下溢和上溢问题。这种方法涉及使用共享缩放因子将梯度量化为FP8格式跨GPU，从而减少GPU内存使用和通信带宽消耗。
FP8优化器：作者引入了一种精度解耦技术，确定哪些优化器变量可以使用较低精度而不影响准确性。他们发现一阶梯度矩可以容忍高量化误差，并且可以分配低精度FP8，而二阶矩需要更高的精度。主权重使用FP16存储，并进行张量缩放以节省内存而不影响准确性。
FP8分布式并行训练：作者为包括张量、管道和序列并行性在内的流行并行计算范例提供了FP8支持。这使得利用FP8有效地训练大型基础模型成为可能。

简单来说，这项研究提出了一个新的框架，使用一种称为FP8的8位数据格式更有效地训练大型语言模型(LLMs)。LLMs是强大的AI模型，可以理解和生成类似人类的文本，但需要大量的计算资源进行训练，这是昂贵的。

所提出的FP8框架显著降低了内存使用量并加速了训练过程，与现有方法相比，不会影响模型的准确性。这意味着公司可以以更低的成本训练更大、更强大的AI模型，使得更多企业能够利用先进的AI技术带来的好处并负担得起。

总之，这个FP8框架使得大型语言模型的训练更快、更具成本效益，这可以带来更好的AI能力和降低企业投资AI技术的费用。