“ 11.01的文章,这2天arxiv挂的没感兴趣的。
https://arxiv.org/pdf/2311.00502v1.pdf
https://github.com/intel/intel-extension-for-transformers
这篇论文的核心观点是提出了一种在CPU上高效部署大型语言模型(LLM)的方法,包括自动INT4量化流程和高效的LLM运行时。
首先,作者提出了一个自动INT4量化流程,利用Intel神经压缩器支持的主流INT4量化方法(如GPTQ、SignRound、AWQ、TEQ等),自动生成INT4模型。这些量化方法可以减少模型参数的数值精度,从而降低推理计算成本,同时保持较高的模型准确性。
其次,作者设计了一个高效的LLM运行时,该运行时基于专为CPU优化的张量库,支持各种指令集(如AVX2、AVX512、AVX512_VNNI和AMX)。此外,针对LLM推理的特点,作者还对KV缓存进行了优化,以提高推理性能。
实验结果表明,所提出的方法在多个流行的大型语言模型(如Llama2、Llama、GPT-NeoX等)上具有广泛的适用性,并在CPU上展示了极高的推理效率。与现有的开源解决方案相比,所提出的方法在每个令牌生成的平均延迟方面具有显著优势。
总之,这篇论文提出了一种在CPU上高效部署大型语言模型的方法,包括自动INT4量化和高效LLM运行时。实验结果表明,该方法在多个流行的大型语言模型上具有广泛的适用性,并在CPU上展示了极高的推理效率。未来工作将进一步优化CPU张量库,并扩展Hugging Face Transformer API以支持INT4 LLM推理。