Intel开源的一个CPU高效推理大模型的框架 - 文章 - 开发者社区

“ 11.01的文章，这2天arxiv挂的没感兴趣的。


        
          
https://arxiv.org/pdf/2311.00502v1.pdf  
https://github.com/intel/intel-extension-for-transformers

这篇论文的核心观点是提出了一种在CPU上高效部署大型语言模型（LLM）的方法，包括自动INT4量化流程和高效的LLM运行时。

picture.image

首先，作者提出了一个自动INT4量化流程，利用Intel神经压缩器支持的主流INT4量化方法（如GPTQ、SignRound、AWQ、TEQ等），自动生成INT4模型。这些量化方法可以减少模型参数的数值精度，从而降低推理计算成本，同时保持较高的模型准确性。

其次，作者设计了一个高效的LLM运行时，该运行时基于专为CPU优化的张量库，支持各种指令集（如AVX2、AVX512、AVX512_VNNI和AMX）。此外，针对LLM推理的特点，作者还对KV缓存进行了优化，以提高推理性能。

实验结果表明，所提出的方法在多个流行的大型语言模型（如Llama2、Llama、GPT-NeoX等）上具有广泛的适用性，并在CPU上展示了极高的推理效率。与现有的开源解决方案相比，所提出的方法在每个令牌生成的平均延迟方面具有显著优势。

总之，这篇论文提出了一种在CPU上高效部署大型语言模型的方法，包括自动INT4量化和高效LLM运行时。实验结果表明，该方法在多个流行的大型语言模型上具有广泛的适用性，并在CPU上展示了极高的推理效率。未来工作将进一步优化CPU张量库，并扩展Hugging Face Transformer API以支持INT4 LLM推理。