一个关于大模型全流程效率（数据、训练、推理、架构等）的综述 - 文章 - 开发者社区

“ 昨天比较热门的是一个3D展示大模型的demo, 一步一步展示gpt是怎么工作的，而且写的很详细。地址在下链接


        
          
https://bbycroft.net/llm

“ 整体上没什么需要关注的文章，挂个综述上来，讲的东西超级多，覆盖了十几个知识点，引用了几百篇文章。


        
          
https://arxiv.org/pdf/2312.00678.pdf  
https://github.com/tding1/Efficient-LLM-Survey

picture.image

论文从多个方面探讨了影响LLMs效率的关键因素，包括数据利用、架构设计、训练和调优策略以及推理技术。首先，作者介绍了预测方法如scaling laws在优化LLMs性能方面的作用。接下来，论文重点讨论了如何优化数据利用，以减少资源消耗而不影响性能。此外，文章还详细探讨了架构设计如何影响效率，并讨论了从头开始训练LLMs和微调预训练模型的策略。最后，作者探讨了加速推理速度和减小内存占用的模型压缩技术。

主要内容：文章介绍了各种与LLMs效率相关的算法，包括伸缩定律、数据过滤、主动学习、重要性采样、课程学习、高效注意力机制、高效位置编码、稀疏建模、可扩展训练、混合精度训练、并行技术、内存优化、可扩展调优、参数高效微调和数据高效微调等。

结论：本文总结了关于LLMs效率的研究，并讨论了它们对于推动高效LLMs发展的更意义。通过全面审视影响LLMs效率的多个方面，研究人员可以更好地理解如何优化这些模型，从而使其在计算和内存需求方面更加高效。这将有助于推动LLMs在各种领域的应用，同时减轻其对环境和资源的影响。