“ 昨天比较热门的是一个3D展示大模型的demo, 一步一步展示gpt是怎么工作的,而且写的很详细。地址在下链接
https://bbycroft.net/llm
“ 整体上没什么需要关注的文章,挂个综述上来,讲的东西超级多,覆盖了十几个知识点,引用了几百篇文章。
https://arxiv.org/pdf/2312.00678.pdf
https://github.com/tding1/Efficient-LLM-Survey
论文从多个方面探讨了影响LLMs效率的关键因素,包括数据利用、架构设计、训练和调优策略以及推理技术。首先,作者介绍了预测方法如scaling laws在优化LLMs性能方面的作用。接下来,论文重点讨论了如何优化数据利用,以减少资源消耗而不影响性能。此外,文章还详细探讨了架构设计如何影响效率,并讨论了从头开始训练LLMs和微调预训练模型的策略。最后,作者探讨了加速推理速度和减小内存占用的模型压缩技术。
主要内容:文章介绍了各种与LLMs效率相关的算法,包括伸缩定律、数据过滤、主动学习、重要性采样、课程学习、高效注意力机制、高效位置编码、稀疏建模、可扩展训练、混合精度训练、并行技术、内存优化、可扩展调优、参数高效微调和数据高效微调等。
结论:本文总结了关于LLMs效率的研究,并讨论了它们对于推动高效LLMs发展的更意义。通过全面审视影响LLMs效率的多个方面,研究人员可以更好地理解如何优化这些模型,从而使其在计算和内存需求方面更加高效。这将有助于推动LLMs在各种领域的应用,同时减轻其对环境和资源的影响。
