YUAN 2.0：浪潮开源基于局部过滤注意力的大语言模型 - 文章 - 开发者社区

“ 源2.0 是浪潮信息发布的新一代基础语言大模型。开源了全部的3个模型源2.0-102B，源2.0-51B和源2.0-2B。并且提供了预训练，微调，推理服务的相关脚本，以供研发人员做进一步的开发。源2.0是在源1.0的基础上，利用更多样的高质量预训练数据和指令微调数据集，令模型在语义、数学、推理、代码、知识等不同具备更强的理解能力。

“ 想吐槽的是，都2023年了，为什么还有开源模型放百度网盘的。。。


        
          
https://github.com/IEIT-Yuan/Yuan-2.0  
https://arxiv.org/ftp/arxiv/papers/2311/2311.15786.pdf

picture.image

本文介绍了一种名为YUAN 2.0的大型语言模型，其核心观点是通过引入一种新颖的局部过滤注意力（Localized Filtering-based Attention, LFA）机制来捕捉自然语言中的局部依赖关系。基于LFA，开发并发布了参数规模从21亿到1026亿不等的YUAN 2.0模型。此外，还提出了一种数据过滤和生成方法，用于构建高质量的预训练和微调数据集。最后，采用了一种非均匀流水线并行、数据并行和优化器并行的分布式训练方法，显著降低了节点间通信带宽需求，并在大规模分布式训练中取得了良好性能。与现有模型相比，YUAN 2.0在代码生成、数学问题解决和聊天方面表现出非常优秀的能力。

核心观点：YUAN 2.0的主要贡献在于提出了一种新颖的局部过滤注意力（LFA）机制，该机制通过将先验知识引入注意力中以捕捉输入序列的局部依赖关系。此外，还提出了一种数据过滤和生成方法，用于构建高质量的预训练和微调数据集。最后，采用了一种非均匀流水线并行、数据并行和优化器并行的分布式训练方法，显著降低了节点间通信带宽需求，并在大规模分布式训练中取得了良好性能。

算法原理：局部过滤注意力（LFA）通过在自注意力机制中引入两个连续的一维卷积来实现局部依赖关系的捕捉。这两个卷积具有单边一维卷积核，以防止未来标记中的信息泄露到当前标记。在每个LFA块中，一个标记与前两个标记建立关系。YUAN 2.0在LFA上进行扩展，参数规模从21亿到1026亿不等。

结论：YUAN 2.0基于局部过滤注意力（LFA）成功地开发了一种大型语言模型。通过使用高质量的预训练和微调数据集，以及采用非均匀流水线并行、数据并行和优化器并行的分布式训练方法，YUAN 2.0在代码生成、数学问题解决和聊天方面表现出令人印象深刻的能力。这些成果表明，YUAN 2.0在自然语言处理领域具有广泛的应用前景。