“ 周末提前编辑的一个cpu推理框架的文章竟然流量这么高。。为什么呢?好奇你们更感兴趣哪方面的前沿工作,可以在公众号私信留言,文档的内容方面有建议的也可以提,后面可以参考着调整策略。【才发现微信最近几年注册的公众号竟然取消文章留言功能了】
“ 另外除了本文还有另外一个工作“Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization”,一个微调策略,比lora可能效果更好一些,感兴趣的也可以看下。
https://arxiv.org/abs/2311.05741
这篇论文的核心观点是研究如何高效地将现有的预训练大型语言模型(LLM)适应到新的低资源语言,同时保持对原始语言的性能。为了实现这一目标,作者关注了两个关键问题:如何提高新语言的编码效率和如何避免灾难性遗忘。
首先,为了提高新语言的编码效率,作者提出了一种改进现有分词器的方法。具体来说,他们用目标语言中的新词汇替换掉原始分词器中的最不频繁的词汇。这样做可以在保持总词汇量不变的情况下,显著提高新语言的编码效率。
其次,为了避免灾难性遗忘,作者研究了在连续预训练和指令调整阶段使用最少量混合训练数据的方法。通过将原始语言和新语言的数据混合在一起进行训练,可以在提高新语言性能的同时保留对原始语言的性能。
在实验部分,作者将英语中心的模型适应到匈牙利语和泰语,并发现添加新词汇和混合训练数据可以在保持英语性能的同时提高新语言的性能。此外,适应后的模型在目标语言上的表现与其他开源模型相比具有更好的性能。
总之,这篇论文提出了一种有效的方法来改进分词器和混合训练数据,从而实现将预训练大型语言模型高效地适应到新的低资源语言,同时保持对原始语言的性能。