一个有效让大模型跨语言/领域迁移的研究工作

智能语音交互智能体验与创作内容安全与风控

“ 周末提前编辑的一个cpu推理框架的文章竟然流量这么高。。为什么呢?好奇你们更感兴趣哪方面的前沿工作,可以在公众号私信留言,文档的内容方面有建议的也可以提,后面可以参考着调整策略。【才发现微信最近几年注册的公众号竟然取消文章留言功能了】

“ 另外除了本文还有另外一个工作“Parameter-Efficient Orthogonal Finetuning via Butterfly Factorization”,一个微调策略,比lora可能效果更好一些,感兴趣的也可以看下。


        
          
https://arxiv.org/abs/2311.05741  

      

这篇论文的核心观点是研究如何高效地将现有的预训练大型语言模型(LLM)适应到新的低资源语言,同时保持对原始语言的性能。为了实现这一目标,作者关注了两个关键问题:如何提高新语言的编码效率和如何避免灾难性遗忘。

picture.image

首先,为了提高新语言的编码效率,作者提出了一种改进现有分词器的方法。具体来说,他们用目标语言中的新词汇替换掉原始分词器中的最不频繁的词汇。这样做可以在保持总词汇量不变的情况下,显著提高新语言的编码效率。

其次,为了避免灾难性遗忘,作者研究了在连续预训练和指令调整阶段使用最少量混合训练数据的方法。通过将原始语言和新语言的数据混合在一起进行训练,可以在提高新语言性能的同时保留对原始语言的性能。

在实验部分,作者将英语中心的模型适应到匈牙利语和泰语,并发现添加新词汇和混合训练数据可以在保持英语性能的同时提高新语言的性能。此外,适应后的模型在目标语言上的表现与其他开源模型相比具有更好的性能。

总之,这篇论文提出了一种有效的方法来改进分词器和混合训练数据,从而实现将预训练大型语言模型高效地适应到新的低资源语言,同时保持对原始语言的性能。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生可观测性技术的落地实践
云原生技术和理念在近几年成为了备受关注的话题。应用通过云原生改造,变得更动态、弹性,可以更好地利用云的弹性能力。但是动态、弹性的环境也给应用以及基础设施的观测带来了更大的挑战。本次分享主要介绍了云原生社区中可观测性相关的技术和工具,以及如何使用这些工具来完成对云原生环境的观测。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论