大模型潜力进一步被发掘,合成数据的研究上大分!

最近看了好几个合成数据,提高大模型能力的研究工作,感觉这方面还挺有意思的,后面有空写一个长一点的内容。今天分享一个通过合成数据进行微调来提高LLMs中的检索能力的研究。

已知问题,LLMs在处理长上下文输入时难以准确检索信息并保持推理能力。本文提出了一种微调方法,利用合成数据集。在 GPT-3.5 Turbo 和 Mistral 7B 等模型上的实验表明,在此数据集上进行微调 LLMs 可以显著提高 LLMs 在长上下文中的信息检索和推理能力。

论文地址如下:


        
          
https://arxiv.org/pdf/2406.19292  

      

数据集构造:

合成的用于微调模型的数据集,一共由2个任务构成 1)简单字典键值检索和 2)多子键字典键值检索。

举个例子,下图使用wx图片翻译,所以可能翻译存在错误。多子键字典键值检索也类似,就是字典的key会有重叠

picture.image

答案使用的固定模板,因为发现固定的模板,格式部分的损失就很小。这让模型能够专注于重要部分并学习正确的技能,而不是如何回答问题。对比如下图,红色表示损失高,绿色表示损失低

picture.image

实验部分

数据集由 350 个简单字典键值检索任务的样本组成。每个任务有 85 个字典,每个字典有 3 到 4 个键,因此每个提示大约有 3900 个标记。

下图左gpt3.5的位置bias比较经典。在20个文档的MDQA上结果来看,可以发现1)对合成键值检索任务进行微调 LLMs 可以提高其在实际检索任务中的性能,从而证明学习能力的有效迁移。2)合成数据也比 MDQA 训练数据微调达到更好的效果。

picture.image

下图为测试模型的长上下文推理能力,可以发现 1)在合成键值检索任务上微调 LLMs 可以提高 LLMs 的长上下文推理能力,即使不允许显式的思想链推理。2)LLMs 使用答案模板对综合任务进行微调效果更好。

picture.image

下图为评测一般能力,可以发现 1)对合成键值检索任务进行微调 LLMs 不会损害模型的一般功能。picture.image

最后

文中还有跟别的基准对比,总的来说,合成数据的未来值得期待。不仅可以克服大模型的 lost-in-the-middle的情况,还能保持通用基准的效果。

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

0
0
0
0
评论
未登录
暂无评论