大模型潜力进一步被发掘，合成数据的研究上大分！ - 文章 - 开发者社区

最近看了好几个合成数据，提高大模型能力的研究工作，感觉这方面还挺有意思的，后面有空写一个长一点的内容。今天分享一个通过合成数据进行微调来提高LLMs中的检索能力的研究。

已知问题，LLMs在处理长上下文输入时难以准确检索信息并保持推理能力。本文提出了一种微调方法，利用合成数据集。在 GPT-3.5 Turbo 和 Mistral 7B 等模型上的实验表明，在此数据集上进行微调 LLMs 可以显著提高 LLMs 在长上下文中的信息检索和推理能力。

论文地址如下：


        
          
https://arxiv.org/pdf/2406.19292

数据集构造：

合成的用于微调模型的数据集，一共由2个任务构成 1）简单字典键值检索和 2）多子键字典键值检索。

举个例子，下图使用wx图片翻译，所以可能翻译存在错误。多子键字典键值检索也类似，就是字典的key会有重叠

picture.image

答案使用的固定模板，因为发现固定的模板，格式部分的损失就很小。这让模型能够专注于重要部分并学习正确的技能，而不是如何回答问题。对比如下图，红色表示损失高，绿色表示损失低

picture.image

数据集由 350 个简单字典键值检索任务的样本组成。每个任务有 85 个字典，每个字典有 3 到 4 个键，因此每个提示大约有 3900 个标记。

下图左gpt3.5的位置bias比较经典。在20个文档的MDQA上结果来看，可以发现1）对合成键值检索任务进行微调 LLMs 可以提高其在实际检索任务中的性能，从而证明学习能力的有效迁移。2）合成数据也比 MDQA 训练数据微调达到更好的效果。

picture.image

下图为测试模型的长上下文推理能力，可以发现 1）在合成键值检索任务上微调 LLMs 可以提高 LLMs 的长上下文推理能力，即使不允许显式的思想链推理。2）LLMs 使用答案模板对综合任务进行微调效果更好。

picture.image

下图为评测一般能力，可以发现 1）对合成键值检索任务进行微调 LLMs 不会损害模型的一般功能。 picture.image

文中还有跟别的基准对比，总的来说，合成数据的未来值得期待。不仅可以克服大模型的 lost-in-the-middle的情况，还能保持通用基准的效果。

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注 是我坚持的最大动力！

欢迎多多关注公众号「NLP前沿」，加入交流群，交个朋友吧，一起学习，一起进步！