惊艳！开源LLM对齐数据构造方案，13B参数轻松媲美Qwen110B推理性能，高质量对齐数据信手拈来！ - 文章 - 开发者社区

论文标题：MAmmoTH2: Scaling Instructions from the Web MAmmoTH2

文章出发点：一个从网络数据中构造sft训练数据的pipeline，并且基于此数据，获得了非常优异的效果。


        
          
https://arxiv.org/html/2405.03548v3  
https://tiger-ai-lab.github.io/MAmmoTH2/  
https://huggingface.co/datasets/TIGER-Lab/WebInstructSub  
https://huggingface.co/datasets/TIGER-Lab/WebInstructSub

总的步骤为3步：

picture.image

(1) 召回步骤

通过爬取多个测验网站来创建多样化的种子数据集。使用这些种子数据来训练 fastText 模型，并使用它来召回 Common Crawl 中的文档。然后使用 GPT-4 用对 root URL 来筛选过滤。通过这一步获得了18M的文档。

(2) 提取步骤

利用像 Mixtral 这样的开源 LLMs 从这些文档中提取 Q-A 对，产生大约 500 万个候选 Q-A 对。

(3)提炼步骤

进一步采用Mixtral-8 × 7B 和Qwen-72B 进行精炼这些候选问答对。此细化操作旨在删除不相关的内容、修复形式并向候选问答对添加缺失的解释。这种细化操作对于保持所挖掘的 Q-A 对的质量至关重要。

最终，通过这些步骤总共收获了 10M 个指令-响应对。与现有的指令调整数据集不同，数据集 WebInstruct 纯粹是从网络中挖掘的，没有任何人工众包或 GPT-4 蒸馏。

实验结果：

picture.image