惊艳!开源LLM对齐数据构造方案,13B参数轻松媲美Qwen110B推理性能,高质量对齐数据信手拈来!

人工智能与算法增长营销视频服务

论文标题:MAmmoTH2: Scaling Instructions from the Web MAmmoTH2

文章出发点:一个从网络数据中构造sft训练数据的pipeline,并且基于此数据,获得了非常优异的效果。


        
          
https://arxiv.org/html/2405.03548v3  
https://tiger-ai-lab.github.io/MAmmoTH2/  
https://huggingface.co/datasets/TIGER-Lab/WebInstructSub  
https://huggingface.co/datasets/TIGER-Lab/WebInstructSub  

      

总的步骤为3步:

picture.image

  • (1) 召回步骤

通过爬取多个测验网站来创建多样化的种子数据集。使用这些种子数据来训练 fastText 模型,并使用它来召回 Common Crawl 中的文档。然后使用 GPT-4 用对 root URL 来筛选过滤。通过这一步获得了18M的文档。

  • (2) 提取步骤

利用像 Mixtral 这样的开源 LLMs 从这些文档中提取 Q-A 对,产生大约 500 万个候选 Q-A 对。

  • (3)提炼步骤

进一步采用Mixtral-8 × 7B 和Qwen-72B 进行精炼这些候选问答对。此细化操作旨在删除不相关的内容、修复形式并向候选问答对添加缺失的解释。这种细化操作对于保持所挖掘的 Q-A 对的质量至关重要。

最终,通过这些步骤总共收获了 10M 个指令-响应对。与现有的指令调整数据集不同,数据集 WebInstruct 纯粹是从网络中挖掘的,没有任何人工众包或 GPT-4 蒸馏。

实验结果:

picture.image

这篇文章说实话,没细看,反正发第二条也没流量。因为效果特别惊艳,所以外网热度蛮高的,仅作为备忘录用。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论