合成数据浪潮,微软开源AgentInstruct,平均提升20%!

ClickHouse微服务Service Mesh

微软研究院最新发表的《 AgentInstruct: Toward Generative Teaching with Agentic Flows》 引起了不小的轰动,这是其 Orca 系列论文中的第三篇,前几篇分别为:

  • Orca 1: Progressive Learning from Complex Explanation Traces of GPT-4
  • Orca 2: Teaching Small Language Models How to Reason
  • Orca Math: Unlocking the potential of SLMs in Grade School Math

最新的这个AgentInstruct,跟去年的《 Agent Instructs Large Language Models to be General Zero-Shot Reasoners》 工作不是一个东西,不要混淆了噢~

今年FineWeb 、 Apple 的 Rephrasing ,基本上证明了训练前和训练后的数据集质量可以大幅度提升,而数据集的质量直接关系到模型的性能和准确度。最近的很多研究,开始转向改进合成数据集的生成,以扩展已有的数据。

核心概念是,原始非结构化文档,由扮演不同角色的多个Agent进行转换,以提供多样性(17 种功能),然后由更多Agent来生成和完善的指令。AgentInstruct 在所有基准测试中将 7B (Orca-3) 模型改进了约 20%,并在 RAG 上达到了 GPT-4 的水准。

picture.image

大概的一个流程,就跟上图下半部分一样:

  1. 数据收集:从各种来源收集原始非结构化文本文档和源代码文件。
  2. 内容转换流程:使用专门的Agent来转换和改进原始数据的格式和质量,以生成指令内容,例如,将原始文本转换为会议文本或技术文档。
  3. 种子指令生成流程:多个Agent采用转换后的种子并根据预定义的指令类型分类生成不同的指令。例如,在阅读理解领域,分类包括 43 个问题类型,从字面理解到批判性分析和推理。
  4. 指令细化流程:通过suggester - editor Agent (提出增加指令复杂性的方法 -> 相应地修改指令)迭代细化,提高生成指令的质量和复杂性。

从这个pipeline中产生了 2200 万条指令,这些指令与之前 Orca 论文中的 380 万条指令相结合,形成了“Orca 2.5” - 作者用来微调 Mistral 7b 的 2580 万条指令合成数据集,以生成他们报告的结果:AGIEval +40%,MMLU +19%;在 GSM8K 上+54%; BBH +38%; +45% AlpacaEval,总结任务的幻觉减少 31.34%

看起来很贵?但是前不久,腾讯的工作中,提到他们创造了10亿个角色,如下图,相比于FineWeb这些工作应该会更贵更废时间,但是大佬们证明了确实能work~

picture.image

PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!

欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!

最新文章推荐阅读

RAG全景图:从RAG启蒙到高级RAG之36技,再到终章Agentic RAG!

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎AB测试总体经济影响
为充分了解火山引擎A/B测试平台为企业带来的潜在投资回报,火山引擎委托Forrester Consulting使用总 体经济影响(TEI)模型进行对其A/B测试产品潜在的投资回报率(ROI)进行评估分析。该研究的目的是为了给读者提供火山引擎A/B测试产品带来潜在财务影响评估的参考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论