微软研究院最新发表的《 AgentInstruct: Toward Generative Teaching with Agentic Flows》 引起了不小的轰动,这是其 Orca 系列论文中的第三篇,前几篇分别为:
- Orca 1: Progressive Learning from Complex Explanation Traces of GPT-4
- Orca 2: Teaching Small Language Models How to Reason
- Orca Math: Unlocking the potential of SLMs in Grade School Math
最新的这个AgentInstruct,跟去年的《 Agent Instructs Large Language Models to be General Zero-Shot Reasoners》 工作不是一个东西,不要混淆了噢~
今年FineWeb 、 Apple 的 Rephrasing ,基本上证明了训练前和训练后的数据集质量可以大幅度提升,而数据集的质量直接关系到模型的性能和准确度。最近的很多研究,开始转向改进合成数据集的生成,以扩展已有的数据。
核心概念是,原始非结构化文档,由扮演不同角色的多个Agent进行转换,以提供多样性(17 种功能),然后由更多Agent来生成和完善的指令。AgentInstruct 在所有基准测试中将 7B (Orca-3) 模型改进了约 20%,并在 RAG 上达到了 GPT-4 的水准。
大概的一个流程,就跟上图下半部分一样:
- 数据收集:从各种来源收集原始非结构化文本文档和源代码文件。
- 内容转换流程:使用专门的Agent来转换和改进原始数据的格式和质量,以生成指令内容,例如,将原始文本转换为会议文本或技术文档。
- 种子指令生成流程:多个Agent采用转换后的种子并根据预定义的指令类型分类生成不同的指令。例如,在阅读理解领域,分类包括 43 个问题类型,从字面理解到批判性分析和推理。
- 指令细化流程:通过suggester - editor Agent (提出增加指令复杂性的方法 -> 相应地修改指令)迭代细化,提高生成指令的质量和复杂性。
从这个pipeline中产生了 2200 万条指令,这些指令与之前 Orca 论文中的 380 万条指令相结合,形成了“Orca 2.5” - 作者用来微调 Mistral 7b 的 2580 万条指令合成数据集,以生成他们报告的结果:AGIEval +40%,MMLU +19%;在 GSM8K 上+54%; BBH +38%; +45% AlpacaEval,总结任务的幻觉减少 31.34%
看起来很贵?但是前不久,腾讯的工作中,提到他们创造了10亿个角色,如下图,相比于FineWeb这些工作应该会更贵更废时间,但是大佬们证明了确实能work~
PS:给公众号添加【星标⭐️】不迷路!您的点赞、在看、关注 是我坚持的最大动力!
欢迎多多关注公众号「NLP前沿」,加入交流群,交个朋友吧,一起学习,一起进步!
最新文章推荐阅读