合成数据浪潮，微软开源AgentInstruct，平均提升20%！ - 文章 - 开发者社区

微软研究院最新发表的《 AgentInstruct: Toward Generative Teaching with Agentic Flows》引起了不小的轰动，这是其 Orca 系列论文中的第三篇，前几篇分别为：

Orca 1: Progressive Learning from Complex Explanation Traces of GPT-4
Orca 2: Teaching Small Language Models How to Reason
Orca Math: Unlocking the potential of SLMs in Grade School Math

最新的这个AgentInstruct，跟去年的《 Agent Instructs Large Language Models to be General Zero-Shot Reasoners》工作不是一个东西，不要混淆了噢~

今年FineWeb 、 Apple 的 Rephrasing ，基本上证明了训练前和训练后的数据集质量可以大幅度提升，而数据集的质量直接关系到模型的性能和准确度。最近的很多研究，开始转向改进合成数据集的生成，以扩展已有的数据。

核心概念是，原始非结构化文档，由扮演不同角色的多个Agent进行转换，以提供多样性（17 种功能），然后由更多Agent来生成和完善的指令。AgentInstruct 在所有基准测试中将 7B (Orca-3) 模型改进了约 20%，并在 RAG 上达到了 GPT-4 的水准。

picture.image

大概的一个流程，就跟上图下半部分一样：

数据收集：从各种来源收集原始非结构化文本文档和源代码文件。
内容转换流程：使用专门的Agent来转换和改进原始数据的格式和质量，以生成指令内容，例如，将原始文本转换为会议文本或技术文档。
种子指令生成流程：多个Agent采用转换后的种子并根据预定义的指令类型分类生成不同的指令。例如，在阅读理解领域，分类包括 43 个问题类型，从字面理解到批判性分析和推理。
指令细化流程：通过suggester - editor Agent （提出增加指令复杂性的方法 -> 相应地修改指令）迭代细化，提高生成指令的质量和复杂性。

从这个pipeline中产生了 2200 万条指令，这些指令与之前 Orca 论文中的 380 万条指令相结合，形成了“Orca 2.5” - 作者用来微调 Mistral 7b 的 2580 万条指令合成数据集，以生成他们报告的结果：AGIEval +40%，MMLU +19%；在 GSM8K 上+54%； BBH +38%； +45% AlpacaEval，总结任务的幻觉减少 31.34%

看起来很贵？但是前不久，腾讯的工作中，提到他们创造了10亿个角色，如下图，相比于FineWeb这些工作应该会更贵更废时间，但是大佬们证明了确实能work~

picture.image

PS：给公众号添加【星标⭐️】不迷路！您的点赞、在看、关注 是我坚持的最大动力！

欢迎多多关注公众号「NLP前沿」，加入交流群，交个朋友吧，一起学习，一起进步！