微软Orca系列大模型开源v2版本：教导小型语言模型进行高效推理 - 文章 - 开发者社区


        
          
https://arxiv.org/pdf/2311.11045.pdf  
https://huggingface.co/microsoft/Orca-2-13b

picture.image

这篇论文主要探讨了如何通过改进训练信号来提高小型语言模型（LM）的推理能力。研究人员发现，过度依赖模仿学习可能会限制较小模型的潜力。因此，他们试图教导小型LM采用不同的解决策略来应对不同任务，这些策略可能与大型模型所使用的策略不同。

核心观点：

教导小型LM如何使用一系列推理技巧，例如逐步处理、回忆然后生成、回忆-推理-生成、直接回答等。
帮助模型学会确定每个任务最有效的解决策略。

算法原理：

从更强大的LLM中获取各种任务的详细解释，以展示不同的推理策略。
在训练阶段，较小的模型仅暴露于任务和生成的行为，而看不到触发这种行为的原始提示。这种提示抹除技术使得Orca 2成为一个谨慎的推理者，因为它不仅学会执行特定的推理步骤，还学会在更高层次上制定如何处理特定任务的策略。

论文通过15个不同的基准测试（涵盖约100个任务和超过36,000个独特提示）来评估Orca 2。这些基准涵盖了语言理解、常识推理、多步推理、数学问题解决等方面。实验结果表明，Orca 2在类似规模的模型中表现优异，甚至达到或超过那些规模较大5-10倍的模型的性能水平，特别是在需要推理的复杂任务中。

结论：

Orca 2显著优于类似规模的模型，在复杂数字推理任务中具有与更大模型相当或更好的性能。
提高小型LM的推理能力具有巨大潜力，但它们仍受到预训练模型的限制。
通过教导较小的LM选择最有效的解决策略，可以提高它们在各种任务中的表现。