Google开源的一个评估大模型指令遵循能力的策略（代码开源） - 文章 - 开发者社区


        
          
https://arxiv.org/pdf/2311.07911.pdf  
https://github.com/google-research/google-research/tree/master/instruction_following_eval  
# 代码咱不可访问

这篇论文介绍了一种名为IFEval（Instruction-Following Evaluation）的评估方法，用于衡量大型语言模型（LLMs）遵循自然语言指令的能力。作者提出了一类称为“可验证指令”的指令，这些指令可以被客观地验证是否得到遵循。例如，“写至少25句话”或“在回答中至少提到3次关键词AI”。 picture.image 作者确定了25种可验证指令，并构建了约500个包含一个或多个可验证指令的提示。通过专注于可验证指令，IFEval旨在使评估过程更加清晰和客观，从而实现对机器学习模型遵循指令能力的全自动、准确评估。

评估结果显示了两种市场上广泛使用的LLMs（GPT-4和PaLM 2）在各种指令类型上的表现。这些结果可以帮助研究人员了解哪些类型的指令通常不容易被遵循，并比较不同的大型语言模型在各种指令类型上的表现。

总之，IFEval是一种基于可验证指令的评估方法，用于评估大型语言模型的指令遵循能力。这种方法简单、易于重现且无偏，可以作为评估LLMs性能的一个重要指标。然而，IFEval仍有改进空间，例如增加可验证指令的多样性和数量，以及扩展到多模态应用场景。