https://arxiv.org/pdf/2311.07911.pdf
https://github.com/google-research/google-research/tree/master/instruction_following_eval
# 代码咱不可访问
这篇论文介绍了一种名为IFEval(Instruction-Following Evaluation)的评估方法,用于衡量大型语言模型(LLMs)遵循自然语言指令的能力。作者提出了一类称为“可验证指令”的指令,这些指令可以被客观地验证是否得到遵循。例如,“写至少25句话”或“在回答中至少提到3次关键词AI”。作者确定了25种可验证指令,并构建了约500个包含一个或多个可验证指令的提示。通过专注于可验证指令,IFEval旨在使评估过程更加清晰和客观,从而实现对机器学习模型遵循指令能力的全自动、准确评估。
评估结果显示了两种市场上广泛使用的LLMs(GPT-4和PaLM 2)在各种指令类型上的表现。这些结果可以帮助研究人员了解哪些类型的指令通常不容易被遵循,并比较不同的大型语言模型在各种指令类型上的表现。
总之,IFEval是一种基于可验证指令的评估方法,用于评估大型语言模型的指令遵循能力。这种方法简单、易于重现且无偏,可以作为评估LLMs性能的一个重要指标。然而,IFEval仍有改进空间,例如增加可验证指令的多样性和数量,以及扩展到多模态应用场景。