CLongEval:中文开/闭源大模型长上下文能力评估新榜单(包含Kimi)


        
          
https://arxiv.org/pdf/2403.03514.pdf  
https://github.com/zexuanqiu/CLongEval  

      

CLongEval 包含了七个不同的任务,旨在全面评估长上下文LLMs在信息获取和推理方面的能力。

任务描述

  1. 长故事问答(Long Story QA, LStQA)
  • 任务描述:模型需要根据长故事的片段回答相关问题。这要求模型能够识别相关片段并进行抽象推理以得出答案。
  • 长对话记忆(Long Conversation Memory, LCvMem)
  • 任务描述:评估模型在对话中保持长期记忆的能力。模型需要准确回答关于特定对话历史的细节问题。
  • 长故事摘要(Long Story Summarization, LStSum)
  • 任务描述:将长故事的内容压缩成摘要。这要求模型具备全上下文理解能力,并进行复杂推理以提炼信息。
  • 堆叠新闻标签(Stacked News Labeling, StNLab)
  • 任务描述:在单一上下文中堆叠多篇新闻文章,模型需要确定每篇新闻的类别。这要求模型仔细阅读并分析长上下文中的所有信息。
  • 堆叠错别字检测(Stacked Typo Detection, StTDet)
  • 任务描述:从给定的长输入中提取错别字。这要求模型具备全上下文理解能力以及出色的信息提取能力。
  • 关键段落检索(Key-Passage Retrieval, KpRet)
  • 任务描述:在包含多个键-段落对的JSON对象中,根据给定的键检索对应的段落。这侧重于模型的信息提取能力,而不是从定位的片段中总结答案。
  • 表格查询(Table Querying, TblQry)
  • 任务描述:在包含多个表格的上下文中,根据查询条件定位特定表格并检索值。这主要评估模型的高级上下文查询能力,而不是其复现复杂段落的能力。

评价指标

  1. 长故事问答(LStQA)和长对话记忆(LCvMem)
  • 评估指标:F1 Score
  • 计算方法:使用 unigram overlap 来衡量生成答案与参考答案之间的一致性。忽略空格和标点符号,计算生成答案与正确答案之间的精确匹配(Precision)和召回率(Recall),然后计算它们的调和平均值(F1 Score)。
  • 长故事摘要(LStSum)
  • 评估指标:ROUGE-L Score
  • 计算方法:使用 n-gram overlap 来衡量生成摘要与参考摘要之间的一致性。ROUGE-L 是 ROUGE 系列指标之一,专注于最长公共子序列的评估。
  • 堆叠新闻标签(StNLab)和堆叠错别字检测(StTDet)
  • 评估指标:平均准确率(Average Accuracy)
  • 计算方法:对于 StNLab,计算模型正确分类的新闻数量占总新闻数量的比例;对于 StTDet,计算模型正确识别的错别字数量占总错别字数量的比例。然后,对所有样本的平均准确率进行计算。
  • 关键段落检索(KpRet)
  • 评估指标:Edit Score
  • 计算方法:使用基于 Levenshtein 距离的编辑分数来衡量生成字符串与参考字符串之间的差异。编辑距离考虑了插入、删除和替换操作的成本。
  • 表格查询(TblQry)
  • 评估指标:Exact Match
  • 计算方法:检查模型生成的列值是否与参考值完全相同。如果相同,则得分为 1;否则为 0。

结果

picture.image

picture.image

picture.image

0
0
0
0
评论
未登录
暂无评论