CLongEval:中文开/闭源大模型长上下文能力评估新榜单（包含Kimi）

大模型增长营销数据中台


        
          
https://arxiv.org/pdf/2403.03514.pdf  
https://github.com/zexuanqiu/CLongEval

CLongEval 包含了七个不同的任务，旨在全面评估长上下文LLMs在信息获取和推理方面的能力。

任务描述

长故事问答（Long Story QA, LStQA） ：

任务描述：模型需要根据长故事的片段回答相关问题。这要求模型能够识别相关片段并进行抽象推理以得出答案。

长对话记忆（Long Conversation Memory, LCvMem） ：

任务描述：评估模型在对话中保持长期记忆的能力。模型需要准确回答关于特定对话历史的细节问题。

长故事摘要（Long Story Summarization, LStSum） ：

任务描述：将长故事的内容压缩成摘要。这要求模型具备全上下文理解能力，并进行复杂推理以提炼信息。

堆叠新闻标签（Stacked News Labeling, StNLab） ：

任务描述：在单一上下文中堆叠多篇新闻文章，模型需要确定每篇新闻的类别。这要求模型仔细阅读并分析长上下文中的所有信息。

堆叠错别字检测（Stacked Typo Detection, StTDet） ：

任务描述：从给定的长输入中提取错别字。这要求模型具备全上下文理解能力以及出色的信息提取能力。

关键段落检索（Key-Passage Retrieval, KpRet） ：

任务描述：在包含多个键-段落对的JSON对象中，根据给定的键检索对应的段落。这侧重于模型的信息提取能力，而不是从定位的片段中总结答案。

表格查询（Table Querying, TblQry） ：

任务描述：在包含多个表格的上下文中，根据查询条件定位特定表格并检索值。这主要评估模型的高级上下文查询能力，而不是其复现复杂段落的能力。

评价指标

长故事问答（LStQA）和长对话记忆（LCvMem） ：

评估指标：F1 Score
计算方法：使用 unigram overlap 来衡量生成答案与参考答案之间的一致性。忽略空格和标点符号，计算生成答案与正确答案之间的精确匹配（Precision）和召回率（Recall），然后计算它们的调和平均值（F1 Score）。

长故事摘要（LStSum） ：

评估指标：ROUGE-L Score
计算方法：使用 n-gram overlap 来衡量生成摘要与参考摘要之间的一致性。ROUGE-L 是 ROUGE 系列指标之一，专注于最长公共子序列的评估。

堆叠新闻标签（StNLab）和堆叠错别字检测（StTDet） ：

评估指标：平均准确率（Average Accuracy）
计算方法：对于 StNLab，计算模型正确分类的新闻数量占总新闻数量的比例；对于 StTDet，计算模型正确识别的错别字数量占总错别字数量的比例。然后，对所有样本的平均准确率进行计算。

关键段落检索（KpRet） ：

评估指标：Edit Score
计算方法：使用基于 Levenshtein 距离的编辑分数来衡量生成字符串与参考字符串之间的差异。编辑距离考虑了插入、删除和替换操作的成本。

表格查询（TblQry） ：

评估指标：Exact Match
计算方法：检查模型生成的列值是否与参考值完全相同。如果相同，则得分为 1；否则为 0。

结果

picture.image

picture.image

picture.image

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

评论

未登录

暂无评论