LLMs评估综述-A Survey on Evaluation of Large Language Models

大模型智能体验与创作人工智能与算法

写在前面

大家好,我是刘聪NLP。

好久没有在公众号上发布内容啦,并不是停止了创作,只是一直在知乎上更新,懒得在复制一份。但下半年主打勤奋,准备将逐步将知乎内容进行同步。

今天刷到了一篇大型语言模型评估综述的Paper-《A Survey on Evaluation of Large Language Models》,只感叹,不仅大型语言模型卷的厉害,评估体系也是同步在卷。

个人觉得这是个好事情,不同评估系统侧重点不用,可以充分挖掘LLM的潜在能力,从多种角度来分析LLM的优劣,但请不要以打榜为目的来训练LLM。


          
Paper: https://arxiv.org/pdf/2307.03109.pdf  
Github: https://github.com/MLGroupJLU/LLM-eval-survey  

      

该篇综述主要汇总了大型语言模型在进行评估时,一般评估什么内容、在哪儿进行评估和如何评估。下面内容均参考该论文的Github,并且作者也表示会持续更新,请感兴趣的同学同步关注。

picture.image

评估什么内容

Natural language processing

「自然语言理解」

picture.image 「推理」 picture.image 「自然语言生成」 picture.image picture.image 「多语言任务」 picture.image 「事实性」 picture.image

Robustness, ethics, biases, and trustworthiness

「鲁棒性」 picture.image 「伦理与偏见」 picture.image 「可信性」 picture.image

Social science

picture.image

Natural science and engineering

「数学」 picture.image 「科学」 picture.image 「工程」 picture.image

Medical application

「医学问答」 picture.image 「医学考试」 picture.image 「医学教育」 picture.image 「医学助手」 picture.image

Agent applications

picture.image

Other applications

「教育」 picture.image 「搜索推荐」 picture.image 「性格测试」 picture.image 「其他任务」 picture.image

去哪儿进行评估

picture.image

如何进行评估

自动评估

picture.image

人工评估

picture.image

请多多关注 知乎「刘聪NLP」 ,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生环境下的日志采集存储分析实践
云原生场景下,日志数据的规模和种类剧增,日志采集、加工、分析的多样性也大大增加。面对这些挑战,火山引擎基于超大规模下的 Kubernetes 日志实践孵化出了一套完整的日志采集、加工、查询、分析、消费的平台。本次主要分享了火山引擎云原生日志平台的相关实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论