大模型排行榜链接地址为:https://huggingface.co/spaces/HuggingFaceH4/open\_llm\_leaderboard
随着大量的大型语言模型(LLMs)和聊天机器人每周都在发布,它们常常大肆宣扬自己的性能,要从中筛选出开源社区所取得的真正进步,以及哪个模型是当前的最新技术,这可能会很困难。🤗开放LLM排行榜旨在跟踪、排名和评估发布的LLM和聊天机器人。我们使用 Eleuther AI Language Model Evaluation Harness[1] 中的4个关键基准来评估模型,这是一个统一框架,用于在大量不同的评估任务上测试生成性语言模型。该排行榜的一个主要优点是,只要是在Hub上有权重的🤗Transformers模型,社区中的任何人都可以提交一个模型进行在🤗GPU集群上的自动评估。我们还支持对具有delta权重的非商业许可模型(如LLaMa)进行评估。
评估是针对4个流行的基准进行的:
•AI2 Reasoning Challenge[2](25-shot)- 一套小学科学问题。 •HellaSwag[3](10-shot)- 一个测试常识推理的测试,对人类来说很容易(~95%),但对最先进的模型来说却具有挑战性。 •MMLU[4](5-shot)- 一个测试文本模型的多任务准确性的测试。测试覆盖57个任务,包括基础数学、美国历史、计算机科学、法律等。 •Truthful QA MC[5](0-shot)- 一个测试语言模型在生成问题答案时是否真实的基准。
我们选择这些基准,因为它们在0次shot和少数shot的设置中测试了一系列推理和普遍知识,涵盖了各种领域。
在人工智能领域,"shot"这个词通常是用在"few-shot learning"或者"zero-shot learning"等概念中。这些都是指的是机器学习的模型训练方法。
•"Zero-shot learning",也就是零样本学习,是指的是让模型在没有接触过某种类别的数据的情况下,通过学习其他类别的数据,推理出这个未知类别的数据的特性。这是一种机器学习方法,其目标是让模型能够理解和处理它在训练过程中从未见过的类别。这通常通过在模型训练过程中引入和利用一些形式的辅助信息(例如类别之间的关系)来实现。 •"Few-shot learning",也就是少样本学习,是指的是让模型在只接触过少量某种类别的数据的情况下,学习并理解这个类别的数据的特性。
在你提供的这段文章中,"25-shot"、"10-shot"、"5-shot"、"0-shot"就是指的是在这些评估任务中,模型接触的示例数据的数量。例如,"25-shot"就是说模型在进行"AI2 Reasoning Challenge"这个评估任务时,会接触到25个示例数据。
| Model | Revision | Average ⬆️ | ARC (25-shot) ⬆️ | HellaSwag (10-shot) ⬆️ | MMLU (5-shot) ⬆️ | TruthQA (0-shot) ⬆️ | | llama-65b[6] | main | 58.3 | 57.8 | 84.2 | 48.8 | 42.3 | | llama-30b[7] | main | 56.9 | 57.1 | 82.6 | 45.7 | 42.3 | | stable-vicuna-13b[8] | main | 52.4 | 48.1 | 76.4 | 38.8 | 46.5 | | llama-13b[9] | main | 51.8 | 50.8 | 78.9 | 37.7 | 39.9 | | alpaca-13b[10] | main | 51.7 | 51.9 | 77.6 | 37.6 | 39.6 | | llama-7b[11] | main | 47.6 | 46.6 | 75.6 | 34.2 | 34.1 | | EleutherAI/gpt-neox-20b[12] | main | 45.9 | 45.2 | 73.4 | 33.3 | 31.7 | | togethercomputer/RedPajama-INCITE-Base-7B-v0.1[13] | main | 45.7 | 44.4 | 71.3 | 34 | 33.2 | | togethercomputer/RedPajama-INCITE-Base-3B-v1[14] | main | 42.2 | 40.2 | 64.7 | 30.6 | 33.2 | | Salesforce/codegen-16B-multi[15] | main | 39.2 | 33.6 | 51.2 | 28.9 | 43.3 | | facebook/opt-1.3b[16] | main | 37.7 | 29.6 | 54.6 | 27.7 | 38.7 | | gpt2-medium[17] | main | 33.8 | 27.2 | 40.2 | 27 | 40.7 | | facebook/opt-350m[18] | main | 32.2 | 23.6 | 36.7 | 27.3 | 41 | | facebook/opt-125m[19] | main | 31.2 | 23.1 | 31.5 | 27.4 | 42.9 | | gpt2[20] | main | 30.4 | 21.9 | 31.6 | 27.5 | 40.7 | | distilgpt2[21] | main | 30.2 | 22.2 | 27.5 | 26.8 | 44.5 | | Aeala/GPT4-x-AlpacaDente2-30b[22] | main | 26.3 | 56.1 | | | 49.1 | | nomic-ai/gpt4all-j[23] | main | 21.7 | 41.2 | | | 45.6 | | wordcab/llama-natural-instructions-13b[24] | main | 21.4 | 48 | | | 37.7 | | chainyo/alpaca-lora-7b[25] | main | 21 | 45.5 | | | 38.7 | | databricks/dolly-v2-7b[26] | main | 19.6 | 43.7 | | | 34.5 | | chavinlo/gpt4-x-alpaca[27] | main | 12.4 | | | | 49.7 | | digitous/Alpacino30b[28] | main | 11 | | | | 43.8 | | stabilityai/stablelm-tuned-alpha-7b[29] | main | 10 | | | | 40.2 |
除了以上图片中包含的模型外,你也可以提交新模型到评估队列中来进行评估,提交后会自动进行评估。
中文领域也有很多比较优秀的大模型,比如ChatGLM和ChatLLM、和一些基于LLaMA微调的模型,比如基于中文医学知识的LLaMA模型Huatuo-Llama-Med-Chinese,后面会陆续介绍这些模型的应用,请持续关注。
另外,如果对大模型感兴趣,想知道更多开源大模型的信息,还有一个地址可以关注:https://github.com/eugeneyan/open-llms
References
[1]
Eleuther AI Language Model Evaluation Harness: https://github.com/EleutherAI/lm-evaluation-harness
[2]
AI2 Reasoning Challenge: https://arxiv.org/abs/1803.05457
[3]
HellaSwag: https://arxiv.org/abs/1905.07830
[4]
MMLU: https://arxiv.org/abs/2009.03300
[5]
Truthful QA MC: https://arxiv.org/abs/2109.07958
[6]
llama-65b: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
[7]
llama-30b: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
[8]
stable-vicuna-13b: https://huggingface.co/CarperAI/stable-vicuna-13b-delta
[9]
llama-13b: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
[10]
alpaca-13b: https://crfm.stanford.edu/2023/03/13/alpaca.html
[11]
llama-7b: https://ai.facebook.com/blog/large-language-model-llama-meta-ai/
[12]
EleutherAI/gpt-neox-20b: https://huggingface.co/EleutherAI/gpt-neox-20b
[13]
togethercomputer/RedPajama-INCITE-Base-7B-v0.1: https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-7B-v0.1
[14]
togethercomputer/RedPajama-INCITE-Base-3B-v1: https://huggingface.co/togethercomputer/RedPajama-INCITE-Base-3B-v1
[15]
Salesforce/codegen-16B-multi: https://huggingface.co/Salesforce/codegen-16B-multi
[16]
facebook/opt-1.3b: https://huggingface.co/facebook/opt-1.3b
[17]
gpt2-medium: https://huggingface.co/gpt2-medium
[18]
facebook/opt-350m: https://huggingface.co/facebook/opt-350m
[19]
facebook/opt-125m: https://huggingface.co/facebook/opt-125m
[20]
gpt2: https://huggingface.co/gpt2
[21]
distilgpt2: https://huggingface.co/distilgpt2
[22]
Aeala/GPT4-x-AlpacaDente2-30b: https://huggingface.co/Aeala/GPT4-x-AlpacaDente2-30b
[23]
nomic-ai/gpt4all-j: https://huggingface.co/nomic-ai/gpt4all-j
[24]
wordcab/llama-natural-instructions-13b: https://huggingface.co/wordcab/llama-natural-instructions-13b
[25]
chainyo/alpaca-lora-7b: https://huggingface.co/chainyo/alpaca-lora-7b
[26]
databricks/dolly-v2-7b: https://huggingface.co/databricks/dolly-v2-7b
[27]
chavinlo/gpt4-x-alpaca: https://huggingface.co/chavinlo/gpt4-x-alpaca
[28]
digitous/Alpacino30b: https://huggingface.co/digitous/Alpacino30b
[29]
stabilityai/stablelm-tuned-alpha-7b: https://huggingface.co/stabilityai/stablelm-tuned-alpha-7b