“ 30b左右算是笔者比较喜欢的尺寸了,70b左右的部署太费劲了,13b的模型处于一个尴尬地位,很多时候比7B好不了太多,但是又不具备太强的推理能力。
“ Yi-34b还没玩多久,这个模型全方面碾压Yi 34B,根本玩不过来。第一映像,能在hf的榜上刷到第二,应该还是很有实力的。
?
https://huggingface.co/SUSTech/SUS-Chat-34B
SUS-Chat是一款双语中英文对话模型,由南方科技大学和 IDEA-CCNL联合发布。SUS-Chat-34B模型在数百万高质量的多语言指令数据上进行了微调。在保持基础模型强大语言能力的同时,SUS-Chat-34B模型通过高质量指令微调改善了模型对人类指令的响应,并通过思维链优秀地模拟了人类思维过程。它引入了长文本中的指令间注意力共享,将窗口大小从4K扩展到8K,显著提高了多轮对话的可用性。
它在几乎所有基准测试中都超越了同等大小的所有模型,并更适合满足复杂多语言任务的实际需求。与更大的模型相比,SUS-Chat-34B仍然具有很高的竞争力,并在我们的综合评估中取得了最先进的性能。
SUS-Chat有力地证明,通过正确的指令微调,学术机构可以在不增加模型参数、使用开源数据集和模型的情况下实现更好的性能。这弥合了大型语言模型中学术界和产业界之间的差距,并为学术界和工业界之间的合作开辟了新的可能性。
为了更好地评估SUS-Chat-34B模型的性能,我们进行了多个基准测试的评估,并开源评估框架TLEM以方便其他研究人员进行复制和比较。
在TLEM中,我们利用了各种基准测试,包括MMLU、CMMLU、C-Eval、BBH、GSM-8K和MATH,重点测试了模型的知识和思考能力。在这些指标中,SUS-Chat-34B模型实现了最先进的性能。此外,我们还使用lm-eval测试了SUS-Chat和类似模型在winogrande、hellaswag、arc和truthful-qa上的常识推理能力和易受幻觉的程度。
总体而言,SUS-Chat-34B模型明显优于类似规模的模型,并实现了最先进的综合性能。
| model | mmlu-chat | cmmlu-chat | ceval-chat | gsm8k | BBH | MATH | winogrande | arc | hellaswag | truthfulqa | average |
|---|---|---|---|---|---|---|---|---|---|---|---|
| GPT-4 | 83 | 71 | 69.9 | 91.4 | 86.7 | 45.8 | 87.5 | 94.5 | 91.4 | nan | 80.1333 |
| SUS-Chat-34B | 77.35 | 78.68 | 82.42 | 80.06 | 67.62 | 28.8 | 81.22 | 81.54 | 83.79 | 57.47 | 71.895 |
| Qwen-72B-Chat | 74.52 | 77.02 | 77.22 | 76.57 | 72.63 | 35.9 | 80.58 | 81.29 | 87.02 | 50.64 | 71.339 |
| DeepSeek-67B-Chat | 69.43 | 48.51 | 59.7 | 74.45 | 69.73 | 29.56 | 76.09 | 82.1 | 86.06 | 56.37 | 65.2 |
| OrionStar-34B | 68.51 | 66.88 | 65.13 | 54.36 | 62.88 | 12.8 | 77.27 | 80.19 | 84.54 | 53.24 | 62.58 |
| Yi-34B-Chat | 66.96 | 55.16 | 77.16 | 63.76 | 61.54 | 10.02 | 76.64 | 70.66 | 82.29 | 54.57 | 61.876 |
