34B最新中英双语模型：Open LLM Leaderboard 排第二名（评测碾压Yi-34B，仅次于GPT4） - 文章 - 开发者社区

“ 30b左右算是笔者比较喜欢的尺寸了，70b左右的部署太费劲了，13b的模型处于一个尴尬地位，很多时候比7B好不了太多，但是又不具备太强的推理能力。

“ Yi-34b还没玩多久，这个模型全方面碾压Yi 34B，根本玩不过来。第一映像，能在hf的榜上刷到第二，应该还是很有实力的。


        ？
          
https://huggingface.co/SUSTech/SUS-Chat-34B

picture.image

SUS-Chat是一款双语中英文对话模型，由南方科技大学和 IDEA-CCNL联合发布。SUS-Chat-34B模型在数百万高质量的多语言指令数据上进行了微调。在保持基础模型强大语言能力的同时，SUS-Chat-34B模型通过高质量指令微调改善了模型对人类指令的响应，并通过思维链优秀地模拟了人类思维过程。它引入了长文本中的指令间注意力共享，将窗口大小从4K扩展到8K，显著提高了多轮对话的可用性。

它在几乎所有基准测试中都超越了同等大小的所有模型，并更适合满足复杂多语言任务的实际需求。与更大的模型相比，SUS-Chat-34B仍然具有很高的竞争力，并在我们的综合评估中取得了最先进的性能。

SUS-Chat有力地证明，通过正确的指令微调，学术机构可以在不增加模型参数、使用开源数据集和模型的情况下实现更好的性能。这弥合了大型语言模型中学术界和产业界之间的差距，并为学术界和工业界之间的合作开辟了新的可能性。

performance

为了更好地评估SUS-Chat-34B模型的性能，我们进行了多个基准测试的评估，并开源评估框架TLEM以方便其他研究人员进行复制和比较。

在TLEM中，我们利用了各种基准测试，包括MMLU、CMMLU、C-Eval、BBH、GSM-8K和MATH，重点测试了模型的知识和思考能力。在这些指标中，SUS-Chat-34B模型实现了最先进的性能。此外，我们还使用lm-eval测试了SUS-Chat和类似模型在winogrande、hellaswag、arc和truthful-qa上的常识推理能力和易受幻觉的程度。

总体而言，SUS-Chat-34B模型明显优于类似规模的模型，并实现了最先进的综合性能。

model	mmlu-chat	cmmlu-chat	ceval-chat	gsm8k	BBH	MATH	winogrande	arc	hellaswag	truthfulqa	average
GPT-4	83	71	69.9	91.4	86.7	45.8	87.5	94.5	91.4	nan	80.1333
SUS-Chat-34B	77.35	78.68	82.42	80.06	67.62	28.8	81.22	81.54	83.79	57.47	71.895
Qwen-72B-Chat	74.52	77.02	77.22	76.57	72.63	35.9	80.58	81.29	87.02	50.64	71.339
DeepSeek-67B-Chat	69.43	48.51	59.7	74.45	69.73	29.56	76.09	82.1	86.06	56.37	65.2
OrionStar-34B	68.51	66.88	65.13	54.36	62.88	12.8	77.27	80.19	84.54	53.24	62.58
Yi-34B-Chat	66.96	55.16	77.16	63.76	61.54	10.02	76.64	70.66	82.29	54.57	61.876

picture.image

可商用