34B最新中英双语模型:Open LLM Leaderboard 排第二名(评测碾压Yi-34B,仅次于GPT4)

“ 30b左右算是笔者比较喜欢的尺寸了,70b左右的部署太费劲了,13b的模型处于一个尴尬地位,很多时候比7B好不了太多,但是又不具备太强的推理能力。

“ Yi-34b还没玩多久,这个模型全方面碾压Yi 34B,根本玩不过来。第一映像,能在hf的榜上刷到第二,应该还是很有实力的。


        ?
          
https://huggingface.co/SUSTech/SUS-Chat-34B  

      

picture.image

SUS-Chat是一款双语中英文对话模型,由南方科技大学和 IDEA-CCNL联合发布。SUS-Chat-34B模型在数百万高质量的多语言指令数据上进行了微调。在保持基础模型强大语言能力的同时,SUS-Chat-34B模型通过高质量指令微调改善了模型对人类指令的响应,并通过思维链优秀地模拟了人类思维过程。它引入了长文本中的指令间注意力共享,将窗口大小从4K扩展到8K,显著提高了多轮对话的可用性。

它在几乎所有基准测试中都超越了同等大小的所有模型,并更适合满足复杂多语言任务的实际需求。与更大的模型相比,SUS-Chat-34B仍然具有很高的竞争力,并在我们的综合评估中取得了最先进的性能。

SUS-Chat有力地证明,通过正确的指令微调,学术机构可以在不增加模型参数、使用开源数据集和模型的情况下实现更好的性能。这弥合了大型语言模型中学术界和产业界之间的差距,并为学术界和工业界之间的合作开辟了新的可能性。

performance

为了更好地评估SUS-Chat-34B模型的性能,我们进行了多个基准测试的评估,并开源评估框架TLEM以方便其他研究人员进行复制和比较。

在TLEM中,我们利用了各种基准测试,包括MMLU、CMMLU、C-Eval、BBH、GSM-8K和MATH,重点测试了模型的知识和思考能力。在这些指标中,SUS-Chat-34B模型实现了最先进的性能。此外,我们还使用lm-eval测试了SUS-Chat和类似模型在winogrande、hellaswag、arc和truthful-qa上的常识推理能力和易受幻觉的程度。

总体而言,SUS-Chat-34B模型明显优于类似规模的模型,并实现了最先进的综合性能。

modelmmlu-chatcmmlu-chatceval-chatgsm8kBBHMATHwinograndearchellaswagtruthfulqaaverage
GPT-4837169.991.486.745.887.594.591.4nan80.1333
SUS-Chat-34B77.3578.6882.4280.0667.6228.881.2281.5483.7957.4771.895
Qwen-72B-Chat74.5277.0277.2276.5772.6335.980.5881.2987.0250.6471.339
DeepSeek-67B-Chat69.4348.5159.774.4569.7329.5676.0982.186.0656.3765.2
OrionStar-34B68.5166.8865.1354.3662.8812.877.2780.1984.5453.2462.58
Yi-34B-Chat66.9655.1677.1663.7661.5410.0276.6470.6682.2954.5761.876

picture.image

可商用
0
0
0
0
评论
未登录
暂无评论