千亿大模型Qwen1.5-110B真的来了,评测效果媲美Llama3-70B!

增长营销数据迁移与工具混合云

2024.4.19-4.26真的是开源大模型爆发的几天!接连开源Meta Llama3(8B、70B)、微软Phi-3、苹果OpenELM、480B MoE Arctic(最大开源大模型)!

Llama 3刚开源就要被网友玩坏了!

小模型大获全胜:微软发布Phi-3 7B击败Llama-3 8B

LLM爆发的一周!Apple开源OpenELM(270M、450M、1.1B 和 3B)

Snowflake开源专注企业AI的大模型Arctic:480B 密集MoE,17B激活参数

今天阿里正式发布 Qwen1.5系列的首个千亿参数开源模型 :Qwen1.5-110B!

在基础能力评估中与Meta-Llama3-70B相媲美。

picture.image

Qwen1.5-110B模型在架构上与其他Qwen1.5系列模型保持一致,均采用了先进的Transformer解码器设计。该模型特别引入了分组查询注意力(Grouped Query Attention, GQA)机制,这一创新显著提升了模型在推理阶段的效率。此外,Qwen1.5-110B支持长达32,000个tokens的文本输入,这为处理更长、更复杂的文本提供了可能。在语言支持方面,Qwen1.5-110B展现了其多语言能力,能够流畅地处理包括英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语以及阿拉伯语在内的多种语言,使其成为跨语言交流和文本处理的强大工具。

Qwen1.5-110B与最近的SOTA语言模型Meta-Llama3-70B以及Mixtral-8x22B进行了比较, 基础能力方面至少与Llama-3-70B模型相媲美

picture.image

Qwen1.5-110B-Chat 在MT-Bench和AlpacaEval 2.0上进行了评估,与之前发布的72B模型相比, 110B表现显著更好,也优于Llama-3-70B-Instruct

picture.image

Qwen1.5-110B-Chat Bot Preview

镜像:https://hf-mirror.com/spaces/Qwen/Qwen1.5-110B-Chat-demo

picture.image

结尾彩蛋:官方博客预告Qwen2很快也要来了!

picture.image


          
blog: https://qwenlm.github.io/zh/blog/qwen1.5-110b/
          
model: https://hf-mirror.com/Qwen/Qwen1.5-110B
          
demo: https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo
      

推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
在火山引擎云搜索服务上构建混合搜索的设计与实现
本次演讲将重点介绍字节跳动在混合搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论