2024.4.19-4.26真的是开源大模型爆发的几天!接连开源Meta Llama3(8B、70B)、微软Phi-3、苹果OpenELM、480B MoE Arctic(最大开源大模型)!
小模型大获全胜:微软发布Phi-3 7B击败Llama-3 8B
LLM爆发的一周!Apple开源OpenELM(270M、450M、1.1B 和 3B)
Snowflake开源专注企业AI的大模型Arctic:480B 密集MoE,17B激活参数
今天阿里正式发布 Qwen1.5系列的首个千亿参数开源模型 :Qwen1.5-110B!
在基础能力评估中与Meta-Llama3-70B相媲美。
Qwen1.5-110B模型在架构上与其他Qwen1.5系列模型保持一致,均采用了先进的Transformer解码器设计。该模型特别引入了分组查询注意力(Grouped Query Attention, GQA)机制,这一创新显著提升了模型在推理阶段的效率。此外,Qwen1.5-110B支持长达32,000个tokens的文本输入,这为处理更长、更复杂的文本提供了可能。在语言支持方面,Qwen1.5-110B展现了其多语言能力,能够流畅地处理包括英语、中文、法语、西班牙语、德语、俄语、日语、韩语、越南语以及阿拉伯语在内的多种语言,使其成为跨语言交流和文本处理的强大工具。
Qwen1.5-110B与最近的SOTA语言模型Meta-Llama3-70B以及Mixtral-8x22B进行了比较, 基础能力方面至少与Llama-3-70B模型相媲美
Qwen1.5-110B-Chat 在MT-Bench和AlpacaEval 2.0上进行了评估,与之前发布的72B模型相比, 110B表现显著更好,也优于Llama-3-70B-Instruct
Qwen1.5-110B-Chat Bot Preview
镜像:https://hf-mirror.com/spaces/Qwen/Qwen1.5-110B-Chat-demo
结尾彩蛋:官方博客预告Qwen2很快也要来了!
blog: https://qwenlm.github.io/zh/blog/qwen1.5-110b/
model: https://hf-mirror.com/Qwen/Qwen1.5-110B
demo: https://huggingface.co/spaces/Qwen/Qwen1.5-110B-Chat-demo
推荐阅读
- • 对齐LLM偏好的直接偏好优化方法:DPO、IPO、KTO
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • Agent到多模态Agent再到多模态Multi-Agents系统的发展与案例讲解(1.2万字,20+文献,27张图)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。