Qwen 1.5系列模型开源(0.5、1.8、4、7、14、72B)效果大幅提升

大模型人工智能与算法

“ 过年了,这阵子不定期更新了,年后上班之后恢复。。


        
          
https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524  
https://qwenlm.github.io/blog/qwen1.5/  

      

Qwen v1.5系列模型开源:

  • 开源了包括0.5B、1.8B、4B、7B、14B和72B在内的6个不同规模的Base和Chat模型
  • 不仅像之前一样提供Int4和Int8的GPTQ模型,还提供了AWQ以及GGUF量化模型
  • Qwen1.5的代码正式合并到Hugging Face transformers代码库中,使用 transformers>=4.37.0 ,无需指定 trust_remote_code
  • 所有规模模型均已实现 32768 个 tokens 的上下文长度范围支持
  • 预训练 Base 模型的质量也有关键优化
  • 目前 vLLM>=0.3.0 和 SGLang>=0.1.11 已经正式支持 Qwen1.5

有六大块评测: 基础能力、小模型能力、偏好对齐能力、多语言、长文本、工具使用 RAG

  1. 模型的基础能力

picture.image在不同模型尺寸下,Qwen1.5 都在评估基准中表现出强劲的性能。特别是,Qwen1.5-72B 在所有基准测试中都远远超越了Llama2-70B,展示了其在语言理解、推理和数学方面的卓越能力。

  1. 小模型的能力

picture.image我们可以自信地说,参数规模低于 70 亿的 Qwen1.5 base 模型,与业界领先的小型模型相比具有很强的竞争力。未来,我们将继续提高小模型的整体效果,并探索如何将大模型的能力有效迁移到小模型之中。

  1. 偏好对齐的能力

picture.image4. 多语言能力

picture.image

  1. 长文本能力

picture.image从结果来看,即使像 Qwen1.5-7B-Chat 这样的小规模模型,也表现出与 GPT-3.5 可比的性能,而我们最好的模型 Qwen1.5-72B-Chat,仅略微落后于 GPT4-32k。请注意,以上结果仅展示了我们在 32K tokens 长度下的强大效果,但并不代表模型最大只能支持 32K 长度。您可以在 config.json 中,将 max_position_embedding 尝试修改为更大的值,观察模型在更长上下文理解场景下,是否可以达到您满意的效果。

  1. 链接外部工具、知识库的能力

如今,通用语言模型的一大魅力在于其与外部系统对接的潜能。具体而言,RAG作为一种在社区中快速兴起并广受青睐的任务,有效应对了大语言模型面临的一些典型挑战,比如幻觉、无法获取实时更新或私有数据等问题。此外,语言模型在使用API和根据指令及示例编写代码方面,展现出强大的能力。这使得LLM能够作为代码解释器或AI智能体,发挥更广阔的价值。picture.image然后,我们在T-Eval 基准测试中评估了 Qwen1.5 作为通用代理运行的能力。所有 Qwen1.5 模型都没有经过专门针对该基准的优化:

picture.image为了测试工具调用能力,我们遵循之前做法,使用我们自己开源的 评估基准 ,测试模型正确选择、调用工具的能力,结果如下:

picture.image最后,由于 Python 代码解释器已成为高级 LLM 越来越强大的工具,我们还在之前开源的 评估基准 上评估了我们的模型利用这一工具的能力:

picture.image较大的 Qwen1.5-Chat 模型通常优于较小的模型,接近 GPT-4 的工具使用性能。不过,在数学解题和可视化等代码解释器任务中,即使是最大的 Qwen1.5-72B-Chat 模型,也会因编码能力而明显落后于 GPT-4。我们的目标是在未来的版本中,在预训练和对齐过程中提高所有 Qwen 模型的编码能力。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
云原生环境下的日志采集存储分析实践
云原生场景下,日志数据的规模和种类剧增,日志采集、加工、分析的多样性也大大增加。面对这些挑战,火山引擎基于超大规模下的 Kubernetes 日志实践孵化出了一套完整的日志采集、加工、查询、分析、消费的平台。本次主要分享了火山引擎云原生日志平台的相关实践。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论