Qwen 1.5系列模型开源（0.5、1.8、4、7、14、72B）效果大幅提升 - 文章 - 开发者社区

“ 过年了，这阵子不定期更新了，年后上班之后恢复。。


        
          
https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524  
https://qwenlm.github.io/blog/qwen1.5/

Qwen v1.5系列模型开源：

开源了包括0.5B、1.8B、4B、7B、14B和72B在内的6个不同规模的Base和Chat模型
不仅像之前一样提供Int4和Int8的GPTQ模型，还提供了AWQ以及GGUF量化模型
Qwen1.5的代码正式合并到Hugging Face transformers代码库中，使用 transformers>=4.37.0 ,无需指定 trust_remote_code
所有规模模型均已实现 32768 个 tokens 的上下文长度范围支持
预训练 Base 模型的质量也有关键优化
目前 vLLM>=0.3.0 和 SGLang>=0.1.11 已经正式支持 Qwen1.5

有六大块评测: 基础能力、小模型能力、偏好对齐能力、多语言、长文本、工具使用 RAG

模型的基础能力

picture.image 在不同模型尺寸下，Qwen1.5 都在评估基准中表现出强劲的性能。特别是，Qwen1.5-72B 在所有基准测试中都远远超越了Llama2-70B，展示了其在语言理解、推理和数学方面的卓越能力。

小模型的能力

picture.image 我们可以自信地说，参数规模低于 70 亿的 Qwen1.5 base 模型，与业界领先的小型模型相比具有很强的竞争力。未来，我们将继续提高小模型的整体效果，并探索如何将大模型的能力有效迁移到小模型之中。

偏好对齐的能力

picture.image 4. 多语言能力

picture.image

长文本能力

picture.image 从结果来看，即使像 Qwen1.5-7B-Chat 这样的小规模模型，也表现出与 GPT-3.5 可比的性能，而我们最好的模型 Qwen1.5-72B-Chat，仅略微落后于 GPT4-32k。请注意，以上结果仅展示了我们在 32K tokens 长度下的强大效果，但并不代表模型最大只能支持 32K 长度。您可以在 config.json 中，将 max_position_embedding 尝试修改为更大的值，观察模型在更长上下文理解场景下，是否可以达到您满意的效果。

链接外部工具、知识库的能力

如今，通用语言模型的一大魅力在于其与外部系统对接的潜能。具体而言，RAG作为一种在社区中快速兴起并广受青睐的任务，有效应对了大语言模型面临的一些典型挑战，比如幻觉、无法获取实时更新或私有数据等问题。此外，语言模型在使用API和根据指令及示例编写代码方面，展现出强大的能力。这使得LLM能够作为代码解释器或AI智能体，发挥更广阔的价值。 picture.image 然后，我们在T-Eval 基准测试中评估了 Qwen1.5 作为通用代理运行的能力。所有 Qwen1.5 模型都没有经过专门针对该基准的优化：

picture.image 为了测试工具调用能力，我们遵循之前做法，使用我们自己开源的评估基准，测试模型正确选择、调用工具的能力，结果如下：

picture.image 最后，由于 Python 代码解释器已成为高级 LLM 越来越强大的工具，我们还在之前开源的评估基准上评估了我们的模型利用这一工具的能力：

picture.image 较大的 Qwen1.5-Chat 模型通常优于较小的模型，接近 GPT-4 的工具使用性能。不过，在数学解题和可视化等代码解释器任务中，即使是最大的 Qwen1.5-72B-Chat 模型，也会因编码能力而明显落后于 GPT-4。我们的目标是在未来的版本中，在预训练和对齐过程中提高所有 Qwen 模型的编码能力。