“ 过年了,这阵子不定期更新了,年后上班之后恢复。。
https://huggingface.co/collections/Qwen/qwen15-65c0a2f577b1ecb76d786524
https://qwenlm.github.io/blog/qwen1.5/
Qwen v1.5系列模型开源:
- 开源了包括0.5B、1.8B、4B、7B、14B和72B在内的6个不同规模的Base和Chat模型
- 不仅像之前一样提供Int4和Int8的GPTQ模型,还提供了AWQ以及GGUF量化模型
- Qwen1.5的代码正式合并到Hugging Face transformers代码库中,使用 transformers>=4.37.0 ,无需指定 trust_remote_code
- 所有规模模型均已实现 32768 个 tokens 的上下文长度范围支持
- 预训练 Base 模型的质量也有关键优化
- 目前 vLLM>=0.3.0 和 SGLang>=0.1.11 已经正式支持 Qwen1.5
有六大块评测: 基础能力、小模型能力、偏好对齐能力、多语言、长文本、工具使用 RAG
- 模型的基础能力
在不同模型尺寸下,Qwen1.5 都在评估基准中表现出强劲的性能。特别是,Qwen1.5-72B 在所有基准测试中都远远超越了Llama2-70B,展示了其在语言理解、推理和数学方面的卓越能力。
- 小模型的能力
我们可以自信地说,参数规模低于 70 亿的 Qwen1.5 base 模型,与业界领先的小型模型相比具有很强的竞争力。未来,我们将继续提高小模型的整体效果,并探索如何将大模型的能力有效迁移到小模型之中。
- 偏好对齐的能力
4. 多语言能力
- 长文本能力
从结果来看,即使像 Qwen1.5-7B-Chat 这样的小规模模型,也表现出与 GPT-3.5 可比的性能,而我们最好的模型 Qwen1.5-72B-Chat,仅略微落后于 GPT4-32k。请注意,以上结果仅展示了我们在 32K tokens 长度下的强大效果,但并不代表模型最大只能支持 32K 长度。您可以在 config.json 中,将 max_position_embedding 尝试修改为更大的值,观察模型在更长上下文理解场景下,是否可以达到您满意的效果。
- 链接外部工具、知识库的能力
如今,通用语言模型的一大魅力在于其与外部系统对接的潜能。具体而言,RAG作为一种在社区中快速兴起并广受青睐的任务,有效应对了大语言模型面临的一些典型挑战,比如幻觉、无法获取实时更新或私有数据等问题。此外,语言模型在使用API和根据指令及示例编写代码方面,展现出强大的能力。这使得LLM能够作为代码解释器或AI智能体,发挥更广阔的价值。然后,我们在T-Eval 基准测试中评估了 Qwen1.5 作为通用代理运行的能力。所有 Qwen1.5 模型都没有经过专门针对该基准的优化:
为了测试工具调用能力,我们遵循之前做法,使用我们自己开源的 评估基准 ,测试模型正确选择、调用工具的能力,结果如下:
最后,由于 Python 代码解释器已成为高级 LLM 越来越强大的工具,我们还在之前开源的 评估基准 上评估了我们的模型利用这一工具的能力:
较大的 Qwen1.5-Chat 模型通常优于较小的模型,接近 GPT-4 的工具使用性能。不过,在数学解题和可视化等代码解释器任务中,即使是最大的 Qwen1.5-72B-Chat 模型,也会因编码能力而明显落后于 GPT-4。我们的目标是在未来的版本中,在预训练和对齐过程中提高所有 Qwen 模型的编码能力。