QVQ-72B-Preview是一个基于 Qwen2-VL-72B 构建的多模态推理模型。QVQ 代表了 AI 在视觉理解和复杂问题解决能力方面的重大飞跃。QVQ 在 MMMU 上获得了 70.3 分,与 Qwen2-VL-72B-Struct 相比,在数学相关基准测试中显示出显着改进。通过仔细的逐步推理,QVQ 在视觉推理任务中展示了增强的能力,尤其是在需要复杂分析思维的领域中表现出色。
-
HuggingFace地址 :https://huggingface.co/collections/Qwen/qvq-676448c820912236342b9888
-
ModelScope地址 :https://modelscope.cn/models/Qwen/QVQ-72B-Preview
-
官方Demo体验地址 :https://modelscope.cn/studios/Qwen/QVQ-72B-preview
一、性能
QVQ-72B-Preview在如下4 个数据集上进行评估:
- MMMU :一个大学级别的多学科多模态评估数据集,旨在评估模型与视觉相关的综合理解和推理能力。
- MathVista : 一个以数学为中心的视觉推理测试集,用于评估使用拼图测试图形进行逻辑推理、使用函数图进行代数推理以及使用学术论文数字进行科学推理等功能。
- MathVision : 源自真实数学竞赛的高质量多模态数学推理测试集,与 MathVista 相比,具有更大的问题多样性和学科广度。
- OlympiadBench : 奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理比赛(包括中国高考)的 8476 道题目。 每个问题都带有专家级注释,详细说明了分步推理过程。
QVQ-72B-Preview 在 MMMU 基准测试中以70.3 分超过其前身 Qwen2-VL-72B-Instruct。此外,在其余三个专注于数学和科学问题的基准测试中,该模型表现出卓越的性能,有效地缩小了与领先的最先进的 o1 模型的差距。
二、案例演示
我们使用几个示例来说明这种新模型在视觉推理任务中的应用,使用官方Demo地址来验证:
case1:
case2 :
从上述解题过程可以看出,大模型在过程中有错误,但是经过自我反思,最终给出了正确的答案。
三、局限性
QvQ-72B-Preview 是 Qwen 团队开发的实验研究模型,专注于增强视觉推理能力。虽然它已证明性能超出预期,但仍存在一些需要注意的限制:
- 语言混合和代码切换 :模型可能会意外地混合语言或在语言之间切换,从而影响响应清晰度。
- 递归推理 : 该模型可能会卡在循环逻辑模式中,产生冗长的响应而无法得出结论。
- 安全和道德考虑 : 该模型需要增强的安全措施以确保可靠和安全的性能,用户在部署时应谨慎。
- 性能和基准测试限制 : 尽管该模型在视觉推理方面有所改进,但它无法完全取代 Qwen2-VL-72B-Struct 的功能。 此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,从而导致幻觉。