QVQ-72B-Preview:用智慧看世界

大模型向量数据库云通信

在进入 2025 年之前,Qwen 为大家准备了最后一份礼物,那就是 QVQ!🎉 这是第一个用于视觉推理 的开源模型权重。它被称为 QVQ,其中 V 代表视觉。

Qwen 团队推出了新成员 QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如 MMMU、MathVista 和 MathVision 上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。

picture.image

模型简介

QVQ-72B-Preview 是基于 Qwen2-VL-72B 的多模态推理开放权重模型。QVQ-72B-Preview 代表了人工智能在视觉理解和复杂问题解决能力方面的重大飞跃。与 Qwen2-VL-72B-Instruct 相比,QVQ-72B-Preview 在 MMMU 上的得分为 70.3,并且在数学相关基准测试中显示出显着的改进。通过仔细的逐步推理,QVQ-72B-Preview 在视觉推理任务中展示了增强的能力,尤其是在需要复杂分析思维的领域表现出色

模型性能

Qwen 在 4 个数据集上评估 QVQ-72B-Preview,包括:

  • **MMMU** :一所大学级多学科多模态评估数据集,旨在评估模型的视觉相关的综合理解和推理能力。
  • **MathVista** :以数学为中心的视觉推理测试集,使用谜题测试图形评估逻辑推理、使用函数图评估代数推理、使用学术论文图形评估科学推理等能力。
  • **MathVision** :源自真实数学竞赛的高质量多模态数学推理测试集,与 MathVista 相比具有更大的问题多样性和主题广度。
  • **OlympiadBench** :奥林匹克竞赛级双语多模态科学基准测试集,包含 8,476 道奥林匹克数学和物理竞赛题,包括中国高考。每道题都附有专家级注释,详细说明了分步推理过程。

picture.image

尤其是 QVQ-72B-Preview 在 MMMU 基准测试中取得了令人印象深刻的 70.3 分,远远超过其前身 Qwen2-VL-72B-Instruct。此外,在其余三个针对数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进 o1 模型的差距。

模型体验

官方 Demo 体验地址为:

https://modelscope.cn/studios/Qwen/QVQ-72B-preview

  • 示例 1 图片中的滤液 E 是什么化学物质? picture.image

模型答案:


                
所以我在看这个黄铜矿处理的流程图,有点复杂,不过我试着理清楚。首先,黄铜矿被粉碎,然后和硫酸铵一起焙烧,通入空气。这个过程中,应该会发生一些化学反应,产生高温混合气和固体B。高温混合气主要含有氨气,用硫酸吸收后得到溶液A。固体B用水浸铜,得到滤液C和滤渣D。滤液C加入过量铁粉进行置换,得到滤液E和粗铜。粗铜再通过电解得到纯铜。
                

                
首先,我需要理解黄铜矿是什么。黄铜矿一般是铜铁硫化物,化学式大概是CuFeS₂。硫酸铵是(NH4)2SO4,焙烧过程中通入空气,应该是在高温下发生氧化反应。
                

                
高温混合气主要含氨气,可能是硫酸铵分解产生的。硫酸铵分解会生成氨气和硫酸氢铵,再分解生成氨气和水等。用硫酸吸收氨气,得到溶液A,应该是硫酸铵或者硫酸铵和硫酸氢铵的混合物。
                

                
固体B是焙烧后的固体产物,可能包含氧化铜、氧化铁等。用水浸铜,可能是将可溶性的铜盐溶解出来,得到滤液C,而滤渣D可能是不溶于水的物质,比如氧化铁等。
                

                
滤液C中加入过量铁粉,可以将铜离子还原为铜单质,自己被氧化为亚铁离子。这样得到粗铜和滤液E,滤液E应该是含有亚铁离子的溶液,可能还有未反应的其他离子。
                

                
最后,粗铜通过电解精炼,得到纯铜。
                

                
现在,题目问滤液E是什么化学物质。根据上面的分析,滤液E应该是含有亚铁离子的溶液,可能还有未反应的其他离子。具体来说,可能是硫酸亚铁溶液,因为前面步骤中使用了硫酸,而且铁和铜离子反应生成铜和亚铁离子,如果滤液C是硫酸铜溶液,那么滤液E就是硫酸亚铁溶液。
                

                
不过,我需要更确切地知道滤液C的成分。黄铜矿焙烧后生成的固体B,主要包含氧化铜和氧化铁。用水浸取,氧化铜可能溶解形成铜离子,而氧化铁不溶,成为滤渣D。所以滤液C应该是含有铜离子的溶液,可能还有其他离子。
                

                
加入铁粉后,铁可以置换出铜,生成铜和亚铁离子。所以滤液E应该是含有亚铁离子的溶液,可能是硫酸亚铁。
                

                
不过,我有点不确定,因为可能还有其他离子存在。比如,如果焙烧过程中有硫酸铵参与反应,可能生成其他盐类。
                

                
也许我应该具体写一下可能发生的化学反应方程式,来更清楚地理解这个过程。
                

                
首先,黄铜矿CuFeS₂和硫酸铵一起焙烧,通入空气,可能发生以下反应:
                

                
4CuFeS₂ + 2(NH4)2SO4 + 11O2 → 4CuSO4 + 2Fe2O3 + 4NH3 + 2H2O
                

                
这个反应是猜测的,可能不太准确,但大致意思是黄铜矿氧化生成铜盐、铁氧化物,硫酸铵分解生成氨气和硫酸氢铵,再分解生成氨气和水等。
                

                
高温混合气主要含氨气,用硫酸吸收,得到硫酸铵和硫酸氢铵的混合物,也就是溶液A。
                

                
固体B是Fe2O3和CuO的混合物,可能还有其他杂质。
                

                
固体B用水浸取,CuO和水反应生成Cu(OH)2,然后Cu(OH)2溶解形成铜盐,可能是硫酸铜,如果用水浸取的话,可能形成碱式盐等,不太确定。
                

                
或者,可能有其他酸存在,比如前面生成的硫酸。
                

                
这个步骤有点模糊,可能需要更多信息来确定滤液C的成分。
                

                
假设滤液C是硫酸铜溶液,那么加入铁粉后,发生反应:
                

                
Fe + CuSO4 → FeSO4 + Cu
                

                
这样,滤液E就是硫酸亚铁溶液。
                

                
如果滤液C中还有其他金属离子,铁粉也可能将它们置换出来,但根据流程图,主要目的是提铜,所以可能滤液C主要是硫酸铜。
                

                
然后,粗铜电解精炼,阳极是粗铜,阴极是纯铜,电解质是硫酸铜溶液,通过电解,阳极的铜和杂质溶解,阴极析出纯铜,实现精炼。
                

                
所以,滤液E应该是硫酸亚铁溶液。
                

                
不过,我有点疑惑,为什么滤液E单独列出来,而不是直接作为废物处理。可能有回收利用的价值。
                

                
或者,滤液E可能是含有铁盐的溶液,可以循环使用或者进一步处理。
                

                
总之,根据流程图和我的分析,滤液E应该是硫酸亚铁溶液。
                

                
为了确认这一点,我可以再检查一下流程。
                

                
黄铜矿→粉碎→与硫酸铵混合→通空气焙烧→得到高温混合气和固体B
                

                
高温混合气主要含氨气,用硫酸吸收得到溶液A(可能是硫酸铵和硫酸氢铵)
                

                
固体B用水浸铜→得到滤液C(假设是硫酸铜)和滤渣D(可能是氧化铁等不溶物)
                

                
滤液C中加入过量铁粉→置换出铜,得到粗铜和滤液E(硫酸亚铁)
                

                
粗铜电解精炼→得到纯铜
                

                
看起来逻辑上是通的。
                

                
所以,滤液E是硫酸亚铁。
                

                
不过,题目可能希望更确切的答案,比如具体是哪种铁盐溶液。
                

                
或者,可能需要根据具体的化学反应来确定滤液E的成分。
                

                
也许我应该更详细地写出每个步骤的化学反应方程式。
                

                
首先,黄铜矿CuFeS₂和硫酸铵一起焙烧,通入空气,可能发生以下反应:
                

                
4CuFeS₂ + 2(NH4)2SO4 + 11O2 → 4CuSO4 + 2Fe2O3 + 4NH3 + 2H2O
                

                
这个反应可能不太准确,因为硫可能生成二氧化硫等。
                

                
更准确的反应可能是:
                

                
4CuFeS₂ + 2(NH4)2SO4 + 17O2 → 4CuSO4 + 2Fe2O3 + 4SO2 + 4NH3 + 6H2O
                

                
不过,具体反应可能更复杂,涉及多个步骤。
                

                
高温混合气主要含氨气,用硫酸吸收:
                

                
NH3 + H2SO4 → NH4HSO4
                

                
生成硫酸氢铵,如果氨气过量,还会生成硫酸铵:
                

                
NH3 + H2SO4 → (NH4)2SO4
                

                
所以,溶液A可能是硫酸氢铵和硫酸铵的混合物。
                

                
固体B是Fe2O3和CuO的混合物,可能还有其他杂质。
                

                
固体B用水浸取,CuO和水反应生成Cu(OH)2,然后Cu(OH)2溶解形成铜盐,可能是碱式硫酸铜等,具体取决于pH和条件。
                

                
可能需要加入酸来促进铜的溶解,比如硫酸,形成硫酸铜溶液。
                

                
如果这样,滤液C就是硫酸铜溶液,滤渣D是不溶的氧化铁等。
                

                
然后,滤液C中加入过量铁粉,发生反应:
                

                
Fe + CuSO4 → FeSO4 + Cu
                

                
这样,滤液E就是硫酸亚铁溶液。
                

                
所以,滤液E是硫酸亚铁。
                

                
不过,我需要确认一下,是否还有其他可能。
                

                
比如,如果滤液C中还有其他金属离子,加入铁粉后,铁可能将它们也置换出来,但根据流程图,主要目的是提铜,所以可能滤液C主要是硫酸铜。
                

                
另外,滤液E可能含有过量的铁粉,需要过滤除去,得到澄清的硫酸亚铁溶液。
                

                
可能还需要调节pH等步骤来纯化滤液E,但根据流程图,没有显示这些步骤。
                

                
总之,根据现有的信息和逻辑推理,滤液E应该是硫酸亚铁溶液。
                

                
所以,答案是硫酸亚铁。
                

                
不过,题目可能希望用化学式来表示,即FeSO4。
                

                
或者,可能需要考虑水合物,如FeSO4·7H2O。
                

                
但根据流程图,滤液E是溶液,所以写FeSO4即可。
                

                
综上所述,滤液E是硫酸亚铁。
                

                
**答案**
                

                
硫酸亚铁
            

  • 示例 2 请解答这道题

picture.image 自己也在多模态抽取任务上面尝试了一下,整体感觉就是推理过程很强,不过模型生成的答案较长,同时也加了一些约束,比如政治领域做了拒绝回答。

模型局限性

QVQ-72B-Preview 是由 Qwen 团队开发的一个实验性研究模型,专注于提升视觉推理能力。虽然它展现出了超出预期的性能,但仍有几个需要注意的局限性:

  1. 语言混合和代码切换:模型可能会混合不同语言或意外地在语言之间切换,影响回复的清晰度。

  2. 递归推理循环:模型可能会陷入循环推理模式,导致回复冗长甚至没有得出最终的答案。

  3. 安全和伦理考虑:模型需要加强安全措施以确保可靠和安全的性能,用户在部署时应当谨慎。

  4. 性能和基准测试局限性:尽管 QvQ 模型在视觉推理方面有所改进,但它无法完全替代 Qwen2-VL-72B 的能力。在多步视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致产生幻觉。此外,在一些基础的识别任务如人物、动植物识相比 Qwen2-VL-72B 并没有表现出明显的提升。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论