以 OpenAI o1 为代表的大型语言模型展示了强大的推理能力,充分验证了语言模型推理时计算的有效性。北京大学、清华大学研究人员日前发布的 LLaVA-o1[1] 模型,凭借其独特的多阶段自主推理能力,在多项任务中展现出惊人的性能,引发了广泛关注与热议。
LLaVA-o1 的核心算法:多阶段自主推理
早期的开源视觉语言模型(VLM)主要采用直接预测方法,在回答问题时立即生成简短的答案。这种直接反应范式的主要局限性在于它缺乏结构化的推理过程,这使得它对需要逻辑推理的任务效率较低。作者研究发现,VLM 经常在没有充分组织问题和可用信息的情况下发起响应。此外,它们经常偏离对结论的逻辑推理,而不是过早地提出结论并随后试图证明其合理性。鉴于语言模型会逐一生成响应,一旦引入错误的结论,模型通常会沿着有缺陷的推理路径继续。
而 LLaVA-o1 的亮点便在于其创新的多阶段自主推理机制。这种机制允许模型在处理复杂任务时,像人类一样分步思考,从而在保持模型规模较小的同时,实现接近甚至超越大型模型的性能。
下面是具体的步骤:
- 问题分解 :模型首先将复杂任务分解为多个子任务。
- 信息收集 :对于每个子任务,模型会从图像和上下文中收集相关信息。
- 逐步推理 :基于收集的信息,模型进行逻辑推理,得出中间结论。
- 综合分析 :将各个子任务的结果整合,形成最终答案。
这种结构化的推理方法使 LLaVA-o1 能够处理需要深度逻辑思考的复杂问题,而不是简单地生成表面化的回答,进而克服错误或幻觉输出。
在实现上,LLaVA-o1 项目在以下几个方面进行了创新:
1.LLaVA-o1-100k 数据集: 研究团队收集了包含 99k 个图像问答对的新数据集,并使用 GPT-4 生成详细的结构化推理过程。这为模型提供了高质量的训练数据。
2.阶段级波束搜索: 提出了一种新的推理时间级波束搜索方法,能为每个推理阶段生成候选者并选择最佳选项。这种方法在粗粒度和细粒度搜索之间取得了平衡,显著提升了模型性能。
3.结构化训练方法: 通过在训练过程中引入结构化标签,使模型能够学习到更系统、更有逻辑的推理过程。
性能评估
LLaVA-o1 在多个多模态推理基准上展现出了优异的性能:
- 在六个需要高级推理能力的基准测试中,LLaVA-o1始终优于许多类似甚至更大规模的开源模型,如 InternVL2-8B 、Ovis1.5-Gemma29B 等。
- 值得注意的是,LLaVA-o1 甚至超越了GPT-4V-mini 和Gemini-1.5-pro 等某些闭源模型的表现。
- 与其基础模型 Llama-3.2-11B-VisionInstruct 相比,LLaVA-o1 在各种多模态推理基准上的性能提升了 8.9%。
在实际的示例里,相较于Llama-3.2-11B-Vision-Instruct模型推理过程表现出来的明显错误。LLaVA-o1成功地分析了图像中的场景,识别了相关元素,并通过逻辑推理得出了正确的结论。
小结
LLaVA-o1 的证明了结构化推理方法在视觉语言模型中的重要性。尽管只使用了 10 万个训练样本和一种简单而有效的推理时Scaling 的方法,LLaVA-o1 就能够在多个基准上超越更大的模型,那么这样的思想是否能够扩展到其他模态上,将会是一个很不错的尝试。
参考资料
[1] LLaVA-o1: https://arxiv.org/pdf/2411.10440
后台回复“进群”入群讨论。