终结专有霸权！OpenVision开源编码器多模态超车CLIP，5M-632M参数随心配 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

picture.image

精简阅读版本

本文主要解决了什么问题

透明性和可复现性 ：当前广泛使用的视觉编码器（如OpenAI的CLIP和Google的SigLIP）依赖于专有的训练数据和方法，限制了透明性和可复现性。本文通过OpenVision填补了这一空白，提供了一个完全开放、从头开始训练的视觉编码器系列。

模型规模的灵活性 ：现有开源视觉编码器（如CLIP）仅提供有限的参数规模选择，无法满足轻量级边缘设备或高容量复杂任务的需求。OpenVision提供了从5.9M到632.1M参数的多个变体，支持灵活的性能-效率权衡。

多模态任务中的缺陷 ：尽管CLIP等模型在零样本检索任务中表现出色，但在多模态推理任务（如VQA、OCR等）中存在不足。本文通过改进训练方法和架构设计，显著提升了多模态性能。

本文的核心创新是什么

完全开放的训练框架和数据 ：OpenVision基于开源的CLIPS训练框架和Recap-DataComp-1B数据集，确保整个训练过程完全透明且可复现。

渐进式分辨率预训练 ：采用三阶段课程训练方法，从低分辨率逐步提升至高分辨率，显著提高了训练效率并生成了适用于不同输入分辨率的模型变体。

辅助解码器与合成文本 ：引入轻量级文本解码器生成合成描述，丰富了训练信号，增强了视觉编码器对语义的理解能力，从而在多模态任务中表现更优。

多样化的模型规模 ：发布了超过25个预训练权重，涵盖从超小型（Tiny/16）到超大型（Huge/14）的多个变体，满足从边缘设备到高性能服务器的不同需求。

结果相较于以前的方法有哪些提升

超越CLIP的多模态性能 ：在LLaVA-1.5和Open-LLaVA-Next框架下，OpenVision在多个多模态基准测试（如MME、ChartQA、TextVQA等）中与CLIP相当或更优。

轻量级模型的竞争力 ：即使在参数量减少13倍的情况下（如S/16），OpenVision仍能保持CLIP-L/14平均分数的94%，证明其在资源受限场景下的有效性。

高分辨率任务的优势 ：对于高分辨率视觉问答（VQA）、OCR和检索任务，OpenVision-H/14展现了显著优于CLIP-L/14的性能，特别是在挑战性多模态任务中体现了额外容量的价值。

局限性总结

计算资源要求 ：虽然OpenVision提供了多种规模的模型，但训练大规模版本（如Huge/14）仍需要较高的计算资源，可能对部分研究者构成障碍。

内存和延迟问题 ：较小Patch大小的模型（如8x8）虽然提升了多模态性能，但显著增加了内存消耗和推理延迟，可能不适合实时应用。

特定任务优化不足 ：尽管OpenVision在通用多模态任务中表现出色，但在某些特定领域（如医学影像分析）可能仍需进一步定制化优化。

通过上述创新和结果，OpenVision为多模态基础模型的研究提供了更高的透明度、灵活性和性能，推动了社区内的进一步创新和发展。

深入阅读版本

导读

OpenAI于2021年初发布的CLIP长期以来一直是构建多模态基础模型的首选视觉编码器。尽管近年来SigLIP等替代方案开始挑战这一现状，据作者所知，目前还没有完全开放的方案：它们的训练数据仍然是专有的，并且/或者它们的训练方法没有公开。本文通过OpenVision填补了这一空白，OpenVision是一系列完全开放且具有成本效益的视觉编码器，当集成到LLaVA等多模态框架中时，其性能与OpenAI的CLIP相当或更优。OpenVision基于现有工作——例如，使用CLIPS作为训练框架，以及使用Recap-DataComp-1B作为训练数据——同时揭示了提升编码器质量的多项关键见解，并展示了在推进多模态模型方面的实际优势。通过发布参数规模从5.9M到632.1M的视觉编码器，OpenVision为从业者提供了在构建多模态模型时灵活权衡容量与效率的选择：较大的模型能够提升多模态性能，而较小的版本则支持轻量级、边缘化部署的多模态应用。

引言

近年来，多模态基础模型的发展几乎完全依赖于同一个视觉 Backbone 网络：OpenAI的CLIP编码器[39]。从早期的开源项目如LLaVA[30]和Mini-GPT-4[55]，到最新的先进模型如Falcon2 VLM[35]和Eagle[41]，OpenAI的CLIP-L/336始终是默认选择，即使语言组件在快速演进。然而，这种依赖性带来了一系列问题。首先，OpenAI CLIP的训练数据和详细框架仍未公开，限制了透明度和可复现性。

此外，OpenAI的CLIP仅提供两种参数规模——基础版和大型版，这阻碍了轻量级模型在边缘设备上的部署，也限制了为复杂任务探索更高容量的编码器。最后，OpenAI的CLIP存在已记录的缺陷，包括空间关系理解能力差和物体计数幻觉[45, 44, 46]。这些不足要求一种架构、数据和训练方法完全开放的视觉编码器。

对此，开源社区联合起来致力于复制并超越OpenAI的CLIP，主要体现在以下方面：

1. 完全开放的CLIP训练框架[17]；
1. 百亿规模的开源数据集，如Laion[40]、DataComp[15]和DFN[12]；
1. 改进的训练方法[24, 23, 21, 52]。

然而，一个关键差距依然存在：目前没有完全开放、从头开始的视觉编码器在容量和分辨率上与OpenAI的CLIP相当，且在作为多模态基础模型的视觉主干时，无法持续匹配或超越OpenAI的CLIP。

picture.image

例如，流行的OpenCLIP[17]预训练权重在零样本性能上表现优异，但在多模态基准测试如MME[14]、ChartQA[36]和TextVQA[42]上明显不足（见表1和表2）。

picture.image

在本工作中，作者通过OpenVision来解决这一差距，OpenVision是一个完全开放、成本效益高的视觉编码器系列，在多模态学习场景中表现出色（图

）。OpenVision基于两项最近的进展：（i）Recap-DataComp1B [22]，该技术使用由Llama-3 [37]驱动的LLaVA模型重新对DataComp-1B语料库[15]进行重新描述；（ii）CLIPS [31]，这是一个增强的CLIP训练流程，集成了合成描述。利用这些资源，作者进行系统分析，以识别提高整体训练效率和增强视觉编码器质量的关键设计要素，并展示其在不同多模态模型开发中的实际优势。

大量实验表明，当OpenVision作为多模态模型（如LLaVA-1.5和Open-LLaVA-Next）的视觉主干时，它在一系列多模态评估中表现优异，甚至有时超越OpenAI的CLIP。为了满足多样化的部署需求，作者发布了超过25个预训练权重，参数范围从590万到6.321亿，实现了从边缘设备到高容量服务器的平滑精度-效率权衡。通过公开发布数据集、训练配方和预训练权重，作者希望OpenVision能够为透明度和灵活性树立新标准，使社区能够在专有编码器的限制之外推动多模态研究。

OpenVision 训练与评估

本节概述了构建和评估OpenVision系列的流程。作者详细介绍了视觉编码器预训练、多模态大语言模型（MLLM）指令微调和MLLM评估。

2.1. 视觉编码器预训练

近期研究揭示了在推进多模态大语言模型（MLLMs）方面的多个关键方面，包括模型架构和训练策略[10, 7, 44]，然而关于其视觉编码器训练的讨论仍然不足。因此，作者的目标分为两个方面：（i）发布一个完全可复现的“从头开始”的视觉编码器训练方案，以及（ii）在将这些编码器与大语言模型（LLM）结合时，分离出最关键的设计选择。

作者采用CLIPS [31]作为基础架构，CLIPS是CLIP的最新变体。CLIPS采用标准的双塔架构和对比目标，但通过多正例损失进行了扩展，将图像的原始和合成描述均视为正例。一个轻量级文本解码器被联合训练以生成新的描述，进一步丰富了训练信号。虽然CLIPS在零样本检索性能上达到了当前最佳水平，但其作为多模态语言模型感知模块的适用性仍待探索——这正是作者在此工作中的填补空白。此外，作者遵循CLIPS的做法，使用Recap-DataComp-1B [22]进行训练，这是DataComp语料库[15][37]的一个重新描述版本，规模达十亿 Level 。CLIPS代码库2和Recap-DataComp-1B数据集3均已完全开源。

训练阶段和分辨率。遵循CLIPA [24, 23]的高效训练课程，作者以三个连续的分辨率阶段对每个编码器进行预训练。具体而言，Large、SoViT-400M和Huge变体分别在

、

，最终在

或

的分辨率下进行训练。而Tiny、Small和Base等较小模型则从

的较大分辨率开始，随后继续在

、

或

的分辨率下进行训练。这种分阶段的方法显著提高了效率，并自然地生成了能够处理不同输入分辨率的模型变体。预训练完成后，作者移除了文本塔和解码器，仅保留视觉主干。

训练细节。在三个阶段中，每个模型分别处理12.8B、1.024B和256M图像-文本对。全局批处理大小分别为32K、16K和8K，基础学习率采用余弦衰减，分别为

、

和

。文本编码器使用80个输入 Token ，文本解码器生成128个 Token ，与CLIPS [31]保持一致。对于涉及不同 Patch 大小的实验，作者仅将 Patch 大小修改为8；固定的正弦余弦位置嵌入允许适应不同的序列长度。

2.2. 视觉指令微调与评估

从MLLM视角评估视觉编码器的质量，作者在通用VQA任务上进行基准测试，这些任务要求根据视觉输入生成自由形式的文本答案。遵循先前实践[30, 29, 19]，作者将轻量级MLP Projector 附加到视觉编码器上，将生成的视觉 Token 与语言 Token 连接起来，并执行视觉指令微调。与先前研究现成预训练权重[44]的工作不同，作者比较了不同规模的从头开始的OpenVision模型与CLIP风格的 Baseline 模型。所有实验均使用Llama-3-8B作为语言主干，并采用两种LLaVA设置：

1. LLaVA-1.5 [28]. 在这种低计算量模式下，视觉编码器保持冻结状态；仅更新轻量级 Projector 和语言模型。这种设置使作者能够评估预训练视觉特征的质量。作者使用标准的LCS-558K和LLaVA-665K数据集进行训练。
1. Open-LLaVA-Next [6]. 这种高计算量模式评估了编码器进一步学习和扩展的能力。大约使用了一百万个图像-指令对，视觉主干、 Projector 和LLM都进行了微调。该设置还采用了"任意分辨率"策略 [29] 来处理更大的输入：每张图像都被调整到几种不同宽高比的变体（例如，

，由基础尺寸

生成）。

评估基准。性能在一系列广泛的数据集上报告，包括：MME [14]、GQA [16]、ChartQA [36]、POPE [25]、TextVQA [42]、OCR [32]、SEED [18]、MMVet [51] 和 SQA [34]。作者遵循 1mms-eva1 协议 [53] 进行 Prompt 格式化，并在所有任务中使用贪婪解码作为文本生成策略。

3 主要结果

3.1. OpenVision与专有技术

作者在LLaVA-1.5和Open-LLaVA-Next框架下，将作者的OpenVision系列与流行的专有和开源视觉编码器进行了比较。为确保公平性，所有实验均采用CLIPS [31]、LLaVA-1.5 [28]和OpenLLaVA-Next [6]提供的原始超参数。图1提供了高层级概览：在九个代表性基准测试中，OpenVision始终与OpenAI的CLIP和Google的SigLIP的性能相当或超越。

picture.image

更全面的比较结果展示在表1和表2中，这些表还包含了LAION-2B-CLIP [40]、DataComp-1B-CLIP [15]、DFN2B-CLIP [12]和MetaCLIP-5B [48]的结果。在

分辨率下，作者的OpenVision-B/16和OpenVision-L/14预训练权重在两种MLLM设置下于大多数任务上显著优于其对应模型。在

分辨率下，OpenVision-L/14-336在Open-LLaVA-Next设置下与OpenAI的CLIP-L/14-336表现相近或更优，为开源视觉编码器树立了新的基准。

这些发现证实，完全基于公开数据和代码训练的视觉模型能够与专有替代方案相媲美，甚至在很多时候超越它们，为研究界提供了未来多模态工作的竞争性、透明性和灵活性基础。

3.2. 更多OpenVision变体

OpenVision的完全透明性使作者能够自由设计一系列针对不同资源或精度需求的视觉编码器（架构细节见附录A.2）。具体而言，作者通过向上/向下扩展OpenVision并调整不同应用场景下的块大小来展示其灵活性，并展示了其即使与超小型语言模型相比也具有的竞争力。

提升多模态性能。对于需要强大多模态性能的应用，更大的视觉编码器是有益的，因为它们能够编码更丰富的语义，并与语言更精确地对齐。为此，作者发布了OpenVision-H/14，一个拥有632.1亿参数的视觉编码器，其规模远超OpenAI的CLIP和Google的SigLIP中最大的模型。

如表3所示，在LLaVA-1.5设置下，该变体在多模态理解方面相较于OpenAI CLIP-L/14取得了显著提升，特别是在高分辨率视觉问答（VQA）、光学字符识别（OCR）和检索任务中，这证实了为具有挑战性的多模态任务增加额外容量的价值。

picture.image

针对资源受限场景进行模型压缩。为满足移动设备或低功耗设备的内存和延迟预算要求，作者训练了两个紧凑型变体，即OpenVision

和OpenVision-Ti/16。在相同的LLaVA-1.5设置（表3）中，

在参数量减少超过13倍的情况下，仍保留了CLIP-L/14平均分数的94%；而Ti/16在尺寸几乎缩小50倍的情况下，保持了87%的平均分数。

作者进一步将这些编码器与一个参数为

的 Qwen-2.5 大语言模型 [49] 进行配对。首先，仅用 OpenVision-

替换 Baseline CLIP-B/16 就能显著提升几乎所有基准测试的准确率（表4）。然后，通过减小视觉编码器的大小，并同时将分辨率从

提高到

，较小的

和

依然能够保持极具竞争力的性能。这些结果证实，轻量级、完全开放的视觉 Backbone 网络可以为实用的、高质量的边缘多模态系统提供强大支持。

picture.image

变量 Patch 大小。在视觉Transformer（ViT）中， Patch 大小决定了图像被分词的空间分辨率[47]，即较小的 Patch 在编码视觉特征时能提供更精细的细节（但代价是显著增加计算预算）。因此，为了评估 Patch 大小的影响，作者预训练了两个除 Patch 大小外完全相同的OpenVision模型，分别使用

和

的 Patch 。

微型模型提升

，小型模型提升

，基础模型提升

。然而，作者也想指出这些收益是有代价的：更精细的模型划分显著增加了视觉token的数量，导致内存消耗和延迟大幅上升。

3.3. OpenVision-Smol: 使用1.5亿参数语言模型进行微调

为提升作者视觉 Backbone 网络的便携性，作者将OpenVision与smol-LM进行搭配——这是一种150M参数的语言模型（LM），目前是Hugging Face上可用的最小模型[3]。具体而言，作者将OpenVision-B/16-384与Smol-150M进行搭配，构建了一个参数量少于2.5亿的多模态系统，其参数量甚至小于单独的ViT-L视觉编码器。

三阶段训练协议。遵循LLaVA-OneVision [19]的训练配方，作者首先使用图像-文本对齐进行模型预训练（阶段1），然后使用合成指令进行额外的视觉-语言预训练（阶段2）；最后，作者在精选的多模态指令数据集上进行微调（阶段3）。为了探究规模效应，作者系统地调整三个参数，同时保持所有其他超参数不变：（1）阶段2指令语料库的大小，（2）阶段3指令语料库的大小，以及（3）输入图像的分辨率。

主要结果。表6报告了扩展结果。首先，作者可以观察到在阶段2中，将语料库从

扩展到

在以文本为中心的任务（如TextVQA和OCR-Bench）上提供了持续的提升；尽管在推理导向的套件（如SEED-Bench和MMVet）上的提升趋于平稳。其次，作者注意到在阶段3中增加数据规模带来了显著的提升，特别是在以文档为中心和图表推理任务（例如ChartQA、OCR-Bench）中。最后，将输入分辨率从

提高到

带来了最大的整体改进，特别是在OCR和复杂推理基准测试中。

这些结果共同证实，作者的完全开放式OpenVision Backbone 网络即使在与一个参数量极小的150M语言模型配合使用时，仍能保持强大的可扩展性。由此产生的模型系列在竞争方面提供了一条实用路径，能够为资源受限的实时部署提供超轻量级且功能强大的多模态系统。

消融实验

第3节的结果表明，OpenVision与专有视觉编码器（如OpenAI的CLIP和Google的SigLIP）相比，具有竞争力，有时甚至超越它们。现在作者将深入分析该模型，以确定驱动这一性能的设计选择。

4.1. 辅助解码器和合成字幕

遵循CLIPS的思路，OpenVision在标准对比目标上增加了辅助文本解码器，该解码器基于重新标注的Recap-DataComp-1B语料库进行训练。尽管CLIPS证明了这种生成信号能够提升跨模态检索性能，但其对多模态推理的影响尚未得到验证。作者通过两个消融实验填补了这一空白：1) w/o Decoder：移除文本解码器，仅使用对比损失进行训练；2) w/ Orig. Caps：保留解码器，但将合成文本替换为原始DataComp-1B文本。

结论。基于上述结果，作者可以确认，辅助文本解码器和高质量合成描述这两个组件对于OpenVision的强大多模态性能至关重要。

4.2. 渐进式分辨率预训练

为显著加速预训练过程，OpenVision采用三阶段课程，从极小的裁剪开始，最终达到336/384像素。已有研究表明，此类课程可以加速CLIP训练而不损害性能[24, 23, 21, 26]，但其对多模态性能的下游影响——尤其是主要低分辨率阶段的贡献——并不能可靠地预测视觉编码器在多模态模型中的性能。例如，如表2和表1所示，尽管LAION-2B-CLIP和DataComp-1B-CLIP在MSCOCO检索性能上优于OpenAI-CLIP，但它们在多模态基准测试上并未展现出相应的优势。此外，ImageNet上达到最先进准确率的DFN-2B-CLIP同样未能将这一优势转化为多模态任务性能的提升。这些结果表明，强大的图像分类或检索指标未能捕捉到视觉编码器在多模态基础模型中发挥作用所需的特质。

生成式训练（辅助解码器）的关键作用。在多模态模型中，包含一个具有生成式损失（例如，标题预测）的辅助文本解码器对于视觉编码器的语义理解至关重要。为了验证这一观察结果，作者在图2中进行了消融实验，比较了在有无辅助解码器的情况下训练的视觉编码器的性能。结果清晰地表明，移除解码器会显著降低多模态性能，这表明生成式训练在对比图像-文本学习之外，极大地丰富了编码器学习到的视觉表征。具体而言，辅助解码器提供了关键的语义监督，使编码器能够获得有助于下游多模态推理任务的深层视觉洞察。

picture.image

训练合成文本的优势。在预训练过程中使用合成文本有助于提升视觉编码器的多模态能力。作者在图2中进行了消融实验，并证明用原始网络爬取的文本替换合成文本会导致多模态性能明显下降，这表明合成文本在传统网络爬取文本的基础上显著丰富了学习到的视觉表征。具体而言，合成文本提供了更丰富和更精确的语义监督，使视觉编码器能够实现更深层的视觉理解，这对于下游的多模态推理任务至关重要。

相关工作

视觉语言预训练。视觉语言预训练是多模态学习的基础策略。流行的架构包括ViLBERT [33]、CLIP [39]和ALBEF [20]，这些架构采用独立的编码器分别处理视觉和文本输入。视觉语言预训练的最新进展主要由创新损失函数的开发所驱动。CoCa [50]在统一的编码器-解码器框架内结合了对比学习和生成式训练目标。SigLIP [52]通过采用成对sigmoid损失进一步改进了原始CLIP模型。AIMV2 [13]采用多模态自回归预训练策略，使大型视觉编码器能够联合建模图像和文本 Token 。CLOC [4]通过引入区域级对比学习加强了局部视觉语言对齐。作者的工作基于最近提出的完全开放的CLIPS [31]框架，该框架通过利用合成标题来丰富文本表示，从而增强了CLIP。

开放视觉编码器用于多模态学习。先进的闭源多模态模型，如OpenAI的GPT-4o [1, 38]、Google的Gemini [43]，展现出极强的视觉语言能力。然而，由于其专有性质，其视觉处理机制的具体细节仍然完全未知。最近开源社区努力提出完全开放的多模态大语言模型，甚至实现了更好的性能，如InternVL [8]和LLaVAOneVision [19]。为了开发高性能的多模态大语言模型，开源社区主要专注于整理高质量的大规模数据集，包括视觉语言对齐数据集 [5, 22] 和视觉指令数据集 [30, 19, 44]。同时，像[8, 9]等研究则专注于新型架构设计，以更好地将最先进的视觉编码器与大语言模型集成。然而，视觉编码器的选择在很大程度上仅限于开放权重模型，如CLIP [39]和SigLIP [52]。为多模态大语言模型训练完全开放且高性能的视觉编码器仍然是一个悬而未决的挑战。

结论

本文介绍了OpenVision，这是一款完全开放且具有成本效益的视觉编码器系列，旨在支持多模态基础模型的发展。通过广泛的实验，作者的OpenVision编码器在性能上与OpenAI的CLIP和Google的SigLIP等广泛使用的专有模型相当或超越。此外，OpenVision在模型大小和输入分辨率上均可灵活扩展，使其适用于从大规模计算基础设施到边缘设备等多样化的部署环境。

通过发布所有模型权重、代码和训练数据，作者旨在促进研究的灵活性，推动社区内的进一步创新，为更加透明和适应性的多模态基础模型铺平道路。

参考

[1]. OpenVision : A Fully-Open, Cost-Effective Family of Advanced Vision Encoders for Multimodal Learning

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image