武大南洋理工昆仑提出 OMG-LLaVA：一个统一的框架，实现图像级、目标级和像素级的推理！

picture.image

当前普遍的分割方法在像素级的图像和视频理解方面表现出强大的能力。然而，它们缺乏推理能力，且不能通过文本指令进行控制。

相比之下，大型视觉-语言多模态模型展现出基于视觉的对话和推理能力的强大，但缺乏像素级理解，且在灵活的用户交互中难以接受视觉提示。

本文提出了OMG-LLaVA这一新的优雅框架，它将强大的像素级视觉理解与推理能力相结合，可以接受各种视觉和文本提示以实现灵活的用户交互。

具体来说，作者使用通用分割方法作为视觉编码器，将图像信息、感知先验和视觉提示整合到提供给LLM的视觉标记中。

LLM负责理解用户的文本指令，并根据视觉信息提供文本响应和像素级分割结果。作者提出了感知先验嵌入，以更好地将感知先验与图像特征相结合。

OMG-LLaVA在单一模型中实现了图像级、目标级和像素级的推理和理解，在多个基准测试中与专业方法的性能相匹配或超越。

作者的工作不是使用LLM连接每个专家，而是旨在对一个编码器、一个解码器和一个LLM进行端到端训练。

1 Introduction

随着 Transformer 模型的发展，最近在自然语言处理（NLP）和计算机视觉领域的工作呈现出一个共同趋势：采用一个统一的模型来解决多个任务。例如，大型语言模型（LLMs）采用规模放大的模型来解决多个NLP任务，并且比之前的专家模型取得了更好的结果。在视觉领域，作者也看到了类似趋势，采用一个模型来解决多个任务或子任务，包括检测、分割、视频分析、低级视觉、姿态估计等等。不同的方法采用了不同的 Transformer 设计，包括视觉上下文学习，统一解码器，以及统一分词器。总之，得益于 Transformer 的可扩展性和灵活性，采用一个模型处理所有任务已经取得了巨大进步。

与此同时，通过结合视觉模型和语言模型，多模态模型的研究也开始采用基于Transformer的设计。一个具有代表性的工作，LLaVA ，将视觉标记视为LLM的输入，并让LLM理解视觉内容。一些研究采用了类似的设计，它们统称为多模态大型语言模型（MLLM）。此后，大多数研究致力于以各种方式改进MLLM基准，包括增加数据规模，提升视觉编码器以及视觉分辨率。然而，类似LLaVA的模型由于仅进行图像级分析，无法输出精确的位置信息。因此，近期的研究试图通过添加额外的检测模型进行目标级分析， Mask 解码器进行像素级分析，视觉提示，并提出针对不同数据集的任务特定指令调优来填补这一空白。通过提供额外的检测数据和解码器，更新后的MLLM可以执行定位输出。然而，这些模型[123, 86, 44]专门针对特定任务进行调优，失去了LLaVA在图像级分析上的能力，例如字幕和视觉问答。同时，一些研究将LLM作为代理，与各种视觉模型或生成模型协作。尽管这些工作简单有效，但由于多个视觉编码器和解码器，推理和参数成本巨大。此外，也没有针对任务统一的具体设计。

受到之前分析的启发，作者提出了一个基本问题：

作者能否用一个MLLM模型，仅通过一个LLM，一个视觉编码器和一个视觉解码器，将图像级、目标级和像素级任务统一起来？

回到通用感知模型，作者可以利用这些模型来帮助作者构建一个更强大的MLLM，以统一三个 Level 的输入，包括图像、目标和像素 Level 。特别是，由于OMG-Seg[52]在各种分割任务中的简单性和有效性，作者采用了它作为作者的通用感知模型。

图1：OMG-LLaVA的全面能力。OMG-LLaVA能够处理各种像素级、目标级和图像级的理解和推理任务。

picture.image

在本工作中，作者提出了OMG-LLaVA，一个优雅的多模态语言模型（MLLM），它将图像级、目标级和像素级的推理和理解任务统一在一个模型中。作者通过冻结视觉编码器和解码器来保留OMG-Seg的基本像素级分割能力，如图1左下角所示。由于LLM处理文本输入，OMG-LLaVA也能够执行参考分割、推理分割以及接地对话和生成，如图1左上角所示。此外，如图1所示，在LLM的帮助下，OMG-LLaVA还能够像LLaVA一样执行图像级理解，包括标题和对话，而大多数用于接地任务的MLLM都失去了这种能力。此外，OMG-LLaVA还支持视觉提示作为输入，这导致了目标级的理解，如基于视觉提示的对话和区域级标题。作者使用一个LLM、一个编码器和一个解码器实现了所有这些功能。

特别是，为了更好地编码视觉分割输出，作者提出了一个感知先验嵌入模块，将目标 Query 吸收到以目标为中心的视觉标记中，这些是LLM的输入。作者提出了一种统一的指令形成策略，使模型能够接受视觉图像、文本和视觉提示作为输入，并生成文本、分割标记、分割 Mask 和标签的响应。遵循LLaVA [64]，作者采用了预训练和指令调整流程。大量实验证明了作者组件和训练策略的有效性。除了视觉分割之外，OMG-LLaVA在6个数据集上的性能也足够好，包括COCO全景分割、VIPSeg视频全景分割、refCOCO、refCOCO+、refCOCOg参考表达式分割、GranDf接地对话生成以及refCOCOg区域标题数据集。作者希望作者的研究能够以更优雅的方式启发社区对MLLM设计的探究。

2 Related Work

多模态大型语言模型。 早期的多模态模型[47]探索了更好的融合策略、各种特征提取器和不同的元架构。大多数工作专注于单一任务，如标题生成和视觉问答(VQA)。随着大型语言模型的发展，近期的研究主要探索为多个多模态基准构建指令调整 Pipeline 。LLaVA是较早将视觉特征视为 Token 的工作。此后，一些研究[115]探索视觉线索以增强LLaVA的视觉输入。另一方面，一些工作增加了额外的组件，以适应LLaVA进行视觉定位、检测、分割和分析视频。特别是，一些研究探索了语言驱动的定位和分割。然而，这些工作都是针对特定目的进行训练的。作者旨在构建最简单的模型，以在单一模型中统一分割、指令调整和提示驱动的分割。据作者所知，作者是首个实现这一目标的模型。

统一分割模型。 视觉 Transformer 引发了研究界对通用分割的兴趣。近期的研究采用端到端的集合预测方法开发 Mask 分类架构，在图像和视频分割任务[40; 55; 53]上超过了先前的专用模型。特别是，一些研究采用具有共享参数的一个模型来执行各种分割任务。一个近期的工作，OMG-Seg[52]，首次在单一简单模型中统一了图像、视频、开放词汇和交互式分割。然而，所有这些工作都专注于视觉分割，缺乏生成交互式文本和视觉提示的能力，像多模态大型语言模型(MLLMs)。作者的工作建立了这样的桥梁，将MLLMs、视觉分割和提示驱动分割模型从联合共训练和模型共享中进行对齐，这为此领域提供了一个新的 Baseline 。

图2：当前MLLM架构总结：(a)仅具有图像级能力的MLLMs，包括等，(b)具有目标级能力的MLLMs，包括[115; 77]，(c)具有像素级能力的MLLMs，包括[44; 78]等，(d)具有目标级和像素级能力但系统非常复杂的MLLMs，如[77]，(e)OMG-LLaVA的架构，它具有优雅简洁的设计，同时具有图像级、目标级和像素级能力。

picture.image

语言驱动的定位和分割。 这一方向上的早期工作主要定义了各种语言驱动的任务，包括指代分割和指代定位。大多数工作设计了有效的融合模块以获得更好的性能。同时，一些工作从各个方面探索了更复杂的语言驱动任务，包括鲁棒性、推理和区域级标题。LISA[103]涉及基于推理的分割。然后，GLaMM[77]标注了一个新数据集，并提出了区域级标题和分割任务。同时，一些工作[26; 65]使用大型语言模型作为代理分配不同的视觉专家。与这些工作相比，作者的方法是一个更优雅的 Baseline ，它仅包含一个视觉编码器、一个大型语言模型和一个解码器。

视觉提示。 利用LLMs的提示能力，一些工作也探索了视觉提示方法在视觉中的应用。根据设计和目的，这些工作可以划分为不同的方面，包括可学习 Token ，针对不同任务的 Mask 视觉建模，以及用于视觉输出的各种视觉提示编码器。作者的OMG-LLaVa也支持视觉提示，以便更好地与用户的输入互动，展示了其在产品目的上的潜力。

3 Methodology

Task Unification

表1：不同模型能力的比较。作者在这里包括了几种代表性的方法。作者的OMG-LLaVA提供了最全面的能力，包括图像级、目标级和像素级的理解和推理。与[77; 31]相比，OMG-LLaVA具有优雅简单的系统架构，只有一个视觉编码器。

picture.image

动机和作者的目标。 LLMs（大型语言模型）将大多数NLP任务统一为标记生成任务，并展现出强大的推理和指令遵循能力。如图2（a）所示，LLaVA-like模型进一步将视觉标记引入LLMs，使LLMs能够理解视觉信息并执行基于视觉的推理。然而，它们无法完成细粒度的视觉任务，如目标级和像素级的理解和推理。如图2（b）所示，引入了区域级视觉嵌入，使LLMs能够实现目标级理解和推理任务。然而，这些模型依赖于复杂的区域嵌入提取设计。此外，大多数无法执行像素级理解任务。因此，如图2（c）所示，引入了分割标记，使LLMs能够输出分割 Mask ，从而处理像素级理解和推理任务。然而，它们需要大的分割模块，如SAM [42]，这使得系统高度冗余。如图2（d）所示，GLAMM [77]结合上述流程处理目标级和像素级任务。然而，这显著增加了系统的复杂性和冗余性。此外，GLAMM依赖于用户明确的指令，失去了 处理实例分割、语义分割、全景分割和交互式分割等基本像素级理解任务的感觉能力。在本文中，作者以更简单优雅的方式解决上述所有挑战。作者的OMG-LLaVA将图像级（如图像标题和基于图像的对话）、目标级（如区域标题和基于视觉提示的对话）和像素级（如通用分割、指代分割、推理分割和接地对话生成）的视觉理解和推理任务统一为标记到标记的生成。该框架遵循简单优雅的系统设计，仅包括一个视觉感知模块和一个大型语言模型。

不同任务的综合视角。 作者将各种任务建模为标记到标记的生成，以弥合图像级、目标级和像素级理解与推理之间的差距。为了支持这些任务，作者定义了三种类型的标记：文本标记、像素中心视觉标记和目标中心视觉标记。文本标记编码文本信息。像素中心视觉标记代表密集的图像特征，为LLM提供全面的图像信息。目标中心视觉标记编码指定目标的特征，为LLM提供目标中心信息，并且可以容易地解码为分割 Mask 。

然后，所有任务可以统一为：

例如，在经典的图像级理解任务中，即图像标题，基于文本指令和图像特征生成文本响应。在目标级理解任务中，区域标题，基于文本指令、图像特征和指定的目标中心视觉标记生成文本响应。像素级推理任务，即指代分割，涉及基于文本指令和图像特征生成目标中心视觉标记。此外，OMG-LLaVA可以支持各种混合级任务，如围绕指定目标的接地描述。

像素中心视觉标记可以通过使用CLIP Backbone 网络作为标记器对图像进行标记化来获得。然而，目标中心视觉标记需要编码目标信息，以便容易地解码为分割 Mask 。因此，像Osprey [115]中的 Mask 池化和GLaMM [77]中的ROI池化等方法无法满足这些要求。作者发现，一个通用的感知解码器可以满足所有要求。因此，作者选择OMG-Seg解码器[52]作为目标中心标记器，因其具有全面的能力。

OMG-LLaVA Framework

图3：OMG-LLaVA概述。OMG-LLaVA由OMG-Seg和LLM组成。OMG-Seg将图像标记化为以像素为中心的视觉标记、检测到的物体，并将视觉提示输入到以物体为中心的视觉标记中。[SEG]由LLM输出的标记由OMG-Seg解码为分割 Mask 。在所有阶段，OMG-Seg保持冻结状态。

picture.image

OMG-LLaVA的框架如图2（e）所示。OMG-LLaVA包括一个大语言模型（LLM）和一个冻结的通用感知模块。通用感知模块编码用户提供的图像和视觉提示为以像素为中心和以物体为中心的视觉标记。它将LLM输出的以物体为中心的视觉标记转换为显式的分割 Mask 响应。LLM接受来自通用感知模块的文本指令标记以及以像素为中心和以物体为中心的视觉标记作为输入，然后输出文本响应以及以物体为中心的视觉标记。OMG-LLaVA的详细架构如图3所示。通用感知模块包括图像编码器、OMG解码器[52]和非可训练的感知先验嵌入组件。

图像编码器。 为了最大化通用感知模块的感知能力，作者使用基于ConvNeXt-L [68]的CLIP [76]模型作为图像编码器，并采用高图像分辨率（1024×1024）。然而，较大的图像分辨率导致过多的视觉标记输入到LLM中，使得其计算成本比使用较低分辨率图像（如224×224或336×336）显著增加。作者通过利用最低分辨率的图像特征（32×下采样）来解决此问题。此外，作者使用像素Shuffle操作进一步降低图像特征的分辨率。最终，用于生成视觉标记的图像特征的下采样因子为64，意味着一个1024×1024的图像产生256个视觉标记。

OMG解码器。 作者利用OMG解码器[52]生成以物体为中心的视觉标记，为LLM提供关于图像中的主要物体和用户输入视觉提示中提到的物体的信息。如图4左侧所示，OMG解码器包括 Mask 交叉注意力[17]和自注意力层。OMG解码器的输入包括一组可学习的物体 Query [18, 17, 9]，用于自动捕捉所有感兴趣的物体以及从编码输入视觉提示[42]派生的视觉提示 Query 。视觉提示 Query 和可学习的物体 Query 统称为物体 Query 。OMG解码器通过使用 Mask 交叉注意力从图像特征中检测物体 Query 的特征，并通过自注意力建模物体间的关系。物体 Query 可以通过一个简单的FFN层解码为分割 Mask 和物体类别。通过OMG解码器，OMG-LLaVA可以有效地将以物体信息标记化为以物体为中心的视觉标记，从而为LLM提供了关于图像中物体和用户提及的物体的信息。

picture.image

图4：OMG解码器的架构。一个简单的注意力 Mask 生成策略使OMG解码器能够编码点、框和 Mask 提示。

图5：感知先验嵌入策略的过程。感知先验嵌入策略根据分割先验将物体 Query 整合到图像特征中。

picture.image

OMG解码器可以接受点提示作为输入。虽然框和 Mask 提示可以很容易地转换为点提示，但这种粗略的转换会显著丢失提示信息，从而复杂化用户意图的显式编码。为了解决这个问题，作者可以根据视觉提示对 Mask 交叉关注层的注意力 Mask 施加约束，以精确编码提示所引用的目标信息。如图4右侧所示，对于框提示，作者利用框坐标为框外的所有像素特征定义注意力 Mask 。类似地，对于 Mask 提示，作者直接采用提供的目标 Mask 生成注意力 Mask 。通过这种简单的注意力 Mask 修改策略，OMG-LLaVA可以准确捕捉到用户的视觉提示，包括点、框和 Mask 提示。

作者采用一种感知先验嵌入策略来应对这一挑战。图5展示了感知先验嵌入策略。

首先，作者将图像编码器输出的图像特征与OMG解码器输出的目标 Query 进行融合。具体来说，作者利用从目标 Query 中获得的分割 Mask 及其相应的置信度分数来为每个像素的目标 Query 推导 Mask 分数：

然后，作者根据 Mask 分数计算目标 Query 的加权平均值，并获得每个像素对应的加权目标 Query 。通过将加权目标 Query 添加到图像特征中，得到以像素为中心的视觉标记：

此外，作者将前景目标 Query 视为以目标为中心的视觉标记。将目标为中心的视觉标记与以像素为中心的视觉标记连接起来，形成视觉标记，这些标记被输入到LLM以提供丰富的感知先验信息。

视觉投影器和文本投影器。 遵循[64]，作者使用MLP作为视觉投影器，负责将视觉标记映射到LLM的文本嵌入空间。由于作者的视觉标记由以像素为中心和以目标为中心的标记组成，视觉投影器包含两个MLP，分别处理每种类型的视觉标记。受到[44; 77]的启发，作者还使用简单的MLP将LLM输出的[SEG]标记的隐藏状态映射到视觉空间。

指令制定。 OMG-LLaVA可以接受视觉输入、文本输入和视觉提示 输入，并输出文本回复以及分割标记、分割 Mask 和标签。因此，它可以处理如图像字幕、基于图像的对话、区域字幕、基于视觉提示的对话、指代分割、推理分割、基于实体的对话等任务。作者使用统一的指令制定来支持这些功能。如图3所示，有三个特殊标记：、和[SEG]。在输入到LLM之前，标记被视觉标记替换，而标记可以被任何由视觉提示编码的以目标为中心的视觉标记替换。LLM输出中的[SEG]标记被发送到冻结的OMG解码器以解码为分割 Mask 。

Training and Testing Setup

训练。 作者遵循LLaVA [64]的方法，对OMG-LLaVA进行两阶段训练：预训练和指令调整。在预训练阶段，感知模型和LLM被冻结，只能调整视觉和文本投影器。除了文本回归损失外，作者还对视觉投影器和文本投影器应用正则化惩罚，以尽可能保留以目标为中心的信息。

在指令调整阶段，除了微调视觉投影器和文本投影器外，作者还使用LoRA [33]来微调LLM。遵循 [77; 52] 的方法，除了文本回归损失之外，作者还应用交叉熵损失和dice损失 [72] 来监督由 [SEG] 标记解码的分割 Mask 。

测试。 图像级、目标级和像素级的理解和推理任务都可以包含在方程式3.1的范式内。在推理阶段，作者将必要的任务要求（如文本提示、视觉提示和图像特征）编码成标记，输入到LLM中。根据任务定义，LLM的输出标记随后被解码为文本响应和分割 Mask 响应。

4 Experiment

数据集设置。 在预训练阶段，作者遵循LLaVA的方法，使用LLaVA预训练数据集[64]进行视觉与文本的对齐。OMG-LLaVA的指令调优过程涉及多种任务和数据集。对于图像级理解和推理任务，作者使用LLaVA数据集[64, 65, 63]，该数据集包含66.5万个描述、推理和对话数据。对于目标级理解和推理，作者使用Osprey数据集[115]的目标级描述和对话数据以及MDVP数据集[60]的目标级点提示数据，分别包含约7.4万和20万个数据。对于像素级理解和推理，作者使用参照分割数据集，包括refCOCO、refCOCO+[38]、refCOCOg[110]和refClef，总计74K个数据。此外，还使用了语义分割数据集，包括ADE20k[125]和COCO-stuff[6]，总计26K个数据，以及包含20万个数据的接地对话生成数据集GranDf[77]。

表4：在接地对话生成数据集上的性能表现。"ft"表示在GranDf[77]数据集上进行微调。表示该方法使用了GranD数据集[77]进行预训练。

picture.image

表2：OMG-LLaVA与其他多任务学习模型在像素级和目标级理解和推理能力及性能方面的全面比较。"-"表示该方法不处理此任务。表示该方法使用了GranD数据集[77]进行预训练，该数据集比其他方法使用的数据集大得多。

picture.image

表5：在RES和GCG数据集上的消融研究。

picture.image

实现细节。 作者使用预训练的ConvNext-L[68] OMG-Seg[52]作为通用感知模块，以及InterLM2-7B[8]作为LLM用于OMG-LLaVA。作者采用xtuner代码库[20]构建作者的模型和数据 Pipeline 。图像被调整为10241024的尺寸。在预训练阶段，只训练视觉投影器和文本投影器，初始学习率设置为1e-3。在指令调优阶段，初始学习率设置为2e-4，仅冻结感知模型，并使用LoRA[33]对LLM进行微调。LLM中的最大序列长度设置为2,048。所有训练均在配备80GB内存的四块NVIDIA A800 GPU上进行。预训练阶段和指令调优阶段分别耗时7小时和48小时。

Main Results

与MLLMs的全面对比。 OMG-LLaVA与当前具有感知能力的MLLMs进行了全面对比，结果如表2所示。OMG-LLaVA展示了最全面的能力，在指代分割、接地对话生成和区域描述方面取得了与SOTA相当的性能。此外，OMG-LLaVA保留了基本的分割能力，使其能够处理通用的图像和视频分割任务。与其他MLLMs相比，OMG-LLaVA具有简单优雅的系统设计，仅包含一个视觉编码器。

指代表达式分割。 作者在refCOCO、refCOCO+和refCOCOg上评估了OMG-LLaVA，结果如表3所示。在保持OMG解码器冻结并仅使用单个视觉编码器的情况下，OMG-LLaVA在refCOCO、refCOCO+和refCOCOg的验证集上分别比LISA[44]高出1.5 cloU、3.2 cloU和4.3 cloU。当作者解冻OMG解码器并在指代表达式分割任务上对OMG-LLaVA进行微调时，OMG-LLaVA在refCOCO、refCOCO+和refCOCOg上分别达到78.0、69.1和72.9 cloU，分别比LISA高出3.1、4.0和5.0 cloU。与PixelLM[78]相比，OMG-LLaVA在refCOCO和refCOCOg上分别显示出5.0 cloU和3.6 cloU的性能提升。

picture.image

接地对话生成。 接地对话生成是一项全面且复杂的任务，涉及图像级和像素级的理解和推理。MLLMs需要具备提供细粒度图像描述和像素级理解的能力，将图像标题中的目标与相应的分割 Mask 相链接。如表4所示，当使用相当数量的数据进行训练时，OMG-LLaVA在图像描述能力上超过LISA[44] 1.9 METEOR和7.3 CIDEr。在像素理解方面，OMG-LLaVA也比LISA表现更好，尽管LISA使用了SAM并对其分割解码器进行了微调，但OMG-LLaVA在AP50和mIoU上分别高出4.7和3.5。尽管GLaMM[77]使用的训练数据比OMG-LLaVA多得多，但OMG-LLaVA展示了相当的像素理解能力，在测试集上以0.6 CIDEr、1.4 AP50和0.1 mIoU超过GLaMM。

Ablation and Analysis

消融研究。 作者在指代表达式分割和接地对话生成数据集上进行消融研究，所有训练和测试设置与主要实验保持一致。作者使用OMG-Seg [52]和LLaVA [64]的简单组合作为 Baseline ，类似于LISA [44]，其中LLM输出的[SEG]标记被输入到OMG-Seg以获得分割 Mask ，OMG-Seg保持冻结。

图6：展示了所提出策略的有效性。左部分显示了 Baseline （表5中的M0），中间部分显示了带有感知先验嵌入的模型（表5中的M1），右部分显示了同时具有感知先验嵌入和目标 Query 输入的模型（表5中的M2）。

picture.image

如表5所示， Baseline 在RES数据集上的表现不佳。同样，在GCG数据集上，它的分割质量也较低。这是因为LLM没有获取任何分割先验，需要根据图像特征生成分割 Query 并适应冻结感知模块的输入，这是一个具有挑战性的任务。当使用作者提出的感知先验嵌入策略时，OMG-LLaVA在refCOCO、refCOCO+和refCOCOg上的性能分别提高了13.8 cloU、10.6 cloU和11.7 cloU。此外，感知先验嵌入策略还在GCG数据集上带来了11.1 mIoU的性能提升，并在图像描述能力上略有提高（0.4 METEOR）。当向LLM提供前景目标 Query 时，OMG-LLaVA在refCOCO上的性能进一步提高了1.9 cloU，在GCG上提高了1.5 mIoU。

作者对提出的策略进行了可视化分析。如图6的左部分所示，简单 Baseline 在文本与分割关联方面的能力较弱，这是其RES性能不佳的关键原因。当使用作者提出的感知先验嵌入策略时，根据感知先验明确地集成了目标 Query 和像素特征，从而显著增强了文本-分割关联能力。通过采用目标 Query 输入策略，一些具有挑战性的分割情况的质量略有改善，如图6中围栏右下角的情况。

定性结果。 作者在图1中提供了OMG-LLaVA在多个图像级、目标级和像素级任务上的可视化结果。附加的定性可视化结果或指代表达式分割和接地对话生成的可比较视觉结果将在附录中展示。

5 Conclusion

作者提出了一种新的多任务学习模型（MLLM），名为OMG-LLaVA，它在一个模型内桥接了图像级、目标级和像素级的理解和推理。

作者的方法仅包含一个图像编码器、一个大型语言模型（LLM）和一个解码器。

通过所提出的感知先验嵌入和统一任务指令调整，OMG-LLaVA能够执行超过8种不同的多模态学习任务，同时保持了OMG-Seg Baseline 的视觉感知能力。与之前的组合工作相比，作者的方法在参数数量和计算成本大大减少的情况下，仍能取得可比较的结果。

作者希望能够启发社区重新思考MLLM元架构的设计，以最小化模型组件并最大化MLLM的功能性。

参考

[1], LLaVA: Large Language-and-Vision Assistant, NeurIPS-2024.

[2], OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding, arxiv-2024

[3], OMG-Seg: Is one model good enough for all segmentation?, CVPR-2024.

武大南洋理工昆仑提出 OMG-LLaVA：一个统一的框架，实现图像级、目标级和像素级的推理 ！

1 Introduction

2 Related Work

3 Methodology

Task Unification

OMG-LLaVA Framework

Training and Testing Setup

4 Experiment

Main Results

Ablation and Analysis

5 Conclusion

参考