点击下方卡片,关注「集智书童」公众号
本文主要解决了什么问题
跨模态位置偏差问题 :现有方法在将旋转位置嵌入(RoPE)应用于视觉语言模型(LVLMs)时,未能充分考虑文本和图像 Token 之间的相对位置无关性,导致无意的跨模态位置偏差。
空间信息丢失问题 :一些方法为了减少跨模态偏差而忽略了图像内部的空间关系,导致细粒度视觉结构的丢失。
几何表示不足问题 :传统方法未能有效解耦文本和图像的位置编码,限制了模型对多模态数据的理解能力。
本文的核心创新是什么
Circle-RoPE框架 :提出了一种新颖的位置编码方案,通过将图像 Token 索引映射到与文本 Token 索引正交的圆形轨迹上,形成锥形结构,从而减少人工的跨模态偏差,同时保留图像内的空间信息。
Token 距离(PTD)度量 :设计了一种简单而有效的度量标准,用于量化跨模态位置编码的独立性,帮助评估不同方法的有效性。
双帧融合(DFF)机制 :在CIP变换后的笛卡尔坐标和原始笛卡尔坐标之间进行插值,平衡了文本-图像解耦和图像内部空间信息的保留。
交替几何编码(AGE)策略 :在Transformer层间循环切换M-RoPE和Circle-RoPE,充分利用两种表示形式的互补优势,提升模型的整体性能。
结果相较于以前的方法有哪些提升
跨模态对齐增强 :Circle-RoPE显著减少了文本和图像 Token 之间的相对位置偏差,提升了跨模态对齐能力。
空间信息保留 :相比简化位置编码的方法(如统一索引分配),Circle-RoPE更好地保留了图像内部的空间关系。
实验结果优异 :在多个基准测试中,Circle-RoPE超越了基线模型和其他先进模型,特别是在MMMU、MathVista、MMStar等任务上表现突出。
- • 在MMMU上达到52.11分,比基线模型高出若干百分点。
- • 在MathVista数学推理任务中获得63.4分,优于基线模型的62.4分。
- • 在AI2D科学图表理解数据集上达到81.8的高分。
局限性总结
计算复杂度增加 :Circle-RoPE引入了几何变换步骤(如坐标中心化、混合角圆映射和目标平面旋转),可能增加了计算开销。
参数敏感性 :模型性能对某些超参数(如角度混合系数
、融合因子
和半径
)较为敏感,需要精心调优。 3. 3. 适用范围局限 :虽然Circle-RoPE在视觉语言任务中表现出色,但其在其他多模态场景(如音频-文本或视频-文本)中的适用性和效果尚需进一步验证。
旋转位置嵌入(RoPE)是一种广泛应用于大语言模型(LLMs)中编码相对位置信息的常用技术。然而,当将其扩展到大型视觉语言模型(LVLMs)时,其变种会引入无意的跨模态位置偏差。具体来说,它们在文本 Token 索引和图像 Token 之间强制引入相对位置依赖关系,导致虚假的排列。这个问题产生的原因是,表示相同内容但位于不同空间位置的图像 Token 被赋予了不同的位置偏差,从而导致了跨模态关联的不一致性。为了解决这个问题,作者提出了 Token 距离(PTD)——一种简单而有效的度量标准,用于量化跨模态位置编码的独立性。基于这一分析,作者引入了Circle-RoPE,这是一种新颖的编码方案,将图像 Token 索引映射到文本 Token 索引线性路径正交的圆形轨迹上,形成锥形结构。这种配置确保每个文本 Token 与所有图像 Token 保持等距离,从而减少人工的跨模态偏差,同时保留图像内的空间信息。为了进一步提升性能,作者提出了交错层策略,在层间应用不同的RoPE变种。这种设计利用了每个RoPE变种的互补优势,从而提升了模型的整体性能。作者的实验结果表明,Circle-RoPE能够有效保留图像的空间信息,同时减少相对位置偏差,为LVLMs提供了一种更鲁棒和灵活的位置编码框架。
代码:https://github.com/lose4578/CircleRoPE
1 引言
在Transformer架构的快速发展中,旋转位置嵌入(RoPE)[21]已成为编码相对位置信息的标准。RoPE在广泛的自然语言处理(NLP)任务中展现出卓越的性能,在当前大语言模型(LLMs)的成功中发挥了关键作用。其有效性和成熟度促使其成为现代LLM架构中默认的组件。当扩展模型以处理文本和视觉输入时,例如在大视觉语言模型(LVLMs)中,一个挑战随之出现:如何有效地跨不同模态编码位置信息。文本具有固有的序列性,而视觉数据在空间上结构化,具有位置、方向、视角和尺度等属性,这些属性本质上是不同的,且与文本顺序基本无关。
研究行人已提出多种方法来解决这个问题。一些研究借助RoPE在大语言模型(LLMs)中的成功经验,将其应用于多模态场景。例如,Emu3 [23]、InternLM-VL [4]、Baichuan-Omni [12]、Eve [19]、DeepSeek-VL2 [24]以及LLaVA系列 [13, 14]等模型采用将图像token展平为1D序列并与文本token连接的策略。这种设计使这些模型能够直接利用成熟的1D RoPE机制进行多模态编码。然而,它引入了显著的相对位置差异,语义相似的图像块被分配了截然不同的相对位置,无论其上下文相关性如何。为解决这一问题,mPLUG-Owl3 [28]简化了位置编码,为所有图像块分配统一的索引,确保它们与任何文本token的相对距离保持恒定。虽然这种方法减轻了跨模态失真,但代价是忽略了图像内部的空間关系,导致细粒度视觉结构的丢失。在此基础上,更High-Level的RoPE扩展方案不断涌现,以进一步提升空间理解能力。值得注意的是,Qwen2-VL中的M-RoPE [22]引入了3D位置编码方案,旨在捕捉文本的序列特征和视觉数据的空間布局。
上述所有RoPE变体在将视觉 Token 与文本 Token 连接之前,要么将视觉 Token 展平为1D序列(例如LLaVA [14]),要么将它们映射到规则的2D网格上(例如Qwen2-VL [22])。然而,这些过程引入了人为的相对距离,与模态之间的真实语义对应关系不一致。例如,来自同一图像的视觉 Token ——尽管在语义上相似——往往仅因其网格位置而被分配截然不同的RoPE编码距离。这种差异并非源于内在数据关系,而是源于位置嵌入方法的硬编码假设,从而产生了不必要的相对位置偏差,扭曲了模型对跨模态关系的理解(如图2所示)。这些偏差突显了一个关键限制:当前的编码方案未能将文本和视觉空间表示解耦,导致跨模态交互不一致,并损害了多模态理解能力。
在本文中,作者提出了Circle Rotary Position Embedding (Circle-RoPE),一种灵活的位置编码策略,能够在保持内在空间关系的同时确保跨模态的一致性对齐。Circle-RoPE在计算RoPE旋转因子之前,对视觉 Token 的原始坐标索引应用了一系列几何变换。该设计旨在实现文本和图像 Token 的完全解耦编码,减少位置偏差并增强跨模态理解。具体而言,作者基于M-RoPE [22]机制,其中每个图像的 Token 索引由其高度和宽度坐标表示,并引入了若干关键改进。首先,为了实现图像和文本 Token 索引之间的完全解耦,作者提出了圆形图像 Token 索引投影(CIP)。该方法将图像 Token 的二维坐标点从图像 Token 的矩形网格投影到三维空间中的圆上,圆的法向量与文本向量对齐。这种几何变换确保了正交分离,保证沿法向量(代表文本 Token 索引)的每一点与投影圆上的每一点保持相等的欧几里得距离和一致的RoPE [21]距离,形成锥状结构。同时,图像 Token 之间的相对位置信息在圆上得以保留,如图1(d)所示。该设计有效地解耦了跨模态的位置依赖关系。
为进一步提升图像内空间一致性,作者引入了一种双帧融合(Dual-Frame Fusion, DFF)机制,该机制在CIP变换后的笛卡尔坐标和原始笛卡尔坐标之间进行插值。这允许在利用CIP几何规则性的同时,对空间结构进行灵活控制。此外,作者提出了一种交替几何编码(Alternating Geometric Encoding, AGE)策略,该策略在Transformer层之间循环切换M-RoPE [22]和Circle-RoPE,使模型能够利用两种表示形式的互补优势以提升性能。这些创新共同使Circle-RoPE成为一个统一框架,能够有效分离文本和图像表示,增强空间一致性,并提升模型进行视觉推理的能力。
2 相关工作
大型视觉语言模型(LVLMs)在单个Transformer内整合视觉和文本输入,但为两种模态添加位置编码仍然存在挑战。一种标准方法是在整个序列中使用旋转位置嵌入(RoPE)。然而,将RoPE简单应用于连接的视觉和文本 Token 可能会引入跨模态位置偏差:模型注意力可能因图像和文本 Token 之间的相对位置偏移而偏斜。这种偏差会削弱跨模态对齐,因为视觉 Token 通常占据与文本 Token 相距甚远的序列位置,导致信息融合不理想。
多模态大语言模型(LLMs)和像素级理解的最新进展突出了统一架构和位置编码策略的重要性[7, 32, 10, 29, 11]。许多LVLM系统采用一种简单策略,即将所有token展平为1D序列,并使用共享位置编码(如RoPE)对文本和图像token进行编码,例如LLaVA[13]、Emu3[23]和DeepSeek-VL2[25]。然而,这种方法由于模态间较大的索引差距,可能会引入显著的位置偏差。
另一种方法是使用共享索引位置编码来处理视觉 Token 。例如,mPLUGOwl3 [28] 在应用 RoPE 时,通过占位符 Token 将图像的所有 Patch 分配相同的索引位置。这种交错方案保留了图像在文本上下文中的插入位置,减少了图像 Patch 之间的索引差异,从而减轻了由于模态混合导致的某些偏差。
第三种策略是为图像的二维结构引入空间位置嵌入。Qwen2-VL [22] 通过将RoPE分解为独立的维度(高度、宽度和时间索引)来体现这一策略,即多模态RoPE(M-RoPE)。这种方法使用二维坐标对图像块进行编码,而不是使用大型一维索引,从而更好地将视觉 Token 与文本位置对齐。
这些方法在某种程度上解决了跨模态位置问题,但均未完全消除偏差。扁平化的1D序列仍然存在模态差距,共享索引方法忽略了图像内顺序,而空间嵌入增加了复杂性却未直接量化残余偏差。
3 背景与问题分析
尽管近期多模态研究借鉴了RoPE在大语言模型中的成功,但所采用的定位索引策略可能不足以有效应对跨模态位置信息的复杂性。例如,Qwen-VL系列[22, 2]引入了多模态旋转位置嵌入(M-RoPE[22])来表示视频token在宽度、高度和时间维度上的位置,这显著提升了大型多模态模型的性能。然而,当前大多数多模态RoPE方法普遍存在的问题是未能充分考虑到文本序列中词位置(文本token索引)与图像中物体或内容位置(图像token索引)之间固有的无关性。将这两种类型的索引直接输入RoPE编码会导致不合理的相对位置关系,从而在训练和推理过程中引入偏差。
图1展示了实现多模态位置嵌入的一些常见方法:
-
- 硬嵌入(图1a):图像 Token 被展平为1D序列,并直接与文本 Token 连接。虽然这种方法直接且直观,但它不能保证每个文本 Token 独立地与图像 Token 交互,反而常常引入不必要的位置偏差,而不是完全依赖于High-Level语义理解。
-
- 无序嵌入(图1b):所有图像 Token 被分配相同的索引,因此任何文本 Token 与其所在图像中的所有图像 Token 之间的距离都相同;然而,这种方法忽略了图像 Token 之间的相对位置。
-
- 空间嵌入(图1c):根据 Token 在图像中的位置为其分配2D索引,这为图像 Token 提供了更准确的空间信息,但仍然无法保证文本和图像 Token 位置之间的独立性。
现有方法主要独立地对图像进行空间信息编码,对文本进行序列信息编码,忽略了交织位置嵌入可能产生的潜在干扰。这种疏忽可能导致无意中的偏差,扭曲跨模态对齐。理想情况下,为了消除此类偏差,RoPE索引中每个文本 Token 与所有图像 Token 之间的"距离"应保持一致,确保跨模态的位置独立性。
3.1 每个token距离度量
为了量化并比较不同的基于RoPE方法如何影响文本和图像 Token 之间的相对位置关系,作者设计了一个名为 Token 距离(PTD)的度量标准。PTD评估在应用位置编码后,文本 Token 索引和图像 Token 索引之间的独立性。其形式化定义如下:
假设图像 Token 的索引列表为
,大小为
,文本 Token 的索引列表为
,大小为
。PTD的计算公式为:
其中
表示
和
之间的欧几里得距离的绝对值。PTD值越小,意味着每个文本 Token 到所有图像 Token 的距离更加一致,表明文本和图像 Token 索引之间的耦合程度较低。作者对三种典型的多模态编码方法计算PTD,即硬嵌入(图1(a))、无序嵌入(图
和空间嵌入(图1(c))。为方便起见,作者设置
和
。PTD值如下:
在现有RoPE方法对文本和图像 Token 进行编码后,如果编码包含相对位置信息,PTD通常大于零。这表明存在相对位置偏差,已成为进一步提升LVLM性能的 Bottleneck 。
3.2 VQA示例分析
为了更直观地说明相对位置偏差的负面影响,作者使用一个视觉问答(VQA)的例子。给定一张图像和文本问题或描述,模型需要生成一个答案。在传统的RoPE编码中,图像 Token 通常会被扁平化并与文本 Token 连接,形成一个一维序列。
考虑图2中展示的VQA示例,问题为:"钟楼上显示的是什么类型的宗教?"在这个语境中,主要术语"高在"和"钟楼"在图像内容中的位置关系上都存在问题。这些案例突显了两种典型的相对位置偏差类型:
-
- 语义不对齐:从语义上讲,“high on”应该对应图像 Token (索引
),但在RoPE的位置编码之后,最近的 Token 是图像 Token (索引
)。 2. 2. 多个匹配的不等距离:短语“钟楼”指的是所有代表钟楼的图像 Token ,但“钟楼” Token 到每个相关图像 Token 的距离不一致。
基于这一观察,作者提出一个问题:能否设计一种位置索引方案,以最小化PTD指标(理想情况下实现
)?例如,如果作者将所有图像 Token 索引映射到特殊位置,使得它们与任何文本 Token 索引的RoPE距离始终相同,作者就能实现
。
4 方法
作者提出了一种用于LVLM的新型位置编码方法——圆形旋转位置嵌入(Circle-RoPE)。其核心思想是在应用旋转矩阵之前,对图像 Token 索引
进行一系列坐标变换。这种设计有效地消除了不期望的相对位置偏差,同时忠实地保留了图像 Token 之间的空间关系。
为降低每token距离(PTD)并保持图像内位置的一致性,作者扩展了M-RoPE [22] 中采用的2D位置编码,并将其应用于Qwen2-VL [22],提出了作者的Circle-RoPE。在M-RoPE中,图像token索引通过宽度和高度坐标分别表示,而文本token使用与标准RoPE等效的1D位置索引。对于多模态配置,M-RoPE通过从前一个模态的最大索引处偏移来为每个后续模态分配位置索引,防止索引重叠(图1c)。
作者将Circle-RoPE分解为三个组件:圆形图像 Token 索引投影(CIP,第4.1节)、双帧融合(DFF,第4.2节)和交替几何编码(AGE,第4.3节)。
作者从CIP开始,其设计目的是完全将图像 Token 索引与文本 Token 索引解耦,即实现PTD=0。CIP的核心思想是将图像 Token 索引投影到结构化的几何空间中,确保与任何文本 Token 的RoPE距离均匀,并消除无意中的位置偏差。CIP过程包括三个关键步骤:(i)坐标中心化:将所有图像 Token 索引的几何中心移至原点,标准化坐标参考。(ii)混合角圆映射:将中心化的图像 Token 索引投影到二维圆形轨迹上。每个索引的角度位置由其空间原点角(SA)和网格索引角(GA)的组合决定,并定义一个半径以保持结构一致性。(iii)目标平面旋转:将上一步的二维圆形结构旋转到三维空间中的特定平面上。该平面的方向由文本 Token 索引决定,确保图像 Token 索引平面与文本 Token 索引方向的正交性。为了保持图像内空间一致性,作者引入了DFF,它在线性插值CIP转换后的坐标和原始笛卡尔坐标之间进行插值,在利用CIP的几何规律性的同时保留原始空间结构的可控程度。此外,作者提出了AGE,它在不同Transformer层之间循环切换M-RoPE[22]索引和Circle-RoPE索引,使模型能够利用多种几何表示的互补优势。
4.1 圆形图像 Token 索引投影(CIP)
如图3(a)所示,基于原始M-RoPE索引,作者根据规则网格获取图像token索引,记为
,其中
和
。这里,
和
分别对应token化后图像的宽度和高度。为清晰起见,作者令
对应
轴,
对应
轴。CIP的目标是将原始图像token索引
转换为与文本token解耦的索引,从而得到
。这些转换后的索引直接用于RoPE计算。
4.1.1 坐标中心化
为便于后续变换,作者首先对图像 Token 索引坐标进行居中处理。具体而言,图像 Token 索引的几何中心
的计算方法如下:
作者将该中心点从所有原始坐标中减去,以获得中心化坐标:
这确保了
的几何中心位于原点
,为后续的投影和旋转提供了自然的参考坐标系。
4.1.2 混合角圆形映射
为了构建一个能有效将文本 Token 索引与图像 Token 索引解耦的锥形结构,作者首先将中心化图像 Token 坐标
转换为极坐标,并将其投影到二维圆上。在此转换过程中,圆上每个点的角度位置由其空间原点角度(SA)和网格索引角度(GA)的组合决定,而半径
保持灵活。所得的二维圆形结构如图3(b)所示。作者将在下文详细说明这两个角度和半径的计算方法。
角度计算:作者将两个互补角结合,以平衡空间结构与索引信息,确定每个图像 Token 索引的变换角度:
空间原点角
(SA): 作者首先计算每个中心点
的极角
函数
返回点
与正
轴之间的角度,范围在
。然后,作者将这些角度归一化到范围
。
因此,如图3(e)所示,SA为:
(2) 网格索引角度
:作者将
网格展平为包含
个点的 1D 序列,并根据其展平索引
为每个点分配均匀间隔的角度。
将索引
映射回网格位置
可得
,确保角度在圆周上均匀分布,如图3(d)所示。
(3) 角度混合:最终混合角度
通过对两种策略进行加权平均计算得到。
系数
控制了保留空间信息和增强各位置独特性之间的平衡。SA 保留了更多的空间结构,而 GA 则导致位置之间的分离更加清晰,使模型更容易区分它们。
半径计算:半径
的选择影响变换后坐标的尺度,并影响RoPE [21]使用的有效频率范围。作者在此提供两种策略:
-
- 固定:使用预定义的常数值
-
- 自动(自动-
):基于中心化坐标
A 的散布度量(如最大
范数)对
进行缩放
其中
是一个预定义的缩放因子(例如,
或
)映射到圆上:使用计算出的角度
和半径
,作者为每个图像 Token 索引点计算
-平面上的新坐标:
这产生了一组位于XY平面上的圆
上的点,半径为
,如图3(b)所示。
4.1.3 目标平面旋转
在之前的映射之后,视觉 Token 索引点被映射到XY平面上的
。为了与文本 Token 索引(即,实现PTD
),作者将圆在三维空间中旋转,使其平面垂直于由文本 Token 索引定义的向量
,即
作为圆的法向量。为了计算方便,作者将
扩展到三维空间,通过将所有点的第三个(z)坐标初始化为零。具体的转换过程如下:
(1) 定义目标平面法向量:将
归一化以获得单位法向量
..
(2) 构造目标平面的正交归一基:然后定义两个位于目标平面且与
正交的正交归一向量
。
其中,u是位于目标平面内且垂直于
的单位向量,而
也同时垂直于
和u,确保
构成一个右手正交归一基。
(3) 坐标变换:对于
上的每个点
,计算其在目标平面上的新坐标,将其表示为线性组合:
映射到
,确保
并保留相对于图像的空间信息。
4.2 双帧融合
CIP变换产生一组图像 Token 索引
,理论上这些索引与文本 Token 索引
完全解耦。然而,这种变换可能存在一个缺点:虽然混合角度圆映射(Sec. 4.1.2)中的角度混合保留了部分原始空间关系,但
的几何结构与原始笛卡尔索引
相比发生了显著改变,可能丢失对视觉任务至关重要的细粒度空间细节。
为解决此问题,作者提出了一种双帧融合方法。目标是将CIP(Circle-RoPE中的核心变换)和原始(或中心)坐标的优势相结合,平衡文本-图像解耦(低PTD)和图像内部空间信息的保留。具体而言,作者使用融合因子
来整合CIP输出
和中心原始坐标
。
其中
,
是第4.1.1节中的中心坐标。当
时,仅使用CIP变换后的坐标
,实现完全解耦。当
时,仅使用中心原始坐标
,对应于中心M-RoPE [22],保留原始空间结构。对于
,所得几何结构在
之间插值。
4.3 交替几何编码
在基于Transformer的LVLMs中,不同层倾向于捕捉不同的几何模式——低层关注局部细节,而高层强调全局结构。因此,作者提出了一种交替几何编码策略,使模型能够在不同深度上利用原始和转换后的位置编码,充分利用分层几何表示。具体而言,作者在层之间交替编码方法:原始RoPE [21] 索引
应用于奇数层,而CIP转换后的索引
用于偶数层。
5 实验
在本节中,作者首先介绍模型配置和参数细节,然后比较Circle-RoPE与主流模型,最后通过消融实验验证Circle-RoPE的有效性并分析不同组件的贡献。
5.1 训练设置
为评估Circle-RoPE的有效性,作者采用Qwen2.5-VL [2] 作为实验的 Baseline 模型。引入的唯一修改在于位置编码方法的实现;其他所有配置均保留自 Baseline 模型。在训练过程中,作者仅更新LLM组件的参数,同时冻结Vision-Language投影层和Vision Encoder的参数。所有实验均在统一的训练设置下进行。完整的超参数配置集见表1。
在训练过程中,作者从MAmmoTH-VL Instruct数据集(12M)[8]中随机采样十分之一,并排除所有视频数据,从而得到一个名为MAmmoTH-VL-Sub(1M)的子集。作者的实验表明,即使在这种减少的数据规模下,Circle-RoPE相比 Baseline 方法仍实现了显著的性能提升。
5.2 与其他模型的比较
本节评估了Circle-RoPE在不同数据集上的性能,并将其与SAIL-VL [5]、InternVL2.5 [4]、Ovis2 [17]、Phi-3.5-vision [1]等先进模型,以及不同规模的MiniCPM-V-2 [27]和Qwen2.5-VL [2]进行了基准测试。
为确保对表2中列出的开源模型进行全面且公平的比较,作者采用VLMEvalKit[6]在统一协议下评估所有模型。由于作者使用了第三方开源工具包,且用于评估的GPT版本与部分模型原始论文中报告的版本有所不同,表中的结果可能与官方结果不完全一致。
在大学水平基准测试中,Circle-RoPE在MMMU [30]上获得了52.11的分数。对于MMMUPro [31],Circle-RoPE达到了28.44的分数,超越了 Baseline 模型(Qwen2.5-VL-3B [2])。在数学推理任务中,Circle-RoPE也展现了强大的能力:在MathVista [16]上,它获得了63.4的分数,超过了62.4的 Baseline 分数。在通用视觉理解和推理方面,它在MMStar [3]上获得了58.2的高分。该模型在MMBench-EN [15]上以80.24的分数表现良好,在MMBench-V1.1-EN [15]上以78.41的分数表现良好。同时,作者的AI2D [9]科学图表理解数据集的方法也达到了81.8的水平。在回答图表问题的ChartQA [18]基准测试中,该模型达到了84.12的准确率。在RealWorldQA [26]中,它对现实世界场景图像有着深刻的理解,获得了66.54的分数。在场景文本理解和OCR领域,它在TextVQA [20]基准测试上展现了80.39的准确率。
5.3 消融实验
5.3.1 圆形映射实验
作者对圆形图像 Token 索引投影(CIP)中使用的参数进行了消融研究。为了验证角度混合的有效性并选择最佳半径,作者设计了一系列消融实验。具体而言,作者变化了角度混合参数
并探索
计算半径的不同策略如表3所示,当
时,模型在半径设置为10时取得了最平衡的性能。
此外,作者还提供了在MAmmoTH-VL-Sub (1M)数据集上进行监督微调(SFT)后的 Baseline 模型结果。这允许在相同条件下直接比较不同参数配置对模型性能的影响。
5.3.2 双帧融合实验
为研究混合系数
对模型性能的影响,作者使用不同值的
评估了模型。实验结果如表4所示,表明当
时,模型在所有数据集上实现了最均衡的性能。
5.3.3 交替几何编码实验
为全面评估在不同模型层中使用不同几何编码策略的影响,作者系统性地设计和评估了四种不同的编码配置。具体而言,作者探索的策略包括:(1)在所有层中始终应用Circle-RoPE,从而在整个网络中保持统一的编码方法;(2)仅在高层采用Circle-RoPE,即第19层至第36层;(3)仅在低层使用Circle-RoPE,具体为第1层至第18层,以评估在模型的不同深度引入相对位置偏差的影响。
作者还包含了第(4)项实施交替几何编码策略,其中Circle-RoPE和M-RoPE在每个连续层交替使用,以最大化两种编码方法的互补优势。如表5所示,实验结果清晰地表明,交替策略在所有测试配置中实现了最稳健的性能。这一发现证实,在两种编码方法之间交替使用能够使模型同时利用两种方法的优点。这一发现表明,在不同的模型阶段利用两种编码方法独特的优势可以提升整体效果,并产生更具表现力的几何表示。
6 结论
本文针对将RoPE直接应用于多模态VLM场景所面临的挑战展开研究。现有方法主要集中于将RoPE扩展至视觉模态,而忽略了视觉位置索引与文本 Token 之间的关键相互作用。为评估这一被忽视的方面,作者首先引入了 Token 距离度量方法来量化错位程度。
基于这些见解,作者提出了Circle-RoPE这一新型框架,该框架包含三个转换步骤。作者的核心思想是在保留视觉模态内部相对位置信息的同时,减轻文本与图像 Token 之间错误的相对位置偏差。这种解耦的位置编码增强了跨模态对齐,为更稳健的多模态理解铺平了道路。
参考
[1]. Circle-RoPE: Cone-like Decoupled Rotary Positional Embedding for Large Vision-Language Models
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)