OG-HFYOLO | 融合梯度方向感知与异构核交叉，mAP74.23%碾压Mask R-CNN与YOLOv8 - 文章 - 开发者社区

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

精简阅读版本

本文主要解决了什么问题

1. 针对变形表中几何变形导致的单元格内容信息与结构之间关联性弱的问题，提出了一种细粒度空间坐标定位方法。
1. 解决了现有数据集中缺乏针对严重变形表的细粒度标注数据的问题，设计了一个数据生成器以扩展现有数据集，并构建了DWTAL-s和DWTAL-1两个大规模数据集。
1. 应对变形表中密集目标分布和极端尺度变化带来的挑战，提出了梯度方向感知提取器（GOE）、异构核交叉融合（HKCF）模块、尺度感知损失函数以及基于Mask的非极大值抑制（MASK-NMS）等技术。

本文的核心创新是什么

梯度方向感知提取器（GOE） ：通过集成梯度强度和方向信息，增强模型对密集排列单元格边界信息的捕捉能力，防止传统卷积核沿边缘进行各向同性扩散。

异构核交叉融合（HKCF）模块 ：结合Bottleneck结构和异构核选择协议（HKsP），动态适应多尺度目标特征表示，提高对宽平或窄高细胞的检测效果。

尺度感知损失函数 ：根据目标尺度分配自适应权重，增强模型对小目标的敏感性，同时抑制大目标中的特征冗余。

基于Mask的非极大值抑制（MASK-NMS） ：取代传统的基于边界框的NMS机制，直接基于预测Mask的IoU进行抑制判断，有效应对复杂形状和密集排列的单元格。

结果相较于以前的方法有哪些提升

1. 在DWTAL-s数据集上，OG-HFYOLO模型的mAP@50:95达到了74.23%，显著优于主流两阶段实例分割模型如Mask R-CNN（62.5%）和Cascade Mask R-CNN（62.1%），也超越了经典YOLOv8（57.5%）和更先进的YOLOv11（57.8%）。
1. 相较于基于Transformer的架构（如Mask2Former，63.3%），OG-HFYOLO在精度上高出10.93%，同时保持了单阶段模型应有的推理速度。
1. 消融研究表明，所提出的模块（GOE、HKCF、尺度感知损失和MASK-NMS）协同作用显著提升了模型性能，证明了整体框架的有效性。

局限性总结

计算复杂度增加 ：引入GOE和HKCF模块虽然提高了精度，但也增加了模型参数规模和计算需求，可能限制其在低资源设备上的部署。

泛化能力受限 ：尽管模型在DWTAL数据集上表现出色，但在其他领域（如医学细胞分割或遥感图像分析）的实际应用效果尚需进一步验证。

后处理效率 ：基于Mask的NMS虽然提高了准确性，但相比传统基于边界框的NMS，计算开销更大，可能影响实时性能。

数据依赖性 ：模型性能高度依赖于高质量的细粒度标注数据，而当前的数据生成器虽然能够扩展数据集，但仍可能存在一定的合成偏差。

深入阅读版本

导读

表结构识别是文档分析中的关键任务。然而，变形表中的几何变形导致内容信息与结构之间的关联性较弱，从而使得下游任务无法获取准确的内容信息。为了获取单元格的细粒度空间坐标，作者提出了OG-HFYOLO模型，该模型通过梯度方向感知提取器增强边缘响应，结合异构核交叉融合模块和尺度感知损失函数以适应多尺度目标特征，并在后处理中引入 Mask 驱动非极大值抑制，取代传统的边界框抑制机制。此外，作者还提出了一种数据生成器，填补了细粒度变形表单元格空间坐标定位数据集的空白，并构建了一个名为变形线表（DWTAL）的大规模数据集。实验表明，作者提出的模型在所有主流实例分割模型上均表现出优异的分割精度。

数据集和代码：https://github.com/justliulong/OGHFYOLO

1 引言

在信息日益增长的时代，表作为结构化数据的核心载体，广泛承载着财务报告、教育学习以及科学实验数据等关键信息。与此同时，随着扫描、摄影等技术的普及，表电子文档的应用场景也日益复杂。特别是在照明、角度和场景条件复杂多变的情况下，扫描的表图像或拍摄的表图像可能存在各种变形。这些物理变形（如弯曲、透视畸变和褶皱）给表结构识别技术带来了巨大挑战。

表结构识别技术[1]，旨在从图像中重建表的行列拓扑结构和语义信息，通过深度学习取得了显著进展。尽管存在许多端到端模型，这些模型通过直接生成HTML或LaTeX表结构序列实现图像到结构序列的转换[2, 3]，但端到端模型的黑盒特性使得中间步骤不可控。相比之下，非端到端策略，一种将单元格定位和结构推理解耦的模块化方法，为表结构识别任务提供了一种相对透明的解决方案，同时也催生了对单元格空间坐标定位的需求。本主题以获取单元格空间坐标为研究内容，研究一种能够在严重变形表中有效提取单元格空间坐标的方法。

表单元的空间坐标定位主要分为两种方法。一种是基于单元轮廓的目标检测方法，该方法能有效检测大部分轻微变形的单元，但在严重变形的情况下，这种检测方法可能会丢失单元内容的关键信息，导致单元内容信息与结构之间的关联性较弱，给下游任务（如单元内容获取）带来困难。另一种是基于文本框的分割方法[4, 5]，主要应用于无线非变形表，但在有线变形表中尚未得到广泛应用。因此，在获取严重变形的有线表单元空间坐标方面仍存在差距。单纯使用基于关键点的目标检测方法无法解决变形图像的问题（如图1b所示）。为填补这一空白，本研究提出了一种基于实例分割的框架（图1c），实现更细粒度的空间坐标定位，能够为下游任务提供更准确和丰富的信息。

picture.image

一方面，在变形线表识别任务的数据集方面仍存在一些差距。根据公开文献，只有少数大规模开源数据集如WTW[6]和TAL-OCR[7]针对变形表场景，但其标注粒度难以支持像素级分割模型的训练。为此，作者设计了一个数据生成器，能够基于现有数据集生成新数据集。具体来说，作者从TAL-OCR和WTW中选取轻度变形表，将其标签转换为更细粒度的分割标注，并将这些标注数据输入数据生成器以生成大量变形表数据，有效支持实例分割模型的训练。基于TAL-OCR和WTW开源数据集的部分数据，以及150张离线收集和标注的图像，作者通过数据生成器构建了一个大规模数据集，并根据来源将其分为两个独立部分：小型变形线表（DWTAL-s），包含8,765个较简单的表，主要由TAL-OCR衍生；以及大型变形线表（DWTAL-1），包含19,520个复杂的表，主要由WTW扩展。后续实验将聚焦于这两个数据集。

另一方面，在利用实例分割技术对变形线表中的细胞进行空间定位时，存在两个主要挑战：首先，表单元的高度密集排列及其相邻单元之间的共享轮廓线使得边界信息提取变得困难。其次，合并单元的存在导致细胞尺寸变化巨大，包括过宽平或过窄高的细胞，进一步增加了细胞空间定位的复杂性。

实例分割致力于实现像素级目标分离和语义解析，其方法反映了计算机视觉中精度与效率平衡的探索。早期研究主要依赖两阶段框架。代表性工作Mask R-CNN [8]通过生成区域建议和提取特征，在复杂场景中实现了高精度的 Mask 预测。然而，由于多阶段计算过程的固有延迟，该方法难以满足实时应用需求。随着单阶段方法的兴起，研究行人摒弃了区域建议机制，转而通过密集预测全局特征图直接生成目标位置和 Mask 。尽管如此，单阶段模型在目标轮廓复杂性和密集目标区分方面仍面临重大挑战，需要通过特征表达机制的革新实现精度突破。

为了解决衍生数据集带来的密集目标和大规模变化挑战，作者首先提出了一种梯度方向感知提取器（GOE），将图像纹理的梯度方向和梯度强度集成到YOLO结构网络中作为学习特征，能够更充分地捕捉每个单元的边界信息。同时，模型在特征融合阶段结合了 Bottleneck 结构[9]和异构核选择协议（HKsP），可以更有效地融合不同尺度的特征，并在大规模变化情况下提高模型的检测效果。此外，针对分割任务，作者设计了一种尺度感知损失函数，自适应地为小目标设置更高的损失权重，以提高模型对尺度变化的鲁棒性。在后处理阶段，传统的实例分割模型通常基于边界框遵循非极大值抑制机制；然而，由于密集排列的变形单元具有复杂形状，边界框将出现高度重叠现象，这将导致基于边界框的NMS错误地抑制正确目标。为此，作者引入了基于nask的NMS，它直接基于预测nask的IoU进行抑制判断。

本文的主要贡献总结如下：

• 为解决变形表中密集排列单元格导致的客观信息遗漏问题，作者提出了梯度方向感知提取器（GOE），该提取器增强了密集排列单元格的边界区分能力。GOE集成了梯度强度和方向的双重信息：在特征提取过程中，定向滤波器将图像梯度场解耦，以量化边缘区域的强度分布，防止传统卷积核沿边缘进行各向同性扩散。同时，作者设计了一种方向感知注意力机制，将梯度方向编码为通道分量，引导网络深层专注于变形边界的区分区域。此外，作者还提出了异构核交叉融合（HKCF）模块用于特征融合阶段。
• 该模块通过异构核选择协议（HKsP）动态适应多尺度目标下的特征表示，并行部署非对称卷积核。通过整合跨层特征交互机制，HKCF明确捕捉了水平宽细胞和垂直窄细胞的差异化空间模式。
• 作者进一步设计了一种尺度感知损失函数，该函数根据目标尺度分配自适应权重，增强模型对较小变形细胞的敏感性，同时抑制较大细胞中的特征冗余。此外，为了防止由于变形细胞的复杂形状和密集排列，在后处理过程中有效细胞被错误抑制，作者放弃了传统的基于边界框的非极大值抑制（NMS），并引入了一种基于 Mask 的NMS后处理操作。
• 为解决变形表细粒度标注数据的稀缺问题，作者设计了一种数据生成器以扩展现有数据集。作者首先从可用数据集中选取轻度变形表，将其标签转换为更细粒度的分割标注。这些经过筛选的样本随后由生成器处理，以生成两个具有不同难度 Level 和规模的数据集：DWTAL-s和DWTAL-1。

2 相关工作

2.1 表单元的空间坐标定位

表单元的空间坐标定位，作为表结构识别的上游任务，在后续的表结构识别和解析任务中起着至关重要的作用。为了解决单元定位问题，研究行人提出了多种方法。例如，Prasad等人[4]提出了Cascade表et，将表中的文本框视为目标，并将文本框检测定义为实例分割任务。基于Cascade Mask R-CNN，该模型提取文本框 Mask 。这代表了实例分割算法在表结构识别中的首次应用。然而，他们的实验仅限于非变形表，且未充分讨论空单元格对下游任务的影响。

遵循相似概念，Qiao Liang等人[5]开发了LGPMA模型，该模型通过软特征金字塔整合全局和局部信息，同时采用实例分割进行文本框检测。与Cascade表et不同，LGPMA包含专门用于空单元格的搜索算法。遗憾的是，该模型也未在可变形表上进行评估。为解决可变形表中的空间坐标提取问题，Cycle-CenterNet[6]提出了一种基于轮廓角点的目标检测方法，通过检测单元格中心来预测四个轮廓点。虽然该方法推动了可变形表识别的进展，但也存在局限性：严重的边界曲率显著增加了角点回归的难度，而使用粗粒度目标检测框架时，某些单元格中的关键信息可能会丢失。

这些挑战凸显了需要更细粒度技术来保留关键细胞信息的需求。基于这一需求，作者的工作将实例分割技术引入可变形表的空间坐标定位中。通过利用实例分割的像素级精度，OG-HFYOLO实现了更精细的空间坐标提取，从而更好地应对可变形表结构中细胞定位的挑战。

2.2 现有数据集

表结构识别的发展得益于众多开源数据集。早期的数据集如UNLV [11] 和 ICDAR-2013 [12] 主要用于评估传统方法，包含样本有限（通常少于1,000张图像），且缺乏表单元的空间坐标标注。这些局限性降低了它们在现代基于深度学习的模块化表识别流程中的实用性。随着深度学习对数据集规模要求的不断提高，徐中、李明浩等研究行人引入了大规模数据集，如Pub表et [2] 和表eBank [13]。然而，这些数据集侧重于使用HTML或LaTeX序列进行结构标注，而忽略了空间坐标标注。类似地，Fin表et [14] 和 SciTSR [15] 等大规模数据集包含了单元格坐标和行列关系，但主要数据来源于结构化数字文档，如PDF或从LaTeX导出的文档，这些文档具有高度标准化，未能解决可变形表识别问题。

尽管ICDAR-2019 [16] 通过引入扫描的档案文档试图弥补这一差距，但其小规模（750张图像）和有限的变形类型仍然不足。CamCap [17] 数据集明确设计用于基于规则的算法，仅包含85张变形表——这对于支持数据驱动的深度学习模型来说规模太小。直到WTW[6]数据集被提出，该数据集捕捉了多样化自然场景中的表，具有复杂的背景和广泛的变形。然而，WTW采用基于四个轮廓角点的粗粒度空间坐标标注，难以处理严重的变形。类似地，专注于教育的TAL-OCR [7] 数据集，从真实世界摄影中收集，包含中等程度的变形，但也缺乏对单元格的细粒度实例分割级空间标注。这些数据集中没有哪一个能够充分应对识别严重变形表结构的挑战。

2.3 YOLO中实例分割的改进

与两阶段实例分割模型相比，单阶段YOLO模型在实例分割任务中展现出速度与准确性的平衡性能，吸引了大量研究力量致力于提升YOLO框架。例如，YOLOMask[18]和PR-YOLO[19]将CBAM模块集成到YOLOv5[20]中，以减少背景噪声干扰。类似地，YOLO-SF[21]将CBAM模块集成到YOLOv7[22]中，以提高对微小物体特征的敏感性。YOLO-CORE[23]提出了多阶段约束（极坐标距离损失和扇区损失）进行直接轮廓回归，以增强 Mask 边界精度。YUSEG[24]将UNet与YOLOv4[25]结合，以解决密集物体中的模糊分割问题。TTIS-YOLO[26]通过多尺度高效跨阶段模块、双向跨尺度连接和动态梯度优化，提升了复杂道路场景中的实例分割精度。GHA-Inst[27]通过优化YOLOv7的特征融合和输出层，引入全局混合注意力（GHA）模块以增强关键特征保留，从而缓解实例遮挡和背景干扰问题。

尽管这些进展适用于多种场景，但据作者所知，目前尚无研究将基于YOLO的分割模型应用于可变形表中细胞的坐标定位。这项任务由于目标尺度极端变化、细胞形状复杂以及目标密集排列等因素，面临着重大挑战。

3 数据生成器和衍生数据集

本节首先介绍数据生成器的实现，然后简要介绍由数据生成器衍生出的数据集DWTAL。

3.1 数据生成器

深度学习本质上是以数据驱动的，数据集的规模和质量对模型性能有显著影响。为了生成一个足够大且高质量的数据库，作者提出了一种数据生成器，该生成器能够从现有的图像和标注中创建扭曲图像和相应的标签。这些扭曲经过精心设计，以模拟现实世界的变形场景。具体来说，该生成器包含两种扭曲方法：波浪扭曲和圆柱扭曲。此外，它根据原始照明条件调整图像亮度，以模拟现实世界摄影中的自然光照变化。以下三个小节将详细阐述这两种扭曲技术的实现以及亮度调整策略。

3.1.1 波形失真变换

波浪变形是一种基于三角函数的图像波浪状变形技术。该技术旨在模拟将图像附加到柔性曲面（例如，波纹管或折叠织物）时产生的变形，这些曲面会诱导基于正弦或余弦函数的变形，或模仿人类引起的变形。这种变形会引入严重的变形，显著挑战表结构识别。具体的三角函数变形变换由公式1定义：

其中

和

表示原始图像中的坐标，而

和

表示变形后的坐标。参数

对应于波长，它控制变形周期（

的值越大，变形周期越短，导致图像扰动更频繁）。振幅

控制变形强度，

的值越高，变形越严重。

和

都是可调节参数。

3.1.2 圆柱形畸变变换

圆柱形变形会扭曲图像内容以模拟圆柱形表面的失真。该方法模拟了书籍或报告中边界线压缩、圆柱形表面的照片或举起文档拍摄时产生的弯曲失真所引起的变形。此类变形在现实场景中非常普遍，并着重于文档直立方向的实用需求。因此，变形变换仅沿文档的垂直方向（y轴）应用，而不扭曲水平轴（x轴）。圆柱形变形变换由公式2定义：

其中

和

表示原始图像坐标，

和

表示扭曲后的坐标，

是图像宽度，

作为扭曲因子（

的值越高，扭曲效果越明显），

定义扭曲轴参数。参数

指定圆柱曲率中心轴。

的值越大，中心轴向左移动，靠近轴的部分会经历较轻的扭曲，而远离轴的部分则会出现更强的扭曲。

和

都是公式中的可调参数。

3.1.3 照明调整机制

现实场景中的摄影图像常因光照角度产生阴影，阴影位置随照明方向变化。多数阴影源自相机设备，最暗区域通常位于图像的四个角之一。作者提出了光照调整机制，该机制首先使用源自标准清晰度电视标准ITU-R BT.601[28]的公式3计算图像整体亮度：

其中

、

分别表示图像背景中红、绿、蓝通道的亮度值，而

表示整体亮度（

值越高表示图像越亮）。

若图像亮度低于预设阈值，则不应用额外阴影。否则，随机选择一个靠近图像四个顶点之一的阴影中心，并按如下方式重新计算每个像素的亮度值：

其中

表示中心亮度（峰值阴影强度，取值范围为 [0,1]，其中较高值表示更高的亮度），

代表边缘亮度（最弱阴影强度，同样在 [0,1] 范围内），

是图像对角线长度，而

测量像素

与阴影中心之间的欧几里得距离。

和

都作为可调节参数。

数据生成器通过协调参数随机化整合了这三种操作（波形失真、圆柱形扭曲和光照调整）。参数约束模拟自然变形：例如，方程1中的

和

保持反比关系，而方程2中的

和

被约束以避免极端值。这些参数间的依赖关系引导系统生成物理上合理的图像失真。

3.2派生数据集 DwTAL

数据生成器能够从有限的轻微变形表中合成大规模的变形表数据。虽然数据集包含150个自收集样本，但它主要利用了两个公开的自然场景数据集（TAL-OCR和WTW）。最初，从TAL-OCR和WTW中选取轻微变形的表，使用角坐标生成细粒度分割 Mask 。然后，这些 Mask 通过数据生成器进行迭代处理，生成多样化的变形表图像。这两个源数据集具有不同的特点：TAL-OCR包含以教育为导向的图像，具有清晰的表结构和简化的背景，导致生成的衍生数据相对简单。为了增强多样性，自收集样本与TAL-OCR衍生数据合并，形成一个名为DWTAL-s的紧凑数据集。相比之下，WTW具有更复杂的背景和更丰富的内容，能够创建一个更大、更具挑战性的数据集，称为DWTAL-1。

数据集划分。两个数据集遵循相同的划分协议。为确保变形类型在训练集和测试集中的均匀分布，每个数据集的80%随机分配用于训练，20%用于测试。最终计数达到DWTAL-s中7,012个训练图像和1,753个测试图像，而DWTAL-1中有15,616个训练图像和3,904个测试图像。

衍生数据集从其父集继承核心特征，包括弯曲变形、透视畸变、多色背景、表面不规则性和光照变化。关键增强在于表单元的像素级实例分割标注，尽管所有图像仅包含单表实例。此外，将公开发布一个带有逻辑坐标标注的数据集版本，以支持更广泛的研究应用。

4 方法

4.1 整体架构

图3展示了OG-HFYOLO的整体架构，该架构采用YOLO类似的框架，分为三个核心组件：特征提取主干网络、特征融合 Neck 和检测Head。为了增强纹理特征提取，模型首先将初始下采样特征图输入到梯度方向感知提取器（GOE），生成富含纹理信息的特征图。主干网络采用CSP-Unit模块，每个模块包含一个

下采样卷积、SiLU激活函数、批量归一化以及YOLOv5使用的跨阶段部分网络（CSP）[29]。通过五次下采样操作，主干网络生成多尺度特征图P3、P4、P5。

picture.image

在特征融合过程中，提取的特征通过FPN-PAN[30]路径进行整合。与标准YOLO实现不同，OG-HFYOLO在 Shortcut 之后集成了异构核交叉融合（HKCF）模块，以增强跨尺度目标特征交互。融合后的特征随后通过CSP模块进行最终精炼，然后被送入检测Head。检测Head保留了YOLOv5的基于 Anchor 框[31]的设计，使用预定义的 Anchor 框进行分类和边界框回归，并通过非极大值抑制[32]（NMS）过滤冗余检测。

4.2 基于梯度方向的提取器

作者考虑物体密度是变形表单元空间坐标定位中的主要挑战。模型提取的不准确轮廓可能导致相邻的小单元合并为错误检测的大单元。这种聚合过程逐步模糊了特征融合过程中的尺度变化，最终降低了预测精度。

在目标密集场景中，实例分割的准确性受限于模型感知轮廓细节的能力，而核心挑战在于如何有效建模纹理区域的梯度强度和方向敏感性。方向梯度直方图（HOG）[33]在此提供了关键见解：如图4所示，HOG将图像划分为多个网格，将梯度特征解耦为每个网格内的梯度方向和梯度强度，并将这些属性聚合为特定方向直方图。其核心思想在于同时捕捉梯度幅度和方向先验，以增强轮廓的几何可辨识性，这一原则直接指导了作者解决密集细胞检测中轮廓模糊问题的方法。

picture.image

GOE采用相同的理念，专注于使模型能够学习轮廓细节的梯度强度和梯度方向特征，这有效地增强了其对具有复杂轮廓和密集排列的目标的识别能力。

在获取解耦的水平梯度方向特征图

和垂直梯度方向特征图

后，该模块采用不同的策略来整合两个方向的梯度特征：一方面，GOE通过公式6计算梯度幅度，生成梯度强度特征图

；另一方面，GOE根据公式7进行通道级联，得到梯度方向特征图

GOE模块最终根据公式8聚合梯度强度特征图

和梯度方向特征图

。它首先对通道编码的

应用方向注意力

，将不同方向的梯度信息映射到不同的通道中。编码后的特征通过Softmax[34]进行归一化。随后，梯度强度特征图

通过与通道编码的梯度方向特征图

的Hadamard积进行加权。由于每个方向的梯度是相互独立的，采用实例归一化（IN）[35]来稳定模型训练，最终生成同时包含梯度方向和强度特征的特征输出

。

方向注意力

: GOE模块中的方向注意力

本质上是一种可学习的卷积操作。该模块通过模拟方向分箱技术初始化卷积核权重

，该技术应用于方向梯度直方图（HOG）。具体而言，连续角度空间

被均匀离散化为

个方向分箱，每个分箱的中心角度定义为

。对于每个方向分箱

，通过极坐标变换公式计算笛卡尔坐标系中的对应单位方向基向量：

。这些基向量随后被连接并在两个维度上扩展，以构建初始化的卷积核权重

。

卷积神经网络的自顶向下特征学习机制表明，浅层高分辨率特征图在捕获Low-Level视觉特征（如边缘和纹理）方面表现出更强的能力，而深层则更侧重于语义抽象和全局结构建模[36]。基于此，作者在 Backbone 网络中第一层卷积下采样层之后嵌入梯度方向提取器（GOE），利用其高空间分辨率特性精确捕获方向梯度特征。图6展示了GOE模块在从第二层下采样特征图中进行早期特征提取时的有效性。通过引入该提取器，网络在具有色干扰和模糊细胞轮廓的图像的早期阶段注入了几何先验，为后续跨层特征融合建立了精细粒度的基础。

picture.image

4.3 异构核交叉融合

除了密集的目标分布外，表单元分割还面临着由于合并单元格引起的极端尺度多样性挑战：水平合并会在多列中创建跨列的宽目标，而垂直合并会生成跨越多行的细长目标。这类目标要求模型具备多粒度感知能力。YOLO系列通过多尺度检测Head解决尺度变化问题，其中高分辨率特征图检测大目标，低分辨率特征图专注于小目标。然而，传统的固定尺寸卷积核难以适应表中单元格特征的多形态多样性。

picture.image

受YOLO-MS[10]的启发，该论文提出通过核多样性匹配目标多样性，并引入异构核选择协议[10]（HKSP），作者采用HKSP概念并整合非对称交叉卷积[37]设计了一种异构核交叉融合（HKCF）模块。如图7所示，该模块采用 Bottleneck 结构以降低计算复杂度。首先，输入特征图

通过

卷积进行通道降维以获得低维特征

。具有核大小

的HKCF模块

在此降维通道空间中提取特征

。最后，

和

沿通道维度进行拼接，并通过另一个

卷积恢复原始通道维度，以输出特征图

。计算流程可表示为：

\begin{array} { c } { F \_ { i n } = C o n v ( I \_ { i n } ) } \ { F \_ { o u t } = H K C F ^ { ( k ) } ( F \_ { i n } ) } \ { I \_ { o u t } = C o n v ( C a t ( F \_ { i n } , F \_ { o u t } ) ) } \end{array}

如方程10所示，在异构核交叉融合模块

中，输入特征图

首先通过通道注意力桥[38]（CAB）进行处理。CAB采用全局平均池化和多层感知机生成通道权重，动态增强与目标形态强相关的特征通道，从而缓解 Bottleneck 结构维度降低导致的信息损失。为应对合并细胞带来的极端窄高和宽胖挑战，该模块用异构交叉卷积

替代标准卷积。该操作并行部署水平扩展核

和垂直扩展核

。这两个分支分别捕获列跨越合并细胞的水平连续特征和行跨越合并细胞的垂直长距离依赖关系。这两个分支的输出相加，精确适应不同尺度目标的几何特征。

在HKSP后，从浅层到深层特征融合图逐步应用3、5、7大小的交叉卷积。最后，通过残差连接将原始输入

与

的输出特征图相加，生成最终输出特征图

。

\begin{array} { c } { F \_ { o u t } = H X C o n v ^ { ( k ) } ( C A B ( F \_ { i n } ) ) + F \_ { i n } } \ { H X C o n v ^ { ( k ) } ( I ) = H C o n v ^ { ( k ) } ( I ) + V C o n v ^ { ( k ) } ( I ) } \end{array}

4.4 损失函数优化

在基于 Anchor 点的实例分割框架中，目标损失

通常依赖于IoU（IoU）及其变体来测量预测边界框与真实边界框之间的几何偏差。然而，传统的CIoU损失[39]由于同时计算宽高比和中心距离，导致其在极端宽高比目标上的优化方向存在模糊性，从而降低了边界框回归的精度。为解决这一问题，作者用EIoU损失[40]替代CIoU，该损失明确解耦了宽高优化路径，能够针对宽高比敏感目标进行有针对性的梯度方向调整。

对于 Mask 损失

，YOLO框架默认采用二元交叉熵损失

（公式11）。此外，为了减轻大目标区域对损失值的影响，YOLO对

内检测到的目标区域应用了简单的归一化（公式12）

其中

表示 Mask 中像素的总数，

表示真实 Mask ，

表示预测 Mask 。

其中

表示用于归一化的目标实例区域面积（像素计数），而

和

分别代表裁剪区域

的高度和宽度，这些值可以进行空间平均以用于损失计算，类似于全局平均池化。

然而，仅依赖二元交叉熵损失

会忽略细胞背景与整体表背景之间的固有相似性，其中背景像素在数量上占主导地位。为防止模型偏向高频背景类别，作者将Dice Loss[41]整合到基础分割损失

中。与关注逐像素概率校准的交叉熵损失不同，Dice Loss通过优化区域重叠来提升性能，优先考虑分割目标的结构完整性。这种方法增强了边缘对齐和区域连续性。Dice Loss公式定义在公式13中，其中

表示逐元素乘法。

基础损失

是根据公式14将两种损失相加形成的。在原始损失函数中，用于归一化的反比函数旨在消除目标尺寸对损失权重的影响。虽然这有效地防止了训练偏差倾向于大目标优化，但它对小目标的优化产生了不利影响。具体来说，反比函数对小面积目标的损失施加了过于激进的权重。为了解决这个问题，本文重新考虑了动态权重的分配，以避免对小目标进行过度权重放大，所提出的动态权重方案在原始归一化权重之上加入了一个更平滑的对数函数。计算如下：

综合上述考虑，作者得到尺度感知损失函数

，其定义如公式16所示，其中

表示图像中的实例数量，

和

分别表示实例

的裁剪区域的宽度和高度，

对应实例

的面积

4.5 后处理优化

基于 Anchor 点的检测模型通常依赖于非极大值抑制（NMS）作为核心的后处理操作，通过IoU阈值来过滤冗余的检测框。传统NMS在Sparse分布的目标场景中表现稳健，但在密集变形表单元检测中存在固有局限性：当相邻单元由于几何变形导致边界框高度重叠时，IoU准则会错误地将它们识别为同一实例，从而抑制置信度较低的准确定位框。

尽管Soft-NMS通过置信度衰减机制部分缓解了过度抑制问题，但复杂目标形状引起的严重重叠仍会导致IoU值虚高，未能从根本上解决问题。为解决此问题，受SOLOv2中 Mask 竞争策略的启发，作者摒弃边界框抑制范式，引入 Mask 驱动非极大值抑制，该方法采用像素级Mask_IoU进行冗余消除。该指标定义为：

\mathrm { M a s k \_ I o U } = \frac { | M \_ { i } \cap M \_ { i } | } { | M \_ { i } \cup M \_ { j } | }

和

是两个预测 Mask 的二元矩阵。只有当低置信度 Mask 与高置信度 Mask 的 Mask_IoU 超过阈值时，才会被抑制。与传统的 IoU 标准相比，Mask_IoU 直接量化 Mask 重叠，绕过了由边界框重叠引起的空间不匹配，从而在复杂的表布局中保留更精确的单元格实例。

5 实验

5.1 实验设置

实验所涉及的数据集为DWTAL-s和DWTAL-1，均在配备24 GB显存的RTX 3090上进行实验，整个实验基于Python 3.8.19、PyTorch 1.13.0和CUDA版本12.4进行。

在消融研究中，作者不使用预训练权重。输入图像被调整为

，批处理大小为2。训练过程持续200个epoch，使用配置了动量因子为0.9、初始学习率为0.001和权重衰减为0.0005的随机梯度下降（SGD）优化器。

为了便于对比实验，所有非YOLO模型均使用MMDetection在24GB RTX 3090 GPU上实现。ResNet-101 Backbone 网络使用微软亚洲研究院（MSRA）[45]提供的预训练权重初始化[46]，并在ImageNet数据集上训练。对于DWTAL-s，输入图像设置为640×640，批处理大小为2。由于训练资源有限，DWTAL-1实验同样使用640×640输入，但将批处理大小减少到1。两个数据集均使用SGD优化器进行100个周期的微调，优化器配置动量为0.9，初始学习率为0.001，权重衰减为0.0001。

5.2 评估指标

为了全面评估实例分割模型的性能，作者采用通用指标，包括平均精度均值（mAP）、模型参数数量和GFLOPs作为定量标准。mAP通过计算多个置信度阈值下的平均精度来衡量模型的分割和分类能力。具体来说，在给定的置信度阈值t下，首先使用公式18计算精确度

和召回率

：

其中，

表示在置信度阈值

下的假阳性，而

表示在同一阈值下的假阴性。

平均精度（AP）定义为精确率-召回率（PR）曲线下的面积。置信度阈值t下的每类平均精度

通过公式19计算。

其中

表示当召回率

时的最大精度。最后，通过使用公式 20 对所有类别在置信度阈值

下的

值进行平均，得到平均精度均值

。不同的置信度阈值会导致不同的指标：

使用 0.5 的置信度阈值，反映了在宽松定位要求下的 Baseline 性能，而

通过对 0.5 到 0.95 的置信度阈值（步长为 0.05）范围内的结果进行平均，严格评估模型对目标边界的鲁棒性。

参数数量（Parameters）反映了模型的复杂性和存储需求。过多的参数可能导致过拟合和部署挑战，而不足的参数会限制特征表示能力。GFLOPs以十亿浮点运算数量化每次推理的计算需求，衡量计算效率。高GFLOPs的模型依赖高性能GPU，难以满足实时性要求，而低GFLOPs设计适用于实时视频处理，但需要架构优化以平衡精度权衡。本研究中所有GFLOPs值均在输入尺寸为

的情况下报告。

5.3 定量结果

为验证模型的有效性，作者将所提出的模型与主流分割模型在DWTAL-s数据集上进行了比较，包括两阶段模型（Mask R-CNN [8]、Cascade Mask R-CNN [47]）、单阶段模型（SOLOv2 [43]、YOLACT [48]）、基于Transformer的架构（Mask2Former [49]）以及经典YOLO模型（YOLOv5l-seg [20]、YOLOv8l-seg [50]、YOLOv11l-seg [51]）。

DWTAL-s数据集上的实验结果如表1所示，表明OG-HFYOLO模型取得了74.23%的

，优于主流的两阶段实例分割模型，如Mask R-CNN（62.5%）和Cascade Mask R-CNN（62.1%）。该模型分别比经典YOLOv8（57.5%）和更先进的YOLOv11（57.8%）高出16.73%和16.43%，并且比最高精度的YOLOv5变体（71.96%）高出2.27%。此外，所提出的模型比基于Transformer的Mask2Former（63.3%）高出10.93%。在模型参数数量方面，引入具有相对较大卷积核的异构核交叉融合架构略微增加了参数规模，但在当前硬件存储限制下仍可管理。在推理速度方面，YOLACT在追求极致速度和模型尺寸时严重牺牲了模型精度，而OG-HFYOLO模型在精度和速度之间取得了平衡，保留了单阶段模型应有的速度。该模型在速度上超越了主流的两阶段模型以及一些单阶段模型，如SOLOv2和Mask2Former。

picture.image

5.4 定性分析

为进一步展示所提出模型在表单元分割方面的泛化能力，图9展示了在真实世界摄影场景和Camcap数据集[17]图像上的分割结果，该模型专门使用DWTAL-1数据训练。左侧列显示了自然场景照片：左上角的图像源自WTW数据集中的真实表，左下角代表实际拍摄的场景。右侧四个子图对应Camcap样本。从结果来看，OG-HFYOLO模型仍能实现良好的分割效果，这足以证明该模型具有较强的泛化能力。

picture.image

5.5 消融研究

5.5.1 Anchor 点机制的影响

随着深度学习的发展，目标检测模型逐渐从基于 Anchor 框的机制转向 Anchor-Free 框机制[52]，以追求更高的速度和更小的参数规模。从YOLOv5开始，模型开始减少对预定义 Anchor 框的依赖，到YOLOv8时， Anchor-Free 框机制已成为标准。

picture.image

对比实验清晰地表明，在同一YOLO系列中，采用 Anchor-Free 框机制的YOLOv8l-seg和YOLOv11l-seg，其准确率显著低于基于 Anchor 框的YOLOv51-seg模型。为验证基于 Anchor 框机制在当前任务中的优越性，对 Anchor 框机制进行了消融研究。如表3所示，在两个衍生数据集上，YOLOv5和OG-HFYOLO模型采用基于 Anchor 框机制时，所有指标均显著提升超过10%，凸显了基于 Anchor 框机制在该研究背景下的有效性。

5.5.2 所提出方法的影响

表4展示了所提出方法在DWTAL-s数据集上的消融研究结果。梯度方向感知提取器（GOE）旨在捕获更丰富的纹理信息，并缓解由密集物体分布引起的检测挑战。异构核交叉融合（HKCF）和尺度感知损失处理严重的尺度和长宽比变化，而MASK-NMS算法优化后处理以应对复杂形状和拥挤实例。

picture.image

衍生数据集中的挑战相互依存，这意味着解决孤立问题会带来有限的性能提升。例如，虽然GOE通过纹理提取部分解决了检测困难，但它无法解决尺度变化问题，导致改进有限（例如，仅当单独引入GOE时，mask mAP@50:95提高了0.44%）。类似地，HKCF和尺度感知损失的孤立集成分别仅提高了mask mAP@50:95 0.09%和0.48%。然而，如表4所示，互补模块的协同集成带来了显著提升。例如，将GOE与尺度感知损失结合使mask mAP@50:95提高了1.29%。这些结果证实，虽然每个所提出的模块单独有效，但它们的协同集成对于实现最佳性能至关重要。

5.6 主干模块的影响

为了阐明为何所提出的模型未采用YOLOv11中引入更先进的 Backbone 架构，该架构通过灵活的C3k2模块[51]进行特征提取，并在最终阶段集成C2PSA注意力机制[51]以整合 Backbone 特征，作者在相同实验设置下对不同 Backbone 配置进行了消融研究。

picture.image

如表5所示，基准C3架构在两个数据集上均实现了最佳性能，其表现优于包含YOLOv11增强组件的变体。实验结果表明，直接使用C3模块即可获得最佳结果。

6 结论

为获取变形表中细胞的细粒度空间坐标，作者引入了DWTAL数据集。针对该数据集中密集目标分布和极端尺度变化的挑战，提出了OG-HFYOLO模型以实现表细胞的精确实例分割。该模型包含多项关键创新：梯度方向感知提取器（GOE）增强了密集堆叠目标的轮廓感知能力，异构核交叉融合（HKCF）和尺度感知损失缓解了严重尺度变化带来的挑战，并采用基于 Mask 的非极大值抑制（MASK-NMS）以防止因边界框重叠导致的错误抑制。

这项工作利用实例分割技术获取变形表中细胞的精确空间坐标，该任务属于表结构识别中的中上游任务。涉及逻辑坐标处理的下游任务可以采用LGPMA的操作框架，通过系统整合计算机图形学原理和几何拓扑理论优化工作流程。此外，衍生数据集中遇到的挑战，如密集目标排列和尺度多样性，在医学细胞分割和遥感图像分析等领域普遍存在。因此，所提出的框架为解决这些领域中的类似挑战提供了有益的见解。

参考

[1]. OG-HFYOLO :ORIENTATION GRADIENT GUIDANCE AND HETEROGENEOUS FEATURE FUSION FOR DEFORMATION TABLE CELL INSTANCE SEGMENTATION *

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image