超越 YOLOv10 和 YOLOv7，专为大规模高分辨率图像处理设计！

点击下方卡片，关注「集智书童」公众号

点击加入👉「集智书童」交流群

picture.image

想要了解更多：

前沿AI视觉感知全栈知识👉「分类、检测、分割、关键点、车道线检测、3D视觉（分割、检测）、多模态、目标跟踪、NerF」

行业技术方案 👉「AI安防、AI医疗、AI自动驾驶」

AI模型部署落地实战 👉「CUDA、TensorRT、NCNN、OpenVINO、MNN、ONNXRuntime以及地平线框架」

欢迎扫描上方二维码，加入「 集智书童-知识星球 」，日常分享论文、学习笔记、问题解决方案、部署方案以及全栈式答疑，期待交流！

免责声明

凡本公众号注明“来源：XXX（非集智书童）”的作品，均转载自其它媒体，版权归原作者所有，如有侵权请联系我们删除，谢谢。

picture.image

木材种类识别在各个行业中起着关键作用，从确保木材制品的合法性到推进生态保育工作。

本文介绍了WoodYOLO，一种专门针对显微木材纤维分析的目标检测算法。

作者的方法将YOLO架构适应于解决大型高分辨率显微图像带来的挑战，以及需要对感兴趣的细胞类型（管状元素）进行高召回率定位的需求。

作者的结果表明，WoodYOLO在F2分数方面显著优于最先进的模型，分别比YOLOv10和YOLOv7提高了12.9%和6.5%。

这种提高的自动化木材细胞类型定位能力有助于提高监管合规性，支持可持续的林业实践，并推动全球生物多样性保护工作。

1 Introduction

森林砍伐是全球生物多样性丧失和气候变化的原因。最近，欧洲联盟采纳了《欧盟森林砍伐法规》（EUDR，议会[2023年]），取代了《欧盟木材法规》（EUTR），要求在欧盟内交易的产品基于无森林砍伐供应链。这增加了对木材产品和其原产地声明的确认需求。

这对于纸制品来说是一个特定的挑战，因为在生产过程中，DNA会被破坏，不同纸浆会混合在一起。

因此，无法使用遗传学、稳定同位素或近红外光谱学进行分析。因此，无法分析木材种类的起源（Tsuchikawa和Kobori，2015；Schmitz等人，2020）。最近，首次引入了一种非常复杂的新化学分类学方法来确定木材种类（Flaig等人，2023）。然而，检查纸张中声明的木材种类的标准分析方法仍然是解剖学（Helming等人，2018；Ilyessalo-Pfaffili，1995）。在样本准备完成后，专家对细胞特征进行显微镜检查需要花费时间，并需要高度的个人经验。图1展示了一种分析被浆化的细胞显微镜图像的示例。该领域的专家数量有限，使得满足木材种类验证的需求日益增长（Ruffinatto和Crivellaro，2019）。

picture.image 为了应对这些挑战，计算机视觉和机器学习的最新进展为自动化木材种类识别提供了有前景的途径（Silva等人，2022年）。特别是深度神经网络等机器学习技术在分析大规模图像数据集和提取对物种分类至关重要的复杂特征方面表现出了显著的能力。然而，尽管存在用于宏观木材分析的自动化系统，但纤维材料如纸的显微分析的自动化方法仍然处于初级阶段。

最近，一种基于深度学习的针对微磨碎木材样本显微图像中船体元素检测和分类的方法被提出（Nieradzik等，2023）。这些努力突显了自动化在简化传统手动任务方面的潜力。然而，现有方法通常面临召回率不理想和计算资源需求高的挑战，尤其是在处理大型和高分辨率显微图像时。

为了克服这些局限性，并进一步推动自动化木材种类识别，作者提出了WoodYOLO，这是一种专门针对显微镜下木材纤维分析的新颖目标检测算法。WoodYOLO在YOLO（仅看一次）架构的基础上构建，并采用了针对高分辨率显微镜性能的定制优化。

作者的算法引入了几个关键创新：

专门针对显微图像优化的YOLO基础架构，与YOLOv10和YOLOv7相比，在F2分数方面分别实现了12.9%和6.5%的显著性能提升，同时使用了大约3-4倍的 less VRAM。

一种新型的 Anchor 框规格方法介绍，用户仅定义物体的最大宽度和高度。这种方法提高了F2分数0.7%。

全面评估现代目标检测器中的各种架构决策。作者的研究结果表明，针对通用数据集（如COCO，Lin等人，2015）进行优化的方法，不一定能在实际数据集或不同领域中提高性能。

通过提高自动化木材种类识别能力，作者的工作有助于提高监管合规性，支持可持续的林业实践，并在全球范围内促进生物多样性保护努力。WoodYOLO代表了在纤维材料显微图像中开发可扩展、可靠和高效木材种类识别方法的重要一步。

2 Related Work

近年来，在纤维材料显微图像中的木材种类的自动化识别已引起广泛关注。这种关注度主要源于对全球木材纤维制品控制高效、准确方法的需求。

Nieradzik等人（2023年）提出了一种使用深度学习技术识别显微图像中硬木种类的开创性方法。他们开发了一种生成大量软化木材参考数据集的方法，重点关注九种硬木属。这种方法采用两步过程：首先，使用YOLOv7（Wang等人，2022年）检测细胞元素，然后使用卷积神经网络（CNNs）对这些元素进行分类。

虽然物体定位取得了有前途的结果，但仍存在改进空间。最近开发的目标检测算法，尤其是基于 Transformer 的算法，如DETR（DEtection TRansformer）模型家族（Carion等人，2020年；Zhao等人，2024年；Zhang等人，2022年；Ouyang-Zhang等人，2022年），显示出潜力。然而，由于更高的时间复杂度、较慢的训练速度或实际数据集上的较低mAP，它们尚未得到广泛应用。

另一项研究是YOLO的持续发展。值得注意的是，YOLO中的更高版本号并不一定表示改进；相反，应用了不同的技术，这些技术可能在特定的数据集上工作，也可能不工作。自YOLO原始出版物（Redmon等，2016年）以来，原作者仅开发了YOLOv2 和YOLOv3 。其他版本由不同的机构或公司引入，包括YOLOv4 ，Scaled-YOLOv4 ，YOLOX ，YOLOv6，DAMO-YOLO ，YOLOv9（Wang等，2024a），YOLOv10 ，PP-YOLO（Long等，2020年），PP-YOLOv2（Huang等，2021年），以及PP-YOLOE（Xu等，2022年）。值得注意的是，YOLOv5和YOLOv8从未发表。在方法部分，作者将分析这些论文中找到的一些不同组件。

最近，Qamar等人（2024年）发表的一项研究题为“利用深度学习对木质纤维和管状物的分割和表征”展示了YOLOv8在分析木质纤维显微图像方面的应用。

在大多数实际机器学习研究和数据竞赛中，YOLO 仍然是最新一代的。因此，作者的重点是开发一个基于这一文献的目标检测器。作者的工作建立在这些基础上，通过引入一种专门针对纤维材料显微图像中船舶元素检测的目标检测算法。通过为这一任务设计作者的检测算法，作者可以进行更好的优化，并避免关注通用检测数据集，如 COCO。

尽管显微镜和卫星成像领域的许多论文都将YOLO应用于高分辨率图像分析，但它们通常依赖于原始YOLO代码库，只进行少量修改。例如，Lopez Florez等人将YOLOv5应用于细胞计数。还有许多关于卫星图像的研究，其中 YOLO 只做了一些微调。因此，与基准的改进往往只是微不足道的。相比之下，作者从零开始开发了作者的YOLO版本，并测试了不同版本的组件。这使得作者可以针对作者的应用进行更显著和定制的改进。

3 Materials and methods

常用的用于纸浆、纸张和纤维板生产的木材，如杨树或桉树等，被选中进行研究。具体的属种可以在Nieradzik等人（2023）的文章中找到。图们研究所木材收藏的 vouchered 标本以及其他有记录的来源为训练和测试的参考材料。类似于纸浆生产，木材组织的细胞结构根据Franklin 的方法通过浸泡分解为单个细胞。每个属至少产生了3个宏观酯。浸泡和染色在Helmling等人（2016）和Helmling等人（2018）的文章中详细描述。对于每个浸泡，准备了20张玻片。其中10张用Alexander Herzberg溶液染色，10张用nigrosine（1 wt%）染色。

作者的检测框架旨在在显微镜图像中定位木质部元素，这是在纤维材料中自动化硬木种识别的至关重要的一步。木质部元素是 conducting water 在落叶树中的细胞元素，它们在属之间具有独特的形态特征，与纤维不同。作者针对这一领域调整了YOLO架构，解决了大型图像尺寸（高达54,000 x 31,000像素）带来的挑战，并需要高召回率。与像DETR这样的算法相比，YOLO在实际应用中证明非常有效，使其成为作者任务的首选。

尽管YOLO家族包括针对通用数据集（如COCO）优化的多种模型，但这些模型由于设计为多类别和通用图像，因此不直接适用于作者的问题。因此，作者通过整合YOLO不同版本的组件，对其进行定制，以优化其用于船舶检测，无需分类。

在本节中，作者描述了模型的架构、损失函数、指标以及评估的额外方法，以提高检测性能。

Architecture

作者的模型架构首先选择一个能够高效从大型显微图像中提取特征的 Backbone 网络。Backbone 网络处理输入数据，生成多尺度特征图。作者测试了几个 Backbone 网络，如VGG11（Simonyan和Zisserman，2015年），ConvNext 和ResNet ，并通过一个名为 Neck 的组件将它们的特征图组合在一起，输出三个特征图。尽管可以使用更多的特征图，但作者的评估显示这样做没有显著的优势。

作者的 Neck 架构基于YOLOv7-tiny。作者还测试了YOLOx的CSPNet（Wang等人，2019年），但发现前者表现更好。使用较小的架构是因为需要考虑内存效率。由于作者希望训练网络的图像分辨率高于常规的640x640或1280x1280，作者需要降低内存需求。此外，当需要区分不同类别时，通常会选择更深层的网络。在这里，作者只需要找到目标，而无需进行分类。因此，更简单的网络效果更好。

图2显示，作者的 Neck 由几个卷积层组合而成，这些层以不同的方式结合在一起。一个"c"块包括一个简单的卷积， followed by a batch normalization 和一个ReLU函数。而"b"块则由并行的卷积层通过 ConCat 组合而成。图3详细展示了"b"块。

picture.image 图2中的三个橙色方块表示 Neck 的输出。这三个模块然后被用作头的输入。由于在某些卷积中使用了更大的步进尺寸，因此输出具有不同的尺寸。

Head 分负责神经网络的预测。它只包含一个卷积块和一个输出卷积。如YOLOX中使用的解耦头，在作者的情况下并未证明效果更好。

对于每个特征图， Head 产生一个输出张量，其尺寸为，其中和分别表示第i层特征图的网格高度和宽度。中的每个网格单元预测五个参数：中心x坐标、中心y坐标、宽度、高度和物体置信度。这些输出按照如下方式进行转换：

当  和  时，定义了目标的最多宽度和高度超参数。例如， 表示目标最多可以占据图像总宽度的 10%。这与具有最大特定尺寸的单个 Anchor 框类似。

采用两个超参数而非 Anchor 框的优势在于，无需使用诸如聚类（Redmon和Farhadi，2016）等技术来确定它们。此外，损失函数更为简单，训练速度更快。

sigmoid 函数确保和位于网格中的偏移值，而和定义了边界框的尺寸。置信度得分表示边界框在各个位置出现的可能性。

和这里被缩放在之间。这使得模型的 Box 中心可以向左或向右移动一半。

在预测阶段，和偏移量通过分别添加网格索引和进行调整。坐标通过乘以和并除以和来缩放至原始图像大小，其中和是输入图像的尺寸。

Loss Function

作者的损失函数由两个组成部分构成：

其中是回归损失，是分类损失。回归损失度量预测边界框与真实边界框之间的对齐，使用交点与 union（IoU）：在作者的情况下，，为边界框的数量。回归损失可以通过与该网格单元对应的边界框或附加的相邻网格单元（多正样本）进行评估。

不同版本的IoU有：完全IoU（cIoU）[Zheng等，2021]，距离IoU（DIoU）[Zheng等，2019]，广义IoU（GIoU）[Rezatofighi等，2019]和标准IoU。在评估部分，作者将评估不同的方法，以确定哪个方法最大化了作者的度量。

分类损失评估了使用二交叉熵（BCE）的分类得分，其中 GT 信心来源于 IoU：

不同于回归损失，作者在网格的每个位置上都评估BCE。然而，当特定网格单元没有 GT 框时，作者设置。

Metric

目标检测中占主导地位的指标是平均精确度（AP）[Everingham等人，2010]，在不同的阈值下计算，可以概括精度与召回率：

召回率表示正确预测的边界框数量与所有预测的边界框数量之比，精确率表示正确预测的边界框数量与实际边界框数量之比。如果预测的边界框与真实边界框的IoU超过预先定义的阈值，那么该预测被认为是正确的。

然而，在作者的具体应用中，AP的使用并不理想。由于作者的目标是找到所有物体，因此召回率优先于精确度。

此外，作者并不关心与真实值的完全重叠。边界框中的微小偏移或大小变化不应受到该指标的惩罚。因此，作者只希望考虑一个单一的低IoU阈值。通常AP会在多个阈值下计算。

因此，作者提出了一种替代的度量标准：F2分数，该分数使用固定IoU阈值0.3计算。这个选择强调召回率高于精确率。在后期处理阶段，可以通过训练分类器来区分正确和错误的检测，从而处理假阳性。如图4所示，30%的覆盖率就足够了。

picture.image 尽管通常的阈值为0.5，但作者选择了一个更低的阈值0.3。这个阈值考虑到了与真实边界框完全对齐并非作者目标中至关重要的实际情况。

Additional Approaches

作者探索了YOLO系列中的几个创新，以进一步改进作者的检测框架，并评估它们在性能方面的影响。其中一些结果将在评估部分展示。

中心取样与多正样本作者探讨了使用邻域网格细胞进行匹配真实框的技术，这在文献中被称为多正样本 [Ge et al., 2021a] 或中心取样 [Tian et al., 2019]。

在标准的损失函数中，作者仅计算在坐标处的 Box 之间的 IoU 损失。中心取样扩展了这个概念，通过比较处的 Box ，其中和是整数偏移。为了在这些新坐标上与真实 Box 进行比较，作者将真实 Box 复制一遍。作者研究了三种变体：

在这里，表示原始边界框，代表相邻框，表示“空单元格"。对于个邻居配置，损失保持不变，因为它只考虑原始框。在个邻居配置中，选择网格内的最近边界框，在这种情况下，是右上角和右下角框。对于个邻居配置，作者使用所有方向的边界框：左、右、上、下。请注意，对角线框从不被选择。

由于目标检测是一种一对多的映射关系（一个真实边界框对应多个正确预测的边界框），这种策略试图通过损失函数来模拟这种映射关系。

标签分配

边界框（bounding boxes）被预测为每个特征图上的。使用中心取样进一步增加了预测的边界框数量。为管理这一增加的边界框数量，作者评估了旨在减少每个目标有效边界框数量标签分配策略。

作者尝试了现代标签分配技术，如SimOTA和TAL（Ge等人，2021b；Feng等人，2021）。然而，这些方法在作者的场景中并未产生更好的结果。作者将这一归因于作者的度量标准，该标准优先考虑最大召回率，而不是平衡精确率和召回率。

辅助头损失深度监督技术，如YOLOv7（王等人，2022年）中使用的方法，涉及在引导更深网络时添加辅助损失。作者的附加模型层实验没有发现任何益处，因此这种方法被排除在作者的最终模型之外。

Anchor 框（Anchor Boxes）在YOLOv2（Redmon和Farhadi，2016）中引入，用于预测物体位置。与YOLOX的研究结果（Ge等人，2021a）一致，作者的结果显示使用 Anchor 框没有提高性能，因此为了简洁，作者排除了它们。相反，作者将参数和纳入范围，以约束边界框的预测宽度和高度，如前所述。

无NMS的检测方法YOLOv10在作者的测试中表现不佳。作者保留了传统的非极大值抑制（NMS），因为它具有鲁棒性和简单性。

训练策略技术如mosaic增强和梯度累积，在其他YOLO实现中具有有效性，但对作者应用中的检测并未显著提高。因此，它们被排除在最终模型配置之外。

4 Results

作者在构建的一个用于自动检测和识别硬木种类的 vessel 元素的数据集上评估 WoodYOLO。这是向木材分类迈出的关键一步。硬木中的 vessel 元素是导水细胞，由于其独特的形态特征，不同属之间存在差异。这些 vessel 元素为木材识别提供了重要信息，并且很容易与其他细胞类型（如纤维或薄壁细胞）区分开来。

在本文中，作者特别关注改进这些结构单元的本地化。数据集包括使用ZEISS Axioscan 7显微镜捕获的高分辨率软木样本图像。每个图像，原本的czi格式，约54,000 x 31,000像素的分辨率，文件大小为1GB，通过降低10%（5,400 x 3,100像素）的尺寸来提高训练效率并减少内存使用。最终数据集包括767张带有118,287个边界框识别出结构单元的图像。

只有每张图像的第三个焦点平面用于训练，因为其余的平面并没有对检测船舶元素提供显著的信息。标注好的数据集被分为613张用于训练和154张用于验证。作者进行了初步的实验，使用了5折交叉验证，但发现不同折的指标相对稳定。由于时间限制，作者使用简单的训练验证划分。

在本节中，作者评估了作者的船体检测框架在不同配置下的性能，并将其与其他最先进的模型进行了比较。评估是在固定IoU阈值0.3下进行的F2分数，如前所述。

Detection Model and backbone comparison

由于作者以YOLO为基础，因此与其它YOLO变体进行比较是有意义的。在表1中，作者展示了不同检测模型的F2分数。

picture.image 作者的自定义YOLO变体在其他模型中表现出色，实现了F2分数0.848，突显了其在大型显微图像中检测血管元素的高级能力。

YOLOv10和YOLOv7的参数都已优化。值得注意的是，作者使用5184x5184像素分辨率的第二好模型YOLOv7-W6，这需要使用A100。作者的模型使用2048x2048分辨率，并且可以在不到10 GB的VRAM下进行训练。

作者还评估了各种 Backbone 网络，以确定它们对检测性能的影响。表2总结了结果，并包括参数数量。

picture.image VGG11-bn Backbone 产生了最高的 F2 分数（0.8316），同时保持了合理的参数数量和 VRAM 占用。除了 YOLOv7-tiny，其他 Backbone （包括 skip 连接、更复杂的激活函数或特殊层，如 Squeeze-and-Excitation 块）的 VRAM 要求都更高。VGG 的简单性使其更容易扩展到更高的分辨率。

Effect of Neighboring Cells and IoU Loss function

作者评估了考虑邻近网格单元（多正样本）对匹配真实边界框的影响。如表3所示，使用0个邻近网格单元产生了最高的F2分数（0.8481）。

picture.image 增加更多的相邻细胞导致了性能下降，这表明精度下降过高。接下来，作者比较了不同的IoU基础损失函数，以确定它们在模型中的有效性。表4显示，广义IoU（GIoU）损失函数获得了最佳性能，其F2分数为0.8340。

picture.image 然而，F2处的差异相当小。因此，该参数对结果没有重大影响。

Impact of Image Size and training techniques

表5评估了不同图像大小对检测性能的影响。在大小为2048的图像上进行训练，获得了最高的F2分数（0.8316）。

picture.image 因此，作者可以得出结论，作者不需要54000 x 31000的高分辨率来找到船舶元素。因此，也不需要将图像分割以执行单个 Patch 的检测。由于作者采用的方法只需要预测一个图像，因此预测速度更快。

作者已成功在具有40GB VRAM的A100 GPU上训练了一个分辨率为6144 x 6144的模型。通过进一步调整架构，实现更高的分辨率是可能的。需要强调的是，作者的标准模型，分辨率为2048 x 2048，旨在提高可访问性。该模型可以在消费级硬件上进行训练，仅需要约8GB的VRAM进行训练。

在训练基于YOLO的模型时，作者探索了多种先进技术以提高性能，包括mosaic augmentation和gradient accumulation。Mosaic augmentation是一种数据增强策略，它通过将数据集中的四个不同图像组合成一个新训练图像来创建一个新的训练图像。这种技术旨在在训练期间提供更多的上下文和变异性，可能提高模型的泛化能力。然而，如表6所示，mosaic augmentation并未导致作者任务F2分数的提高。

picture.image 梯度累积是另一种作者评估的技术。它允许在GPU内存中容纳更大的批量大小进行有效训练，通过在多个子批次上累积梯度并在更新模型权重之前进行。

尽管其有可能稳定训练并提高收敛速度，但作者的结果表明，梯度累积在作者的实验中并未带来显著的优势。

关键的一个修改是实现了最大目标宽度和高度（之前讨论过的 Anchor 框变种）。移除这个限制导致F2分数明显下降，这表明这种技术在提高检测性能方面是有效的。

Summary of the results

作者已经证明，WoodYOLO 在作者的特定用例中优于其他YOLO变体。有趣的是，在COCO上始终显示改进的mAP某些技术在这里并未带来类似的收益。例如，YOLOv4中引入的mosaic augmentation，在他们的ablation study中，AP增加了1.8%。然而，作者的实验表明，当应用此技术时，F2分数出现了6.2%的显著下降。同样地，尽管YOLOX报告了2.1%的改进，但作者在使用多正样本时并未观察到优势。

作者将这些差异归因于几个因素：

metric difference: 作者关注的是召回率和近似边界框重叠，而不是标准COCO指标。

任务简化：由于作者只需要对物体进行本地化，因此作者的架构可以比设计更简单。

重复可实现性挑战：深度学习，尤其是在目标检测方面，往往面临重复实现的问题。许多YOLO实现使用遗留代码和未记录的变通方法来提高AP，这些在原始论文中并未提及。这可能包括任意的损失函数权重或不同的权重衰减策略（He等人，2018年）。

为减轻这些混淆因素，作者从零开发了作者的检测器，避免依赖先前的代码库。这种方法使作者能够更准确地评估单个修改的影响。

结论，作者的研究结果表明，对于与标准COCO使用案例有显著差异的专业领域，开发定制检测器可能比调整现有通用模型更有益。这种方法可以实现一个更符合任务具体要求的定制解决方案。

5 Discussion and Conclusion

在本文中，作者提出了 WoodYOLO，一种专门针对显微镜木纤维分析设计的创新目标检测算法。作者的方法基于YOLO架构，通过定制优化来提高在高分辨率显微镜图像上的性能。作者引入了几个关键创新，包括一个专为显微图像优化的基于YOLO的架构和一种新颖的 Anchor 框规格方法。

作者的全面评估表明，WoodYOLO 在F2分数方面明显优于最新的模型，如YOLOv10和YOLOv7。作者还分析了在木质容器检测背景下各种架构决策和训练技术的有效性。

木材YOLO在检测纤维材料显微图像中的船体元素方面的优越性能，代表了自动化木材种类识别的重大进步。这一贡献对提高监管合规性、支持可持续林业实践以及全球生物多样性保护工作具有深远的影响。

Future Work

WoodYOLO 的发展为未来的研究和改进开辟了几个有前景的途径。一个值得探索的关键领域是将旋转边界框集成到模型中，以提高船舶元素定位的准确性，特别是对于长或斜结构的定位。这一进一步的发展需要对模型架构和数据集标注进行调整，并具有相当大的潜力来提高检测准确性。

同时，可以继续优化WoodYOLO架构，以降低GPU需求并提高召回率。减少模型的内存需求至关重要，以实现对更大、更高分辨率的显微图像的处理。

参考文献

[0]. WoodYOLO: A Novel Object Detector for Wood Species Detection in Microscopic Images.

picture.image

扫码加入👉「集智书童」交流群

（备注：方向+学校/公司+昵称）

picture.image

点击下方“ 阅读原文 ”，

了解更多AI学习路上的「武功秘籍」

超越 YOLOv10 和 YOLOv7，专为大规模高分辨率图像处理设计 ！

1 Introduction

2 Related Work

3 Materials and methods

Architecture

Loss Function

Metric

Additional Approaches

4 Results

Detection Model and backbone comparison

Effect of Neighboring Cells and IoU Loss function

Impact of Image Size and training techniques

Summary of the results

5 Discussion and Conclusion

Future Work