告别检测范式！YOLO-Count用基数图+CLIP嵌入，T2I生成数量对齐超越CountGD - 文章 - 开发者社区

picture.image

精简阅读版本

本文主要解决了什么问题

1. 文本到图像(T2I)生成模型中精确控制物体数量的挑战。现有T2I模型在生成高保真图像方面成功，但确保与文本规范精确对齐，特别是关于物体数量方面仍然困难。
1. 传统计数方法的局限性。基于密度的计数存在模糊性，而基于检测的计数方法输出不可微分的整数结果，不适合用于基于梯度的优化。
1. 开集计数模型的泛化能力问题。现有计数数据集在规模和类别多样性上存在局限，阻碍了开集泛化能力。
1. 计算效率问题。使用大规模视觉编码器(如CLIP或GroundingDINO)虽可缓解数据限制，但带来显著计算开销。

本文的核心创新是什么

1. 提出了基数图(cardinality map)作为新的回归目标。与传统密度图不同，基数图将数量分数均匀分布在目标实例的整个区域，而非仅集中在目标中心，提高了精度并对尺度变化具有更强鲁棒性。
1. 开发了YOLO-Count模型，一种高效、开集且全微分的计数模型。基于YOLO架构，包含视觉Backbone网络、视觉语言路径聚合网络(VLPAN)和预测头，支持基于梯度的优化。
1. 提出了结合表示对齐的混合强-弱监督方法。能在无需依赖复杂视觉编码器的情况下，利用大规模分割数据集进行有效训练，解决了数据限制问题。
1. 将YOLO-Count应用于T2I生成中的数量控制，通过将计数模型作为可微分引导模块，利用梯度信号引导生成过程实现数值一致性，弥合了开集计数与T2I生成控制之间的差距。

结果相较于以前的方法有哪些提升

1. 在计数精度上达到当前最佳水平。在FSC147数据集上，YOLO-Count在基于回归的计数模型中实现最先进性能，MAE和RMSE指标接近当前领先的不可微分计数模型CountGD。
1. 在开集计数方面表现优异。在LVIS、OpenImg7-New和Objects365-New等开集数据集上评估显示，尽管参数最少，YOLO-Count在开词汇设置中实现了更高准确率。
1. 在T2I生成中的数量控制显著提高准确性。与基线方法相比，YOLO-Count在LargeGen和LargeGen-New基准测试中显著提高了生成准确率，特别是在生成大量物体数量场景时表现更好。
1. 对不同尺度物体的计数更稳定。尺寸偏差分析实验表明，YOLO-Count能在不同目标尺度下保持准确计数，而基于密度的回归模型随目标尺寸增加存在计数过多的问题。

局限性总结

1. 基数图的构建依赖于目标的掩码，在实际应用中获取精确的实例分割掩码可能成本较高。
1. 弱监督微调阶段需要手动标注负标签，虽然标注过程高效(平均每张图像约5秒)，但仍需一定人工干预。
1. T2I生成中的数量控制依赖于Token优化策略，可能需要多次迭代才能收敛，增加计算时间。
1. 研究主要关注物体数量控制，对于其他生成质量方面(如物体形状、纹理等)的提升可能有限。

深入阅读版本

导读

作者提出了YOLO-Count，一种可微分的开集目标计数模型，该模型能够解决通用计数挑战，并实现文本到图像（T2I）生成中的精确数量控制。核心贡献是“基数图”，这是一种新的回归目标，能够考虑目标尺寸和空间分布的变化。通过利用表示对齐和混合强-弱监督方案，YOLO-Count弥合了开集计数与T2I生成控制之间的差距。其完全可微分的架构支持基于梯度的优化，能够实现精确的目标计数估计，并为生成模型提供细粒度的指导。大量实验表明，YOLO-Count在计数精度上达到了当前最佳水平，同时为T2I系统提供了稳健有效的数量控制。

引言

文本到图像（T2I）生成模型在根据自然语言描述生成高保真图像方面取得了显著成功。然而，确保与文本规范精确对齐，特别是关于物体数量，仍然是一个重大挑战。虽然先前研究通过条件训练和引导机制提升了物体布局、属性和风格的遵循度，但准确控制图像中合成物体的数量仍然困难。与局部属性不同，物体数量构成全局约束，需要模型在语言 Token 和构成物体之间建立数值对应关系。因此，传统的条件训练方法如ControlNet [52] 不适用于明确的数量控制。此外，T2I模型中降噪过程的不确定性引入了物体区分的模糊性，进一步增加了计数一致性难度。近期的条件引导方法，如BoxDiff [46] 和Ranni [12]，处理了空间布局、物体属性和语义面板条件化等方面的问题。然而，这些方法缺乏精确数量控制的直接和原则性机制，在连接语言数理和视觉合成方面留下了关键空白。

在这项工作中，作者提出了YOLO-Count，一种基于YOLO架构的开词汇目标计数模型。YOLO-Count是一个全微分、基于回归的模型，展示了高精度、计算效率和开词汇能力。一个关键贡献是引入了基数图，这是一种新型表示方法，它编码了目标数量，同时保留了目标大小和空间位置的 Aware 。与在目标中心应用高斯核的传统密度图不同，基数图将数量分数分布在目标实例上，提高了精度并对尺度变化具有更强的鲁棒性。此外，YOLO-Count利用了表示对齐和混合强弱监督策略，使得能够使用大规模实例分割数据集，而无需依赖计算成本高的预训练视觉编码器。

超越通用目标计数，作者致力于将YOLO-Count应用于文本到图像（T2I）生成中目标数量的精确控制。这是通过将YOLO-Count作为可微分的引导模块[5]实现的，其中计数模型的梯度信号引导生成过程实现数值一致性。尽管现有研究主要集中于属性和布局的引导算法，但显式数量控制仍处于探索阶段。作者认为，适用于T2I应用的理想目标计数模型应具备四个关键特性：（1）相对于输入图像的全可微性；（2）对不同目标类别的开集能力；（3）跨尺度泛化以适应不同目标尺寸；（4）计算效率以支持实际部署。

构建此类模型会带来若干挑战。首先，当前最先进的计数方法[2, 35]通常基于检测，其输出会阻碍梯度传播。其次，现有的计数数据集如FSC147[37]或CARPK[18]在规模和类别多样性上存在局限，阻碍了开集泛化。第三，虽然大规模视觉编码器（例如CLIP[36]或GroundingDINO[32, 38]）可以缓解数据限制，但它们会带来显著的计算开销。

为解决这些问题，作者将YOLO-Count与文本反转技术[13, 50]相结合，以实现在T2I生成中的精确数量控制。大量实验表明，YOLO-Count在计数基准测试中达到了当前最佳精度，优于基于密度的计数模型和基于检测的计数模型，并显著提高了T2I生成中物体数量的可控性。

作者的贡献总结如下：

• 作者介绍了基数图，这是一种新的回归目标，与密度图相比，它可以提高物体计数精度。
• 作者开发了YOLO-Count，这是一种高效、开集且全微分的计数模型，它实现了最先进的性能，并增强了T2I生成中的数量控制。
• 作者提出了一种结合表示对齐的混合强-弱监督方法，能够在无需依赖复杂的视觉编码器的情况下，利用大规模分割数据集进行有效训练。

相关工作

2.1. 目标计数模型和数据集

目标计数模型可根据其类别范围大致分为固定类别计数模型[14, 40, 44]和开集计数模型[2, 11, 35]。在生成任务中控制目标数量时，开集计数至关重要，因为它支持任意目标类别而无需重新训练。根据监督或指导类型的不同，计数模型可进一步分为文本引导模型[47, 58]、视觉实例引导模型[20, 37]、多模态引导模型[2]和无参考模型[17, 31, 45]。对于T21集成，纯文本引导的计数模型更佳，以确保与 Prompt 驱动生成的兼容性。

从方法论角度来看，计数模型通常分为基于检测和基于回归的方法。基于检测的模型[2, 18, 34]依赖于显式的目标检测，通过阈值过滤实例并枚举离散计数，其本质上会产生不可微分的整数输出。相比之下，基于回归的模型[3, 4, 27]预测连续值映射（如密度图[10, 33]），这些映射表示对最终计数的逐像素贡献。这种直接可微性使得基于回归的模型特别适用于生成流程中的基于梯度的控制。

最后，用于目标计数的训练数据集分为固定类别数据集[18, 21, 43]和开集数据集[1, 37]。开集数据集包含具有多样目标类别和实例计数的图像，但收集和标注成本高昂[37]。例如，广泛使用的FSC147数据集仅包含3,659张训练图像，这限制了其规模和多样性。为解决这一问题，近期研究[2, 22]结合大规模预训练视觉 Backbone 网络（如CLIP[36]和GroundingDINO[32]），并在较小的计数数据集上进行微调，以增强开集泛化能力。

2.2. 可控文本到图像生成

可控文本到图像（T2I）生成方法可大致分为两种范式：基于训练的方法[19, 52, 54]和基于引导的方法[5, 49, 53]。基于训练的方法，如ControlNet[52]、IP-Adapter[48]和GLIGEN[28]，通过额外的网络分支或 Adapter 将条件输入直接注入生成模型。虽然有效，但这些方法依赖于带有相应条件的大规模训练数据集。相比之下，基于引导的方法，包括BoxDiff[46]、Attend-and-Excite[8]和Separate-and-Enhance[6]，通过在推理时操纵扩散过程来控制生成，无需重新训练。许多这些方法利用交叉注意力机制[30]的可解释性来引导图像合成。然而，交叉注意力主要适用于区分目标类别，而非区分同一类别的多个实例。因此，现有的可控T2I技术擅长局部属性绑定[15, 55]和布局控制[56, 57]，但在执行全局约束（如精确目标数量）方面存在困难。

2.3. T21模型的目标数量控制

文本到图像（T2I）模型中显式物体数量控制的研究仍然有限。[25]开创了使用通用扩散引导进行数量控制的方法，代表了首次直接应对这一挑战的尝试。[7]引入了一种基于注意力的表示方法用于计数物体，但其方法仅限于控制小数量（范围从1到10）。最近，提出了prompttuning方法[42, 50]，将数值线索融入文本嵌入空间，实现了有限的数量控制，而无需修改底层扩散模型。然而，这些方法在准确控制较大数量方面仍然存在困难。

方法

3.1. 模型概述

作者提出的YOLO-Count基于YOLO-World架构[9]，由三个主要组件构成：

(1) 视觉 Backbone，(2) 视觉语言路径聚合网络（VLPAN），以及 (3) 预测头。图2展示了整体流程并突出了作者的关键架构修改。

picture.image

视觉 Backbone 网络。YOLO-Count中的视觉 Backbone 网络遵循YOLOv8l[23]和YOLO-WorldL[9]的设计，由五个卷积模块（ConvModules）和跨阶段部分层（CSPLayers）组成。对于一个输入图像

， Backbone 网络在三种分辨率下提取多尺度视觉特征：

视觉语言路径聚合网络（VLPAN）。VLPAN旨在融合视觉特征与文本语义，并跨尺度聚合信息。继承自YOLO-World，它采用自上而下和自下而上的路径，但进行了关键改进：(1) T-CSPLayers：标准CSPLayers被TCSPLayers取代，后者集成了Sigmoid注意力模块，根据预计算的CLIP文本嵌入调节视觉特征[36]。(2) 扩展自上而下融合：为更好地保留细粒度空间细节，在初始双向聚合后引入了额外的自上而下路径，最大化高分辨率特征利用，这对于精确计数回归至关重要。增强型VLPAN的公式表述为：

其中

表示类别的CLIP文本嵌入，

和

分别表示用于分类和计数回归的多模态特征。

预测头。在VLPAN之后，多个ConvModule被应用于文本感知视觉特征，以将多尺度信号聚合到统一的

分辨率中。预测阶段随后产生两个并行输出：(1)一个基数回归头，用于预测可微分的密集基数图，(2)一个分类头，通过对比监督进行训练以确保强大的开集能力。这两个输出共同使YOLO-Count能够提供准确的、可微分的计数估计，同时保持强大的类别泛化能力，如图2右侧所示。

3.2. 基数映射回归

作者提出了基数映射的概念，这是一种新型回归目标，旨在解决基于密度的计数所固有的模糊性。

基于密度的计数模型将计数损失表述为：

其中

表示密度图。对于一个包含

个目标的图像，

是通过在目标位置处放置

个以高斯核为中心构建的，这些核的总和等于

。虽然回归到

能够实现数量预测，但这种表示方式存在两个关键模糊性。首先，高斯核的中心可以放置在目标的任何位置。其次，核半径是任意选择的，缺乏物理意义。这些问题会降低模型对具有不同大小和形状的目标的准确性，因为密度图无法提供一致、无歧义的表示。

为了克服这些局限性，作者将

替换为使用目标 Mask 定义的基数映射

。给定第

个目标实例的二进制 Mask

，其面积为

，作者将值1均匀分配到目标内的所有像素中，并对所有

个目标进行贡献求和：

作者将该像素级基数图通过在每个网格单元内求和的方式下采样为基于网格的表示：

是网格单元

内像素坐标的集合。根据构造，基数图的总量等于真实目标数量：

与密度图不同，密度图通常将质量集中于物体中心，而忽略扩展物体的很大一部分，基数图则均匀覆盖每个物体的整个空间范围。这产生了一种独特且无歧义的表达方式，对物体大小和形状的变化具有鲁棒性，使其更适合于可微分的基于回归的计数。

3.3. 表示对齐

在此，作者使用单类别计数场景进行简化描述，其中模型被设计为计数用户指定的特定类别的实例。为此，作者将对比学习框架适配为二元分类任务，其中每个像素被分类为属于目标类别或不属于目标类别。这个额外的分支在训练过程中对齐视觉和文本表示，确保模型有效定位指定类别的实例。具体而言，分类损失被表述为：

其中

是二元真实标签，表示像素

是否属于目标类别，而

是通过将视觉特征

和文本嵌入

投影到共享的多模态空间，并对它们的内积应用Sigmoid激活函数得到的预测概率，类似于SigLIP [51]。

3.4. 混合强弱训练

训练一个目标计数模型通常需要专门的计数数据集，其中每张图像包含同一类别的多个实例。基于回归的计数模型依赖于相应的密度图，而密度图的生成成本高昂且任务特定。为了克服这一数据限制，作者提出了一种混合强-弱训练技术，该技术能够利用实例分割数据集和计数数据集进行基数回归。这种方法包含两个阶段：强监督预训练和弱监督微调。

3.4.1. 强监督预训练

作者首先在具有精确实例分割 Mask 的实例分割数据集上预训练模型。作者构建基数图

（如式(3)所定义）和二元分类 Mask

。预训练目标如下：

其中

和

是权重系数。cstrong 是与 Eq. (5) 中定义的

相同的损失函数。这一阶段为基数回归和类别特定分类提供了精确的像素级监督，建立了强大的模型初始化。

3.4.2. 弱监督微调

为了使YOLO-Count更好地适应密集计数场景，作者在提供Sparse点级标注的计数数据集上进行弱监督微调。每张图像中添加的标注点为

，其中

既是图像中物体的总数，也是标注点的数量。弱监督包含以下两个组成部分：

(1) Sparse分类标签：正标签源自标注点，形成

，其中

当

。负标签

从背景区域中采样。

(2) 总数一致性：预测的总数必须与真实计数

相符。

弱监督损失被定义为如下：

表示标注的像素位置（见图3）。

picture.image

这种混合训练方案有效利用大规模实例分割数据集进行预训练，并在微调阶段适应有限的计数数据集，从而实现稳健且数据高效的模式训练。

3.5. 计数控制生成

参考[50]，作者采用基于文本反转的方法进行计数控制生成。文本到图像（T2I）模型首先根据文本 Prompt 合成初始图像，该图像可能无法准确反映所需的物体数量。随后，作者将生成的图像及其目标类别输入YOLO-Count模型，以估计预测数量，并根据与所需计数

的偏差计算引导损失。

作者通过

的梯度迭代更新插入到文本序列中的可学习计数 Token 。这个过程持续进行直到收敛，从而有效地引导T2I模型生成具有所需物体数量的图像。

实验

4.1. 设置

4.1.1. 训练数据集

FSC147 [37] 是一个目标计数数据集，包含6,135张图像，分为89个训练类别、29个验证类别和29个测试类别，各分割之间没有重叠。遵循[2]，作者对包含错误标注的几张图像进行了修正，以确保标签的一致性。

LVIS v1.0 [16] 是一个大规模、长尾数据集，包含1203个目标类别，与MSCOCO [29]共享图像。最初设计用于大规模词汇的实例分割，作者采用其验证集来评估跨不同开集类别的计数精度。

4.1.2. 评估指标

基于先前研究[18, 21, 37]，作者采用平均绝对误差（MAE）和均方根误差（RMSE）来评估计数性能。MAE衡量预测计数与真实计数之间的平均绝对偏差，而RMSE对较大误差进行更严厉的惩罚，同时捕捉准确性和精确性。

4.1.3. 物体计数基准测试

除了FSC147和LVIS之外，作者引入了两个新的基准来评估开集目标计数精度。

OpenImages V7 [26] 和 Objects365 [39] 是大规模开集目标检测数据集，分别包含 900 万张图像和 600 个类别，以及 200 万张图像和 365 个类别。基于这些数据集，作者构建了两个新的计数基准：OpenImg7- New 和 Obj365-New，专门设计用于评估对未见类别的泛化能力。

为确保类别新颖性，作者首先计算两个数据集中所有文本标签的CLIP[36]嵌入。然后，作者过滤掉与任何LVIS标签嵌入的最大余弦相似度超过0.7的类别。该步骤从OpenImages V7中产生47个新类别，从Objects365中产生51个新类别。最后，作者仅保留包含这些过滤类别的图像，从而得到包含14,699张图像的基准（OpenImg7-New）和包含22,724张图像的基准（Obj365-New）。

这些基准为评估目标计数模型在FSC147和LVIS训练过程中未见过的类别上的开集泛化能力提供了具有挑战性的评估协议。

4.1.4. 可控生成基准测试

为评估量控文本到图像（T2I）生成的精度，作者构建了两个基准：LargeGen和LargeGen-New。LargeGen从FSC147数据集中选取每张图像平均物体数量最高的10个文本类别，为在已知类别上评估生成性能提供基准。LargeGen-New则基于Obj365-New和OpenImg7-New构建，用于评估在新型类别上的生成准确度。这些基准能够对量控生成进行系统评估，在使用物体计数模型引导T2I生成时，同时测量已知类别和新型类别的性能。

4.1.5. 训练YOLO-Count模型

对于YOLO-Count，作者首先在LVIS数据集上进行250个epoch的强监督预训练。视觉主干网络使用YOLOv8l权重初始化，而其他所有模块则随机初始化。作者优化一个复合损失函数，其中基数回归的系数为

，类别分类的系数为

。CLIP文本编码器在训练过程中保持冻结，而所有其他参数则以不同的学习率进行更新：主干网络的学习率为

（以保留预训练的视觉表征），新初始化模块的学习率为

。这种学习率策略稳定了训练过程，并促进了YOLO主干网络对计数任务的适应。

随后，作者在FSC147数据集上执行弱监督微调，利用数据集提供的正点标注以及手动标注的负标签。对于负标签，作者在FSC147训练集中的每张图像上随机选取约10个背景点。该标注过程非常高效，通过标注界面进行，平均每张图像仅需约5秒即可完成。在微调过程中，作者保留每个训练批次中

比例的LVIS数据，以提供强监督并保持YOLOCount的开词汇能力。模型训练最多进行500个epoch，并根据FSC147验证集上的平均绝对误差（MAE）进行提前停止。

4.1.6. 基于 Token 优化的计数控制

作者采用可微分的 Token 优化策略，将YOLO-Count与SDXL-Turbo[41]集成，用于数量控制的生成。该流程采用单步推理来平衡生成质量和计算效率。对于每个生成任务，作者使用学习率为

，最多迭代150步优化计数 Token Embedding ，若引导损失（公式(11)）在连续20步内达到平台期，则应用提前停止机制。该过程允许YOLOCount直接基于梯度提供反馈，以优化 Token Embedding ，有效引导T2I模型生成具有目标数量目标的图像。

4.2. 物体计数结果

作者在FSC147验证集和测试集上评估了计数准确率，FSC147是目标计数模型广泛使用的基准。对于FSC147，作者在微调过程中设置

，以及

。遵循先前工作如CountGD [2] 和 CLIP-Count [22]，作者采用自动裁剪和聚合策略来处理包含大量目标计数的图像。如表1所示，YOLO-Count在基于回归的计数模型中实现了最先进的性能。作者在FSC147上的MAE和RMSE得分具有竞争力，并接近当前领先的不可微分的计数模型CountGD的得分。图4中的视觉示例进一步证明了YOLO-Count能够生成准确的计数结果。

picture.image

作者进一步评估了YOLO-Count的开词汇能力，通过测试其在未见过类别的计数准确率。对于LVIS、OpenImg7-New和Objects365-New，作者设置

和

进行微调。结果，如表1所示，接触更多样化的训练数据显著提高了YOLO-Count泛化到新类别的能力。值得注意的是，尽管在比较的计数模型中参数最少，YOLO-Count在开词汇设置中实现了更高的准确率。

综上所述，图1以及图4至图6展示了使用表1中FSC147预训练权重设置获得的结果。图7和图8呈现了基于表1中LVIS、OpenImg7和Objects365预训练权重设置的结果。

picture.image

4.3. T21数量控制结果

作者评估了YOLO-Count在引导T2I模型进行精确数量控制方面的有效性。作者将其与两个系列的 Baseline 进行了比较：(1) 将先前的基于引导的方法[7, 25]扩展到大量数量，以及(2) 由替代计数模型（包括CLIP-Count和CountGD）引导的[50]的 Token 优化框架。

对于LargeGen和LargeGen-New中的每个类别，作者针对每个目标数量生成10张图像，数量设置为25、50、75和100。值得注意的是，由于CountGD不可微，作者无法应用公式(11)中的基于梯度的损失。相反，作者采用一种替代交叉熵目标，该目标鼓励目标数量

的高概率，同时抑制其他数量的概率。

作者通过统计物体数量并与目标

进行比较来手动评估生成的图像。如图5所示，与所有 Baseline 相比，YOLO-Count显著提高了生成准确率。

picture.image

此外，图6展示了在生成具有大量物体数量的场景时出现的定性差异。在CountGD的surrogate loss

下，te T21模型难以调整物体数量，并导致视觉质量下降。类似地，基于密度的计数引导会导致与

出现较大偏差，这可能是由于真实计数数据集与合成T2I图像之间的领域差距所致。相比之下，YOLO-Count提供精确且可微分的引导信号，能够在泛化到新类别的同时实现准确的数量控制。更多定性示例请参见补充材料。

4.4. 消融研究

作者进行消融研究以评估YOLO-Count中每个关键组件的贡献。具体而言，作者考察了作者的基数图回归、表示对齐、混合强弱训练策略以及架构修改对基于回归的目标计数模型性能的影响。

作者首先评估了训练流程中每个阶段的贡献。具体而言，作者在两种条件下分析计数精度：(1) 没有强监督预训练和 (2) 没有弱监督微调。在第一种情况（无预训练）下，YOLO-Count直接在FSC147上使用密度图监督进行训练。在第二种情况（无微调）下，YOLO-Count仅使用LVIS的强标签进行训练，且不进行后续微调。如表2所示，缺乏微调会导致MAE和RMSE显著升高，突显了LVIS和FSC147在目标计数分布上的领域差异。重要的是，将LVIS上的强监督预训练与FSC147上的弱监督微调相结合，相较于单独的任何一个阶段都取得了显著改进，验证了作者的混合训练策略。

picture.image

接下来，作者考察移除基数回归组件的影响。在此变体（无基数）中，作者按照默认设置在LVIS上进行预训练，但在FSC147训练期间将基数图回归替换为密度图回归。如表2所示，与基于密度的回归相比，包含基数回归始终能获得更低的MAE和RMSE。此外，图7中的视觉结果表明，基于密度的回归经常在单个实例内出现核函数重叠的问题，并且在包含较大尺寸物体的图像中表现出对计数过度的偏差。这表明基数回归减轻了密度图中固有的歧义性，并提高了对不同物体尺寸的鲁棒性。

4.5. 计数模型的大小偏差分析

作者设计了一个实验来研究基于密度的回归方法在处理不同尺度物体时表现出的尺寸偏差。具体而言，作者从FSC147验证集和测试集中选取包含不超过30个物体的图像。每张图像逐步以从1.0（原始尺寸）到4.0的缩放比例进行下采样，然后进行填充以恢复原始图像尺寸。虽然这个过程减小了物体尺寸，但真实标签计数保持不变。

处理后的图像随后输入到多个目标计数模型中：三个基于密度的模型（VLCounter [24]、CLIP-Count [22] 和 CounTX [1]）、一个基于检测的模型（CountGD [31]）以及作者提出的 YOLO-Count 模型。对于每个模型，作者记录预测计数，并分析其与原始（未缩放）图像预测的差异，从而提供一个衡量计数稳定性在尺寸变化下的指标。

如图8所示，基于密度的回归模型随着目标尺寸的增加始终存在计数过多的问题，且对于包含较大目标的图像，这种偏差更为明显。相比之下，YOLO-Count表现出与基于检测的模型相似的稳定性，能够在不同目标尺度下保持准确的计数。这一结果突显了在基数图上训练回归模型的优势，该方法消除了基于核的模糊性，并提高了对目标尺寸变化的鲁棒性。

结论

在本文中，作者介绍了YOLO-Count，一种新颖的开集回归式目标计数模型，该模型显著提升了文本到图像生成中的目标数量控制。通过整合基数回归、混合强弱监督和表示对齐，YOLO-Count实现了最先进的计数精度、计算效率和鲁棒的开集泛化能力。大量的实验和消融研究验证了其在克服先前方法局限性方面的有效性，特别是在处理大量目标数量和新颖类别方面。除了推进目标计数技术，YOLO-Count还提供了一种实用且可微分的机制，用于增强文本到图像模型的可控性，从而实现更精确和可靠的多模态生成与感知。

参考

[1]. YOLO-Count: Differentiable Object Counting for Text-to-Image Generation