印度理工学院提出 | 超越传统视觉识别模型，提升废物分类精确度 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

在本文中，作者提出了一种新颖的方法，旨在通过在数据集上应用微分模糊来模拟眼震的学习现象。眼震是一种生物现象，影响人类终身视觉，特别是通过减少婴儿期到成年的头摇。利用这个概念，作者解决了废物分类的问题，这是一个紧迫的全球问题。所提出的框架包括两个模块，其中第二个模块与原始的视觉 Transformer （一种分类任务的最新模型）非常相似。

作者方法的主要动机是增强模型的精确度和适应性，以反映人类视觉系统所经历的实际条件。这种新颖的方法在废物分类任务中超过了标准视觉 Transformer 模型，提高了2%。这种改进强调了作者的方法在通过从人类视觉感知中获取灵感来提高模型精度方面的潜力。进一步研究本文提出的这种方法可能产生更大的性能结果，并且可以推广到其他全球任务。

unset

unset1 Introductionunset

unset

在婴儿期，孩子们具有多种视觉模拟形式，并不具备清晰的视觉。这是由于眼震现象的影响。人类视觉感知的一个概念，传统架构并未考虑到，就是这种眼震。根据Sekhon RK（2023年）的定义，眼震是指 Head 无意识的摇晃，导致可见度降低，或视觉感官模糊。人类随着年龄的增长，视力会逐渐变得清晰，作者最终能够感知世界。随着年龄的增长， Head 摇晃引起的视觉模糊程度会减轻。在本工作中，作者的目标是模拟眼震现象在模型训练中，以便更好地模拟人类视觉感知的模型方法。

尽管这种现象已知是人类视觉感知的一部分，但目前还没有工具来量化这种现象，也没有将这种视觉模糊的概念与人工智能模型联系起来。由于这些模型受到人类视觉系统的启发，本文提出的论文背后的思想是克服这些观点，提出一种新方法来量化眼震，并使用眼震的数据通过微分模糊模拟人类视觉学习。

作者将这个概念应用到废物分类的任务中。据最近的估计，全球只有13.5%的垃圾被回收利用，而33%的垃圾则未经分类就被倾倒在公共场所。露天垃圾倾倒产生的土壤污染、地表水和地下水污染、温室气体排放以及降低的农作物生产力等都是常见的风险。然而，全球产生的电子垃圾中，只有17.4%被收集和回收利用，这需要花费超过570亿美元的资金（美元）。艾伦·马斯克基金会认为，有32种塑料包装材料没有被回收，估计经济成本在8000亿美元到12000亿美元之间。到2050年，全球垃圾的增长速度预计将超过人口的增长速度，这对生态平衡以及人类的福祉和全球可持续发展都将产生重大影响。这需要创造能够提高废物管理自动化水平并减轻意识缺乏的工具。

计算机视觉和人工智能模型的迅速发展使得从照片中自动识别和检测垃圾成为人工分类垃圾的有益补充。为了提高自主分类垃圾的精度，已经开发了许多机器学习技术。然而，深度神经网络，尤其是卷积神经网络（CNN），最近证明了自己从预先存在的数据中学习的能力，在图像分类方面产生了准确的结果。然而，一种被称为视觉 Transformer （Vision Transformer）的设计方法提出了一种可以完全消除卷积需求的方法，从而减少了计算时间。

近年来，在计算机视觉领域，基于transformer架构的模型被证明是神经网络的准确替代品，已经成为研究和实践中的更常见选择。最初，transformer在自然语言处理（NLP）领域中广泛使用。最近，视觉transformer架构被提出，将transformer架构转移到与视觉相关的任务。目前，视觉transformer被认为是最先进的图像分类器之一。视觉transformer通过自注意力机制完全不需要任何卷积网络而广受欢迎。

总体而言，在本论文中，作者做出了以下贡献：

在人工智能模型的训练中模拟眼震的生物学习效果。
将这种方法应用于废物分类任务，这是一个迫在眉睫的全球问题，通过使用视觉 Transformer 架构。

unset

unset2 Related Workunset

unset

**视觉 Transformer **是由Dosovitskiy等人（2020年）提出的，它们在Vaswani等人（2017年）为自然语言处理（NLP）构建的初步 Transformer 模型的基础上发展而来；Brown等人（2020年）；Britz等人（2017年）。在图像分类任务中消除或减少卷积的想法已在各种论文中探讨，通过使用局部自注意力机制。Parmar等人（2018年）；Hu等人（2019年）；Ramachandran等人（Ramachandran等人，2019年）；Zhao等人（2020年）局部应用自注意力，提出消除卷积或部分消除卷积的架构。Cordonnier等人（2019年）使用一种方法将图像向量化，即“切片化”，使它们可以进入自注意力架构。

通过人工智能进行废物分类已成为全球研究的重要主题，由于全球废物危机的不断增加。有许多研究利用最先进的州界卷积网络来完成废物分类任务。Abdulfattah E. al. Ba Alawi等人（2021年）使用了多个最先进的CNN，实现了最高的准确度。Wang等人（2020年）在由69,737张照片组成的自定义垃圾数据集中测试了一个微调的VGGNet-19，实现了86.19%的准确度。在两个数据集中，每个包含372和72张照片，Dewulf等人（2017年）检查了四种最先进的CNN架构：AlexNet ，VGGNet，GooLeNet和InceptionNet 。

在这些数据集中，VGGNet和Inception-v3分别实现了91.40%和93.06%的最佳准确度。Mallikarjuna等人（2021年）使用四层CNN实现了90%的准确度。Junjie等人（2020年）使用CNN-ELM模型在最佳准确度为91%至93%之间实现分类。Xie等人（2016年）使用结合的Residual Transformations Network（ResNeXt）构建了一个CNN模型。VN-trash数据集包含5904张照片，分为三个不同的废物类别（有机、无机和医疗），以及TrashNet数据集，包含2527张照片，分为六个废物类别（玻璃、纸、硬纸板、塑料、金属和垃圾），用于评估模型。

在这些数据集中，他们的模型分别产生了98%和94%的准确度。使用VGGNet-16实现了83%的准确度，而Kusrini Andhy Panca Saputra（2021年）使用YOLOv4，使用3870张照片，实现了从玻璃、金属、纸和塑料类别中包括在多类别数据集的69至82%的f-score。使用2527张照片的废物数据，Castellano等人（2019年）使用VGGNet-16的评估得到了85%的准确度。Alonso等人（2021年）使用4个类别（纸、塑料、有机废物和玻璃）来评估一个未命名的CNN架构，他们为每个类别获得了59%至75%的f-score。Srinilta和Kanharattanachai（2019年）使用4种废物类别：可堆肥的、危险的、一般的和可回收的。

为了便于废物分类，这些数据被用于训练四种最先进的CNN架构，包括VGGNet，ResNet-50，MobileNet-v2和DenseNet-121。

在各种文章中，已经对眼震现象及其与计算机视觉的关系进行了检查。Mehrdad Sangi等人（2015年）提出了一种方法，包括跟踪 Head 、稳定 Head 、裁剪眼部区域、检测瞳孔中心、跟踪眼睑边缘，产生了眼位移和速度信号。Nicolas Huynh Thien等人（2012年）提出了一种算法，用于通过检测眼震来估计酒精中毒。Li等人（2023年）提出了一种基于深度学习和图像处理技术的眼震检测方法，作为识别眼震的工具。Tomasz Pander等人（2012年）开发了一种检测眼跳的新方法，Jason Turuwhenua等人（2014年）利用眼睑的光流来识别眼震。

人工智能模型中的人类视觉融合的思想深受Haritosh等人（2019年）的启发，他们在一般的分类任务中使用了一定数量的模糊。

unset

unset3 Methodsunset

unset

Module 1: Nystagmus Simulation

picture.image

假设输入矩阵为，满足：

输入矩阵，其中是输入样本空间的大小，是输入特征空间或图像数量的大小。现在，通过使用个高斯模糊等级来模拟眼震现象，模型首先看到最模糊的图像，最后看到最不模糊的图像，从而模拟出人类视觉感知的逐渐过程。

为了实现这一目标，数据集被分为个子集，如下所示：

为了得到个高斯模糊等级，作者需要改变（核大小），以及用于模糊图像的高斯分布的方差。这些参数用于形成一个高斯核，如下所示：

这个核被用来模糊初始图像，得到一个新的图像矩阵。

这些是用于对单一图像施加固定模糊量的方程。在作者的框架中，作者需要对个图像向量施加级模糊。为此，作者使用一个整数值形成一系列和，其中。将个图像分成个组。通过以下方程使用生成和的不同值：

在这项工作中，作者使用线性变化来改变和的值，逐渐模糊全数据集中的图像。

Module 2: Vision Transformer

图像分词：形式上，每个图像最初是一个在2D表示中的3D向量。也就是说，每个图像最初是，其中是图像的尺寸，表示颜色通道。

将图像 Reshape 为，其中是每个patch的分辨率，。这个新向量表示每个图像：矩阵的每一行都是一个大小为16x16、14x14或任何其他指定大小的特定patch。

每个一维向量，代表一个单一的patch，使用线性投影转换为大小为的线性向量，其中是 Transformer 中常数潜在向量的大小。

除了这些投影的patch，还附加了一个可训练的嵌入（[class] token），用于这些patch。这个token的状态决定了相关的图像分类。[class] token作为每个图像序列的第一行附加。在输出状态中，将有一个输出向量对应每个特征行。但是，由于后面描述的自注意力机制，分类是通过[class] token的状态进行的，因为它包含了来自其他所有patch的信息。

此外，在图像表示中添加了位置嵌入。这些嵌入表示了patch在图像中的初始位置。这可以通过简单地将图像中的每个patch分配值，如1、2、3等来实现。另一种嵌入位置信息的方法是使用和函数，使嵌入平滑且唯一，以根据频率集成相对位置信息，具体取决于是偶数还是奇数，如下所示：

从这些表达式中可以看出，正弦波的波长范围从到。每一行向量是一个正弦波系列，其频率按照几何级数增加，即在每一行中，频率单调增加。随后，每一行代表了一个离散位置的位置编码。

现在，通过前面这些方程得到的矩阵被传递给视觉 Transformer 。因此，输入矩阵是由二维数组组成的。形式上， Transformer 将以下内容输入第一层：

这些方程表示了patch和位置嵌入以及class token。每个patch向量是一个大小为的向量。向量用于线性映射到所需的patch大小。

多头自注意力 ：架构中的第一个模块执行多头自注意力的功能。

输入首先进行归一化，然后传递到自注意力层。与的加和代表了与前块的残差连接。

这个模块使模型能够评估各个patch与其他相同图像的patch之间的关系的重要性。基于这种关系，每个自注意力头为每个patch计算注意力权重。每个patch应贡献多少到最终图像表示是由这些注意力权重决定的。

这一层计算每对patch嵌入之间的注意力评分，利用可训练参数来评估每个patch的相对重要性。使用注意力分数计算每个patch嵌入的加权总和，其中权重表示每个patch的重要性。MSA可以通过使用多个注意力头并将其附加来捕捉图像中的局部和全局依赖性。

数学上，让MSA块接收输入向量。这个使用可训练权重线性投影为3个矩阵，称为，和或 Query 、键和值矩阵。使用这些矩阵，可以得到注意力分数，如下所示：

在这里，是一个点积，通过除以进行缩放，以防止非常大的值，然后经过softmax函数处理，以确保在序列的更相关位置分配更高的值。和的点积创建了一个矩阵，表示每个patch与每个其他patch的相似性。实际上，点积矩阵中的一行表示该patch与每个其他patch的相似性分数。这些权重用于通过重新加权来获得重新加权后的patch表示：

是的加权求和，其中矩阵中的值决定了中每个值对中最终加权值的贡献。

在多头自注意力模块中，个自注意力头并行运行。由于有多个自注意力头，所有输出在计算结束时都被拼接在一起并投影。最初，输入序列被分为个子数组以计算自注意力，然后将这些子数组拼接在一起以产生与初始输入大小相等的输出。这些加权值是MSA块的输出。

MLP和输出 ：自注意力层的输出经过MLP块处理。

：MLP和输出

MLP模块包含两种类型的层，一种是线性层，另一种是高斯误差线性单元（GELU）。这些层首先将输入转换到更高的维数，应用GELU，然后将序列转换回大小的patch嵌入，以保持输出大小一致。经过MLP层变换的最终patch嵌入是通过将MLP层的输出添加到MSA后的输入patch嵌入中得到的。这样的MLP模块有助于模型通过引入非线性函数来捕捉patch嵌入之间的复杂模式和关系。

picture.image

Transformer 的输出通过[class]标记的最后状态的归一化来接收：

unset

unset4 Resultsunset

unset

Experimental Setup

训练矩阵，其中和分别是训练矩阵的样本空间大小，包含22,564个样本，图像特征空间大小为。此外，还有2513张相同维数的测试图像。

除了这个二进制数据集，作者还将在垃圾net上测试所提出的算法，该数据集包含6个类别的2527张图像，分布如下：501张玻璃，594张纸，403张硬纸板，482张塑料，410张金属和137张垃圾。该数据集被分成252张测试图像。

作者使用了一个具有，和的视觉 Transformer 。在构建架构时，作者考虑了模型的性能和优化。在模拟眼震方面，作者使用了10级模糊，生成了和的10个值。训练数据也被分成10组，每组对应不同的和值，对应不同的模糊程度。

'人类感知 - ViT'框架使用Python编程语言的PyTorch库实现。Numpy和Pandas库分别用于数学计算和与数据相关的任务。

Classification Performance

本文比较了基于人类感知的ViT架构与标准ViT架构。尽管模型在训练数据上进行训练，但它们的分类性能在测试矩阵上进行测试，该测试矩阵包括2513个未见过的测试图像。在表格中计算并比较了各种性能指标，如准确性、精确度、召回率和F1分数。

picture.image

此外，图表显示了模型之间的分类混淆矩阵。HP-ViT模型达到了90.61%的准确性，而ViT模型达到了88.70%的准确性。

除了对二分类数据集进行比较外，作者还将在包含更多类别且图像数量显著减少的trashnet数据集上运行模型。在这个数据集中，有252张测试图像。在这个数据集上，HP-ViT架构的AUROC得分达到0.87，而ViT架构的AUROC得分达到0.84。

picture.image

以下性能指标用于衡量模型在二分类数据集上的分类性能：

picture.image

unset

unset5 Conclusionunset

unset

在这项工作中，作者提出了一种新颖的方法来处理数据集，然后再将其传递给任何形式的人工智能模型。在本案例中，作者将这种方法应用于废物分类任务，总共使用了2个不同的数据集，并将修改后的数据集传递给视觉 Transformer 架构。

picture.image

所提出的这种方法超越了标准的ViT，并在这些数据集上比其他最先进的工作获得更高的准确性。在未来，可以将这种将人类视觉集成到数据集中的原则应用于各种其他数据集。此外，可以改变用不同的方法来模拟增长，如指数增长。

unset

unset参考unset

unset

[1]. Integrating Human Vision Perception in Vision Transformers for classifying waste items

点击上方卡片，关注「AI视界引擎」公众号