终于等到Mamba对YOLO出手了！ FER-YOLO-Mamba直接干翻 YOLOv8 - 文章 - 开发者社区

点击下方卡片，关注「AI视界引擎」公众号

picture.image

面部表情识别（FER）在理解人类情绪线索方面起着关键作用。然而，基于视觉信息的传统FER方法存在一些局限性，如预处理、特征提取和多阶段分类过程。

这些不仅增加了计算复杂性，还需要大量的计算资源。

考虑到基于卷积神经网络（CNN）的FER方案在识别面部表情图像中嵌入的深层、长距离依赖关系方面常常不足，以及Transformer固有的二次计算复杂性，本文提出了FER-YOLO-Mamba模型，该模型融合了Mamba和YOLO技术的原理，以促进面部表情图像识别和定位的高效协调。

在FER-YOLO-Mamba模型中，作者进一步设计了一个FER-YOLO-VSS双分支模块，该模块结合了卷积层在局部特征提取中的固有优势与状态空间模型（SSMs）在揭示长距离依赖关系方面的卓越能力。

据作者所知，这是首次为面部表情检测和分类设计的视觉Mamba模型。

为了评估所提出的FER-YOLO-Mamba模型的性能，作者在两个基准数据集RAF-DB和SFEW上进行了实验。

实验结果表明，FER-YOLO-Mamba 模型与其他模型相比取得了更好的结果。

关注公众号，私信「获取代码」获取链接地址。

I Introduction

面部表情识别（FER）作为情感识别的基本组成部分，有效地捕捉和分析微妙的面部变化，揭示了个人的情感状态。随着人工智能（AI）和计算机视觉（CV）的发展，它已成为情感计算领域的基石，为人类-计算机交互和情感分析等应用提供了强大的支持[1]。准确的面部表情识别不仅能让人们更深入地了解人类情感的复杂内涵，也为开发智能和富有同情心的交互系统奠定了坚实的基础。目前，FER已在情感计算、人类-计算机交互、辅助医疗、智能监控和安全、娱乐产业、远程教育以及情感状态分析等领域得到广泛应用，吸引了众多研究者的关注[2]。

传统的基于视觉的FER通常依赖于视觉信息，如面部图像或视频，来分析和识别个人的面部表情并确定其情感状态。这一技术源自计算机视觉和模式识别，涉及多个步骤，如面部图像的预处理、特征提取和分类。对于FER任务，面部图像预处理对于后续的特征提取和识别至关重要，包括面部检测、对齐和归一化操作。预处理之后，使用特定的算法或模型从眼睛、嘴巴和眉毛等区域提取面部表情特征，包括形状、纹理和运动信息。

基于提取的特征，采用分类器或识别算法对表情进行分类，包括识别微笑、愤怒、惊讶等其他情感状态[3, 4]。尽管基于视觉的FER技术已经取得了一系列显著成果，但它往往依赖于手动设计的特征提取器，这在一定程度上可能限制了其准确捕捉和分类复杂多变的面部表情的能力。由于面部表情的多样性和动态性，传统的手动特征提取方法可能无法全面捕捉微妙的面部变化，导致分类准确率下降。此外，光照条件、 Head 姿态和遮挡等因素也可能对识别性能产生负面影响[5]。

此外，基于深度学习的目标检测能够检测目标同时获取深层特征，从而实现精确分类。因此，将这项技术应用于面部表情的检测和分类具有广泛的研究前景。目前基于深度学习的FER研究主要集中在CNN和Transformer模型的优化上，因为CNN往往难以捕捉长距离依赖关系和细粒度的面部表情特征，而Transformer模型受到二次计算复杂度的限制[6]。在这种情况下，由于在建模长距离交互的同时保持了线性计算复杂度，状态空间模型（SSMs）中的Mamba模型[7]引起了研究者的关注，以解决这些限制。

为了克服现有技术的局限，本文提出了一个用于FER任务的YOLO-Mamba模型，命名为FER-YOLO-Mamba，它结合了YOLO和Mamba的优势，实现了对面部表情图像的高效检测和分类。本文的主要贡献可以总结如下：

作者创新性地开发了一个FER-YOLO-Mamba模型，它基于SSM构建了一个视觉 Backbone 网络。这是将SSM驱动的架构集成到面部表情检测和分类领域的一次开创性尝试，首次探索了该模型在这一领域的研究。
作者进一步设计了一个双分支结构，它不仅整合了原始的局部详细信息以及OSS提供的全局上下文信息，还结合了具有多层感知机的注意力机制。该注意力机制通过全局平均池化、多层感知机（MLPs）和逐元素乘法技术实现输入特征图的空间注意力机制。通过选择性地放大关键信息区域，同时降低不相关或次要区域的影响，该模块显著增强了模型在FER任务中的辨别力和精确度。
为了验证所提出的FER-YOLO-Mamba模型的有效性，作者在两个手动标注的面部表情数据集RAF-DB和SFEW上进行了实验。实验结果表明，与其它方法相比，FER-YOLO-Mamba模型取得了更好的效果。

本文的其余部分组织如下：第二节概述了相关工作。第三节在介绍SSM原理之前，详细介绍了作者提出的FER-YOLO-Mamba的设计。第四节作者披露了用于实验的数据集并提供性能分析。最后，第五节总结了本文。

II Related work

Facial Expression Recognition

FER在人类-计算机交互领域扮演着至关重要的角色，尤其是在智能机器人和虚拟助手等应用中。通过准确识别用户的面部表情，系统可以更好地理解用户的情绪和意图，从而提供更加个性化的服务体验。此外，FER在心理健康领域也展示了其独特的价值。在协助诊断和治疗抑郁症和自闭症等疾病时，医生通过分析患者的面部表情可以更准确地评估患者的情绪状态，从而制定出更有效的治疗方案。这项技术的应用不仅提高了心理健康服务的准确性和效率，还让患者获得了更精确的诊断和治疗体验。

为了实现面部表情的自动分类，传统的基于视觉信息的FER方法主要侧重于通过图像处理技术和模式识别算法提取和分析面部特征。这些方法通常包括人脸检测、特征提取和表情分类。

在特征提取阶段，传统的FER方法常常依赖于手工设计的特征提取器，包括几何、纹理和运动特征提取。在基于几何特征的方法中，特征是通过分析面部标志点的位置、距离和角度获得的。Tian等人[3]提出了一种基于几何特征的FER方法，该方法识别和分析面部动作单元以实现表情分类。基于纹理特征的方法则利用面部皮肤纹理的变化来识别表情，通常通过灰度共生矩阵或局部二值模式计算。Shan等人[8]使用局部二值模式作为纹理特征进行FER。此外，运动特征方法用于捕捉面部肌肉的运动和变化以识别不同的表情。Bartlett等人[9]提出了一种结合了几何和动态特征的FER方法，在自发表情识别中取得了良好的性能。

在分类器设计中，传统方法通常使用诸如支持向量机（SVM）、K近邻（KNN）等机器学习算法。Alhussan等人[10]提出了一种基于优化SVM的有效的FER方法，强调了模型优化和特征提取在提高识别性能中的重要性。Subudhiray等人[4]讨论了基于K近邻算法的面部情绪识别技术，强调了使用有效特征的重要性。

为了克服手工设计特征提取器在FER中的局限性，这些传统方法常常在复杂环境中难以全面捕捉与表情相关的关键信息，并缺乏对光照、面部姿态和遮挡的鲁棒性。因此，越来越多的研究行人转向深度学习方法，尤其是卷积神经网络（CNNs），用于面部表情识别任务。结果，Wang等人[11]介绍了一种基于CNN的FER方法，并关注了不同卷积层之间信息共享和重用的概念。Sarvakar等人[12]构建了一个基于CNN的FER模型，该模型在多个面部表情数据集上进行训练和测试。此外，Patro等人[13]开发了一个基于定制DCNN的FER系统。通过深度学习方法，该系统可以自动学习和提取与快乐、悲伤、愤怒等情绪相关的特征。

此外，作为FER研究的另一个持续领域，基于多模态信息融合的方法不仅整合视觉信息，还融合了音频、文本等其他模态的数据，以进一步提高FER的准确性和可靠性。Zadeh等人[14]研究了不同数据源在情绪分析中的利用，提出了一种张量融合网络，以整合和分析来自不同模态的数据。同样，Pan等人[15]提出了一种基于面部表情、语音和脑电图（EEG）的多模态情绪识别方法。提取的情绪特征不仅包括传统的面部表情和语音特征，还包括EEG信号的特征。在[16]中，Zhang等人对基于深度学习的多模态情绪识别技术进行了系统回顾，主要讨论了情绪识别的最新发展和前景。

Object Detection Methods Based on the YOLO Series

近年来，随着深度学习技术的发展，目标检测算法取得了显著进展。在这些算法中，由于YOLO（You Only Look Once）系列算法的效率和实时性能，它们受到了广泛关注。

YOLO算法的第一个版本[17]提出了将目标检测任务转化为回归问题的概念。随后，YOLOv2[18]在原版基础上进行了几处改进，包括引入批量归一化以提高模型的收敛速度和稳定性，以及使用高分辨率分类器来提升其捕捉细粒度特征的能力。此外，YOLOv3[19]通过使用更深的Darknet-53架构改进了网络结构，并引入了残差连接以防止梯度消失和模型退化。YOLOv3还采用了多尺度预测，通过在不同尺度的特征图上检测来有效捕捉不同大小的物体。

随后，为了在保持YOLO系列效率的同时提高准确度，YOLOv4[20]应运而生，它采用了更复杂的网络结构CSPDarknet53，并引入了诸如跨阶段部分连接（CSP）和自对抗训练（SAT）等技术。YOLOv5通过采用更高效的计算方法和硬件加速技术，提高了模型的灵活性和可用性，实现了高准确度和快速检测速度。YOLOv7[21]通过划分网格并在每个网格中预测每个物体的位置和类别，实现了快速准确的目标检测。与之前版本相比，YOLOv7提高了检测准确度，并能满足更多应用场景的需求。作为YOLO系列的最新模型，YOLOv8由Ultralytics发布，基于YOLO系列的历史版本构建。YOLOv8引入了新特性，使用了更深、更复杂的网络结构，以及更高效的损失函数，从而提高了检测准确度和检测速度。此外，由Megvii开发的YOLOX[22]目标检测算法，基于YOLOv3-SPP进行改进，将原始的基于 Anchor 点的方法转变为 Anchor-Free 点形式，并融合了其他先进的检测技术，如解耦头和标签分配SimOTA，实现了卓越的性能。

State Space Model on Visual Recognition

状态空间模型（SSM）最近在深度学习中作为状态空间转换的关键方法受到了关注。从连续控制系统中的SSM获得灵感，并整合了前沿的HiPPO初始化方法，LSSL模型已有效地展示了SSM在解决序列中长期依赖关系的广泛潜力。然而，LSSL模型由于状态表示的计算复杂性和大量的存储需求而面临限制。为了解决这个问题，S4模型被引入，通过参数对角线结构和标准化来提升性能。随后，一系列具有不同结构的SSM（例如，复数对角线结构，选择机制等）出现，展示了在各自应用场景中的显著优势。

在视觉处理方面，Liu等人从SSM获得灵感，提出了视觉状态空间模型（VMamba）。这个模型不仅继承了SSM在全球接收场方面的优势，还实现了线性计算复杂性，显著提高了图像处理的效率。随后，通过引入Res-VMamba模型，Chen等人进一步增强了VMamba模型，并针对细粒度食品图像分类任务进行了优化。在遥感图像分类中，Chen等人提出了RSMamba模型，利用高效的、硬件感知的Mamba实现来有效整合全球接收场和线性复杂性建模的优势。

在医学图像处理方面，Yue等人引入了MedMamba模型，这是第一个专为医学图像分类设计的特定Mamba模型。此外，Ma等人提出了U-Mamba模型，通过结合U-Net架构和Mamba模型的优势，有效提升了生物医学图像分割的性能。Ruan等人提出的VM-UNet模型将视觉Mamba与U-Net结合用于医学图像分割任务，通过整合多尺度特征信息增强了分割的准确性和鲁棒性。Liu等人展示了Swin-UMamba模型，该模型将Swin Transformer与Mamba结合用于预训练，进一步为生物医学图像分割任务的模型准确性做出了贡献。此外，Yang等人引入了Vivim模型，为医学视频目标分割提供了一种新颖的方法。Gong等人展示了nnMamba模型的卓越性能，该模型通过结合深度学习与SSM的优势，在处理复杂的3D图像数据方面表现出色。最后，Guo等人提出了MambaMorph模型，为可变形MR-CT配准任务提供了一种新的解决方案。

III Methodology

State Space Models

状态空间模型（SSMs）因其独特的封装动态系统能力而越来越受到研究者的青睐。这种模型能有效地将输入序列（表示为）通过隐含的潜在状态转换为输出变量（表示为），在建模复杂时间序列时显示出强大的适应性。SSMs深深植根于控制理论，其核心结构由以下一组线性常微分方程（ODEs）表示：

其中对于一个状态大小，以及跳过连接。

在SSMs中，状态转移矩阵在决定状态向量的演变路径方面起着关键作用，而输入矩阵、输出矩阵和前馈矩阵分别揭示了输入信号、状态和输出响应之间的内在联系。在深度学习中，通常倾向于采用离散时间框架，这需要将描述系统动态特性的连续方程转换为离散形式，以满足计算要求并确保与数据采集的采样频率同步。

SSMs的离散化本质上将系统的连续时间常微分方程组转换为等效的离散时间表示，可以通过对输入信号应用零阶保持策略来实现，从而构建如下离散时间SSM：

其中，，以及。

Mamba算法[7]，凭借其在SSM框架内独特的选择性扫描机制，在面部表情检测和分类任务中显示出显著优势。这种机制的核心在于其能够根据当前和历史上下文动态调整系统矩阵和，这是其与其他方法区别开来的一个关键特性。

在面部表情图像分析中，多样性和复杂性对传统方法提出了挑战。然而，Mamba算法通过其选择性扫描机制，专注于输入数据的关键区域，有效地提取与面部表情相关的特征。这种精确的关注使得算法能够更准确地捕捉到表情的细微变化，从而提高检测和分类的准确性。

更重要的是，Mamba算法通过动态调整系统矩阵和，增强了处理复杂时间动态的能力。这对于面部表情的检测和分类尤为关键，因为面部表情不仅涉及单帧内的细微差别，还涉及连续帧之间的动态变化。算法能实时响应输入数据特征的改变，准确捕捉到这种复杂的时间动态，从而更好地理解面部表情的连续性和动态性，并提高检测和分类的准确性。

总之，凭借其独特的选择性扫描机制和动态调整能力，Mamba算法在面部表情检测和分类任务中显示出巨大的潜力。其在捕捉细微表情变化和动态特征方面的优势使该算法在面部表情图像分析领域具有广泛的应用前景和重要的研究价值。

Overall architecture

图1展示了所提出的FER-YOLO-Mamba网络的架构，该架构主要由三个核心部分组成：CSPDarknet、FPN和YOLO Head。最初，CSPDarknet作为主干特征提取网络，负责从输入图像进行初始特征提取。经过CSPDarknet处理后，输入图像转化为三个不同尺度的特征图，尺寸分别为、和，包含从粗到细的分层多级特征信息。

picture.image

FPN作为增强特征提取网络，通过整合CSPDarknet输出的多尺度特征。该模块的核心概念在于有效地融合跨尺度特征，以捕获不同层次上的细节和上下文信息，从而增强整体特征表示。具体来说，FPN通过上采样将低级特征图上采样到与高级特征图尺寸一致，进行跨尺度交互，同时实施下采样操作以丰富特征融合的维度和深度。

作为FER-YOLO-Mamba框架的关键组成部分，YOLO Head承担分类和定位的双重责任。在CSPDarknet和FPN的协同处理后，网络生成三个加强的多尺度特征图。这些特征图可以被视为包含大量特征点的网格，每个特征点都与其通道相关联的特征向量。YOLO Head的核心机制涉及单独分析这些特征点，以确定它们与目标目标的关联。这个过程包括两个互补且独立的子任务：类预测，以确定与特征点相关联的目标类别；以及边界框回归，以精确估计目标的位置。最终，这两种预测的输出被融合，以全面识别图像中的目标。

与传统的目标检测数据集相比，FER数据集具有独特的特性。尽管它们只关注一个特征，但它们常常受到复杂背景的干扰。传统的FER方法常使用预处理技术来减弱背景影响并简化识别过程。然而，在FER-YOLO-Mamba模型的设计中，作者没有采用这样的预处理步骤。相反，作者直接使用带有背景的原始图像作为输入。这些输入图像的尺寸为，含有丰富的背景信息，这无疑对模型处理复杂场景和干扰的能力提出了更高的要求。同时，这也突显了FER-YOLO-Mamba模型在处理具有复杂背景的FER任务时所采用的独特策略，及其在实践应用中的巨大潜力。

FER-YOLO-VSS module

FER-YOLO-VSS模块是一个双分支结构。具体来说，该模块的输入首先通过通道分裂处理，分为两个大小相等的子输入，如图1所示：FER-YOLO-Mamba的整体架构。在后续步骤中进行独立特征提取和处理。这种设计旨在通过并行处理策略更有效地捕捉和提取图像中的关键特征信息。随后，这两个子输入进入它们各自特定的处理分支，即特征细化模块（FRM）分支和全方位状态空间（OSS）分支。

为了增强模型学习判别性和上下文感知特征表示的能力，FRM分支采用连续的通道维度压缩策略。此外，这个分支还结合了具有自适应特征权重调整的注意力机制，以调整不同特征的重要性。经过这一系列处理后，FRM分支最终恢复到原始的通道数，从而确保信息的完整性和准确性。

OSS分支[30]首先对输入特征应用层归一化作为预处理步骤，之后将归一化的特征分为两条平行的子路径。在第一条路径中，特征经历包括线性变换层和激活函数的简化转换。同时，第二条路径涉及的过程相对更为复杂，因为特征在进入全方位选择性扫描模块（OSSM）深入提取特征信息之前，经历了三个 Level 的逐步处理，包括线性层、深度可分离卷积和激活函数。

OSSM使用SSM技术实现对面部表情图像在水平、垂直、对角线和反向对角线方向的双向选择性扫描。这种方法旨在增强图像在多个方向上的全局有效感受野，并从各种角度提取全局空间特征。具体来说，八种不同方向的选择性扫描能够从多个方向捕捉到大规模空间特征。在此之后，应用层归一化来标准化特征，并通过元素乘法将此分支的输出与第一条分支的输出进行深度融合。随后，借助线性混合层来整合每个分支的特征，并融入残差连接策略，协同构建FER-YOLO-VSS2模块的最终输出响应。在OSS分支中，SiLU激活函数被选为默认激活单元。最后，将两个分支的输出特征沿通道维度拼接，并通过1x1卷积层进行深层特征融合，以增强特征图之间的深层交互效果。

根据输出通道数的不同，FER-YOLO-VSS模块分为两个变体：FER-YOLO-VSS1和FER-YOLO-VSS2（图2）。FER-YOLO-VSS1旨在减少通道数，并且不引入“捷径”连接机制（）。同时，FER-YOLO-VSS2保持了输入和输出通道数的一致性，并引入了“捷径”连接以提高信息流效率（）。

picture.image

总的来说，作为核心模块，FER-YOLO-VSS不仅整合了原始的局部信息，还整合了OSS提供的全局上下文信息，并融合了带有多层感知机的注意力机制。这种设计策略旨在通过注意力机制实现局部和全局信息的互补融合，从而提高模型处理关键信息的能力，进而提升整体性能。

Attention Block with Multi-Layer Perceptron

注意力块与多层感知机（ABMLP）模块融合了全局平均池化、多层感知机（MLP）和逐元素乘法技术，以实现对输入特征图的空域注意力机制。其核心功能是在识别任务中选择性地突出关键信息区域，同时减弱不相关或次要区域的影响，从而提高模型的判别性能。

ABMLP的伪代码如算法1所示。首先，形状为的输入特征图通过全局平均池化得到一个形状为的特征向量。随后，特征向量被送入MLP中，通过一系列非线性变换生成注意力权重向量。这个MLP包含三个线性层，在两层后引入ReLU激活函数以引入非线性特性，并在最后使用Sigmoid激活函数以产生注意力权重向量。

picture.image

这个权重向量适当地重新调整形状以匹配原始输入特征图的维度，结果是形状为以进行后续操作。最后，重新调整形状的注意力权重向量与原始输入特征图进行逐元素乘法，生成自注意力增强的特征图，这是ABMLP模块的输出结果。

算法1 ABMLP伪代码

IV Experimental Results and Analysis

以下是实验结果及分析部分的开始：

Datasets and Implementation Details

面部表情数据集：在本文中，作者基于两个面部表情数据集进行了实验，RAF-DB 和 SFEW 。

RAF-DB 数据集是一个大规模的面部表情识别数据集，它整合了来自不同现实生活场景的图像，如社交媒体视觉和电影帧，生动地展示了在自然环境中表情识别的复杂性和多样性。该数据集涵盖了七种基本表情以及21种复合表情，而本文中的实验仅限于七种基本表情。该数据集包括12,271张训练图像和3,068张测试图像。

SFEW 数据集是专门为在复杂现实世界环境中进行面部表情识别研究设计的基准。这个数据集的一个显著特点是表情的自然属性，它们出现在自然和未受控制的场景中。该数据集源自 AFEW 视频数据库，经过精心标注关键面部表情帧，包括1,251张图像，展示了各种光照条件、背景复杂性、 Head 姿势和面部遮挡，准确地模拟了在真实世界表情识别任务中遇到的复杂场景。该数据集也包括七种基本面部表情。

为了进行端到端实验，作者对这两个数据集都采用了手动标注，以确保标签的准确性和一致性。需要注意的是，在整个实验过程中没有进行预处理，比如面部对齐。这种有意的做法是为了评估模型在非标准化输入数据条件下的性能。

实施细节：实验是在具有特定硬件配置的服务器平台上进行的，使用 PyTorch 框架进行算法开发和模型训练。硬件规格包括一个 AMD Ryzen Threadripper 3960X 24核处理器，配以125 GB的内存和一块 GeForce RTX 2080 Ti 显卡，确保了高效的计算环境。在训练策略方面，所有模型都统一使用了 Adam 优化算法，批量大小为16，以平衡计算效率和内存使用。

为了解决数据集之间的差异，作者相应地调整了训练时间，为 RAF-DB 数据集设置了300个周期，而对于更复杂的 SFEW 数据集，则延长到500个周期，从而适应数据量和复杂性的差异。采用了0.001的初始学习率，并伴随指数衰减策略，在每个训练期间每隔64个周期实施一次。这种策略包括在每个间隔将学习率降低0.9倍，战略性地促进逐渐向最有利的解决方案收敛。

需要注意的是，在开始训练之前， Backbone 特征提取网络加载了来自 COCO 数据集的预训练权重。

Evaluation Metrics

对于所提出的FER-YOLO-Mamba模型，作者根据一系列关键性能指标评估了其性能，如下所示：

精确度：此指标旨在衡量模型输出中被预测为阳性的实际阳性样本的比例，其公式如下：其中真正例（_TP_）表示被模型正确识别为阳性的样本数量，而假正例（_FP_）表示被错误分类为阳性的实际阴性样本数量。
平均精确度：所有类别的的均值。其中表示第类的，是总类别数。
召回率：召回率用于衡量模型识别所有真正例样本的准确性，即模型成功检测到的实际目标的比例，其公式如下：其中假反例（_FN_）指的是实际为阳性样本但被模型错误分类为阴性的样本数量。
平均召回率：所有类别的的均值。其中表示第类的。
F1分数：作为精确度和召回率的调和平均数，F1分数提供了一个平衡两者的单一评估指标。较高的F1分数表明模型可以有效控制_FP_率的增加同时保持高召回率。F1分数计算如下：
平均F1分数：所有类别的F1分数的均值。其中表示第类的F1分数。
平均精度（AP）：对于任何给定的类别，AP旨在反映在各个召回率水平下的精确度的平均性能。AP直接指示模型在不同召回率水平下保持高精确度的能力。
mAP：mAP作为所有类别AP值的算术平均值，用于评估模型在多类别检测任务中的整体性能。mAP计算如下：其中表示第类的AP分数。

Comparisons with state-of-the-art methods

表1和II提供了对作者提出的FER-YOLO-Mamba网络模型与当前最先进方法的比较分析，使用RAF-DB和SFEW数据集作为基准。在这些表中，表现最佳的结果以粗体突出显示，次佳的结果以下划线标记以清晰区分。

picture.image

从表1和II中呈现的数据分析中汲取见解，FER-YOLO-Mamba模型在两个基准数据集RAF-DB和SFEW上获得了最高的分数，分别为80.31%和66.67%。这一性能显著超过了目前最先进的YOLOvX模型，在RAF-DB上领先1.91%，在SFEW上领先2.65%。

特别是，FER-YOLO-Mamba模型在处理“Sad”（悲伤）和“Surprise”（惊讶）情绪类别方面表现出色。在RAF-DB数据集上，模型在“Sad”类别上获得了84.22%的分数，在“Surprise”类别上获得了91.44%的分数。当转移到SFEW数据集时，FER-YOLO-Mamba模型在“Sad”类别和“Surprise”类别上保持了高识别准确率，分别为71.78%和58.52%。

值得注意的是，在RAF-DB数据集上，“Happy”（快乐）情绪类别获得了所有类别中最高的分数，达到97.43%。而在SFEW数据集上，FER-YOLO-Mamba模型在“Happy”类别上的虽然比SSD模型低0.26%，但与其他方法相比仍保持在竞争性的高水平。这主要归功于数据集中“Happy”情绪类别更丰富和更多样化的样本，为FER-YOLO-Mamba模型提供了更广阔的学习空间，以更好地理解和区分这一情绪的特征和模式。

然而，在全面评估FER-YOLO-Mamba模型的性能时，有几个方面被确定为需要改进的途径。在RAF-DB数据集上，模型在识别“Fear”（恐惧）情绪方面的性能相对较弱，表现为较低的分数。同样，在SFEW数据集上进行测试时，模型处理“Neutral”（中性）情绪类别也证明是一个挑战，得到次优的分数。这些观察指出，在模型未来的迭代中，可能需要对特定的情绪类别进行进一步的调整或专门关注。

此外，作者在图3中提供了各种网络模型在Params（参数）和FLOPs（浮点运算）方面的比较分析。值得注意的是，EfficientNet以其极低的参数数量和计算成本脱颖而出，Params为3.83M，FLOPs为4.78G，突显了其在资源利用方面的深刻效率。紧随其后的是作者提出的FER-YOLO-Mamba模型，Params为8.68M，FLOPs为6.89G，与EfficientNet相比略有增加，但仍然保持在相对较低的水平。

picture.image

然而，在全面评估模型时，必须将参数数量和计算成本与它们的性能进行平衡。尽管EfficientNet在参数大小和计算要求上低于FER-YOLO-Mamba，但其在两个数据集上的性能却显著落后，分别相差8.86%和50.80%，这表明EfficientNet在追求更高资源效率的同时，以一定程度的模型复杂度为代价，确实牺牲了整体分类准确率。

Ablation Experiments

表3详细阐述了在FER-YOLO-Mamba网络中集成的各种组件在RAF-DB和SFEW数据集上的个别贡献。这些组件包括FRM、OSS、其变体OSSM和SS2D。

picture.image

在表3中，表示所有情绪类别的平均精度。提供了一个全面的评估，反映了模型在所有类别上的预测准确性。相反，表示类别的平均召回率，衡量模型在所有实际阳性中识别真正阳性病例的成功程度。高召回率意味着检测阳性的能力很强，突显了模型在识别各种情绪方面的敏感性。最后，表示类别的平均_score_，它将精确度和召回率整合为一个单一指标。_score_作为一个平衡的模型性能指标，奖励在避免假阳性和有效捕获真正阳性方面表现优异的模型。高_score_表示精确度和召回率之间有很好的平衡。

表3说明，在RAF-DB数据集的背景下，启用FRM、OSS和OSSM会得到相对较高的分数，突显了该集合在此数据集上的强大性能。提高的分数表明模型在和之间取得了相当好的平衡。此外，高强调了网络在区分大多数阳性病例方面的有效性，证实了其在检测方面的优势。

相反，在SFEW数据集上，尽管相对较高，但它表明了整体性能的一致性。较低的意味着模型在和之间的平衡并不理想。较高的可能表明网络在全面检索所有阳性样本方面面临一些挑战。模型倾向于在高度确信一个样本为阳性时才进行预测，从而确保更高的精确度。然而，这种保守和谨慎的策略可能导致模型错过实际上为阳性但在某些情况下不够显著的实例，进一步导致的下降。

Experimental results across different classes

表4展示了YOLOvX和FER-YOLO-Mamba在RAF-DB和SFEW数据集中的各类别的性能，其中表现最优的结果以粗体突出显示。

picture.image

从表4中的数据可以看出，YOLOvX和FER-YOLO-Mamba在RAF-DB数据集的各类情绪中表现出不同的性能水平。总体而言，FER-YOLO-Mamba在大多数类别中的_score_、、以及这些指标的平均值方面优于YOLOvX，因此在执行FER任务时表现出更强的能力。更具体地说，在“愤怒”和“惊讶”类别中，尽管YOLOvX分别达到了62.34%和81.29%的率以及81.36%和85.80%的率，但FER-YOLO-Mamba则展示了更高的率，分别为71.43%和85.38%，以及率分别为75.34%和83.43%。尽管YOLOvX在上略胜一筹，但FER-YOLO-Mamba在率方面表现更好，这表明FER-YOLO-Mamba在忽略真实“愤怒”和“惊讶”样本的可能性较低，尽管可能会增加误报。

除了“悲伤”类别外，FER-YOLO-Mamba的_score_更高，表示在识别除“悲伤”外的其他情绪时性能有所增强。值得注意的是，在YOLOvX和FER-YOLO-Mamba两种架构中，“快乐”情绪类在两个数据集中都实现了异常高的识别准确率。这可能归因于快乐表情的鲜明特征，使得其识别的准确性和可靠性得到提高。

然而，在RAF-DB数据集中，“厌恶”和“恐惧”类别的_F score_相对较低，表明这些表情对模型来说更具挑战性。这可能是由于这些表情的微妙性、个体差异显著，或者与其他表情混淆的可能性。同样，在SFEW数据集中，“惊讶”和“中性”类别的_F score_也较低，这表明模型在识别这些表情时面临重大困难。这可能是因为这些表情的特征与其他表情相似，使得模型在区分上面临挑战。

Visualization of the detection results

Fig. 4 and Fig. 5 present visualizations of the detection results and corresponding heatmaps obtained by applying the FER-YOLO-Mamba network model for facial expression detection on the RAF-DB and SFEW benchmark datasets, respectively. In each dataset, the first row shows the detection results. Each image depicts a human face with the facial area highlighted by a colored bounding box. The boxes also annotate the predicted emotion class along with their confidence scores. For instance, "Anger 0.85" indicates that the facial expression is identified as "Anger" with a confidence score of 0.85. Following the first row of detection results, the second row presents the corresponding heatmap representation.

The principle of heatmap generation is to map the values in a two-dimensional data matrix to colors and fill these colors into the corresponding coordinate grid to form a visually comprehensible image. This visualization method helps to reveal the distribution, aggregation, and correlation characteristics of the data in two dimensions. The most intuitive effect of heatmaps is to present the distribution of data through color, making the characteristics of the data immediately apparent. The color depth or hue change of the grid cells reflects the size or density of the data values at that location. Areas with darker colors represent higher values or greater density, while regions with lighter colors indicate lower values or lesser density.

The visualizations show the robust FER capabilities of the FER-YOLO-Mamba network even in scenes with complex background interference. The model accurately locates the facial area and effectively extracts crucial facial features from visual noise, enabling precise identification and annotation of the individual's emotional state. These observations confirm the model's effective capture of various expressions and its robust recognition capabilities in real-world application scenarios.

V Conclusion

To address the complexity and overhead associated with traditional FER approaches, this paper proposed a YOLO-based solution to simplify the preprocessing, feature extraction, and classification stages that are typical of traditional visual-based FER methods. Additionally, a FER-YOLO-Mamba network model combining a state space model was proposed, which effectively integrated the efficient feature extraction capabilities of deep learning with the state space model's ability to capture long-range dependencies. Experimental results on the RAF-DB and SFEW datasets demonstrated the robust performance and generalization ability of the proposed FER-YOLO-Mamba model in FER tasks, effectively handling the various contexts and complexities presented by these challenging datasets.

Acknowledgments

本研究部分得到了国家自然科学基金（批准号62271418）的支持，部分得到了四川省自然科学基金（批准号2023NSFSC0030）的支持。

参考

[1].FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space.
在识别面部表情图像中嵌入的深层、长距离依赖关系方面常常不足，以及Transformer固有的二次计算复杂性，本文提出了FER-YOLO-Mamba模型，该模型融合了Mamba和YOLO技术的原理，以促进面部表情图像识别和定位的高效协调。

在FER-YOLO-Mamba模型中，作者进一步设计了一个FER-YOLO-VSS双分支模块，该模块结合了卷积层在局部特征提取中的固有优势与状态空间模型（SSMs）在揭示长距离依赖关系方面的卓越能力。

据作者所知，这是首次为面部表情检测和分类设计的视觉Mamba模型。为了评估所提出的FER-YOLO-Mamba模型的性能，作者在两个基准数据集RAF-DB和SFEW上进行了实验。实验结果表明，FER-YOLO-Mamba模型与其他模型相比取得了更好的结果。

代码可从https://github.com/SwjtuMa/FER-YOLO-Mamba获取。

I Introduction

目前，FER已在情感计算、人类-计算机交互、辅助医疗、智能监控和安全、娱乐产业、远程教育以及情感状态分析等领域得到广泛应用，吸引了众多研究者的关注[2]。

基于提取的特征，采用分类器或识别算法对表情进行分类，包括识别微笑、愤怒、惊讶等其他情感状态[3, 4]。尽管基于视觉的FER技术已经取得了一系列显著成果，但它往往依赖于手动设计的特征提取器，这在一定程度上可能限制了其准确捕捉和分类复杂多变的面部表情的能力。

由于面部表情的多样性和动态性，传统的手动特征提取方法可能无法全面捕捉微妙的面部变化，导致分类准确率下降。此外，光照条件、 Head 姿态和遮挡等因素也可能对识别性能产生负面影响[5]。

此外，基于深度学习的目标检测能够检测目标同时获取深层特征，从而实现精确分类。因此，将这项技术应用于面部表情的检测和分类具有广泛的研究前景。目前基于深度学习的FER研究主要集中在CNN和Transformer模型的优化上，因为CNN往往难以捕捉长距离依赖关系和细粒度的面部表情特征，而Transformer模型受到二次计算复杂度的限制。在这种情况下，由于在建模长距离交互的同时保持了线性计算复杂度，状态空间模型（SSMs）中的Mamba模型引起了研究者的关注，以解决这些限制。

作者创新性地开发了一个FER-YOLO-Mamba模型，它基于SSM构建了一个视觉 Backbone 网络。这是将SSM驱动的架构集成到面部表情检测和分类领域的一次开创性尝试，首次探索了该模型在这一领域的研究。
作者进一步设计了一个双分支结构，它不仅整合了原始的局部详细信息以及OSS提供的全局上下文信息，还结合了具有多层感知机的注意力机制。该注意力机制通过全局平均池化、多层感知机（MLPs）和逐元素乘法技术实现输入特征图的空间注意力机制。通过选择性地放大关键信息区域，同时降低不相关或次要区域的影响，该模块显著增强了模型在FER任务中的辨别力和精确度。
为了验证所提出的FER-YOLO-Mamba模型的有效性，作者在两个手动标注的面部表情数据集RAF-DB和SFEW上进行了实验。实验结果表明，与其它方法相比，FER-YOLO-Mamba模型取得了更好的效果。

本文的其余部分组织如下：

第二节概述了相关工作。

第三节在介绍SSM原理之前，详细介绍了作者提出的FER-YOLO-Mamba的设计。

第四节作者披露了用于实验的数据集并提供性能分析。

最后，第五节总结了本文。

II Related work

Facial Expression Recognition

为了克服手工设计特征提取器在FER中的局限性，这些传统方法常常在复杂环境中难以全面捕捉与表情相关的关键信息，并缺乏对光照、面部姿态和遮挡的鲁棒性。因此，越来越多的研究行人转向深度学习方法，尤其是卷积神经网络（CNNs），用于面部表情识别任务。结果，Wang等人介绍了一种基于CNN的FER方法，并关注了不同卷积层之间信息共享和重用的概念。Sarvakar等人构建了一个基于CNN的FER模型，该模型在多个面部表情数据集上进行训练和测试。此外，Patro等人开发了一个基于定制DCNN的FER系统。通过深度学习方法，该系统可以自动学习和提取与快乐、悲伤、愤怒等情绪相关的特征。

此外，作为FER研究的另一个持续领域，基于多模态信息融合的方法不仅整合视觉信息，还融合了音频、文本等其他模态的数据，以进一步提高FER的准确性和可靠性。Zadeh等人研究了不同数据源在情绪分析中的利用，提出了一种张量融合网络，以整合和分析来自不同模态的数据。同样，Pan等人提出了一种基于面部表情、语音和脑电图（EEG）的多模态情绪识别方法。提取的情绪特征不仅包括传统的面部表情和语音特征，还包括EEG信号的特征。在中，Zhang等人对基于深度学习的多模态情绪识别技术进行了系统回顾，主要讨论了情绪识别的最新发展和前景。

Object Detection Methods Based on the YOLO Series

YOLO算法的第一个版本提出了将目标检测任务转化为回归问题的概念。随后，YOLOv2在原版基础上进行了几处改进，包括引入批量归一化以提高模型的收敛速度和稳定性，以及使用高分辨率分类器来提升其捕捉细粒度特征的能力。此外，YOLOv3通过使用更深的Darknet-53架构改进了网络结构，并引入了残差连接以防止梯度消失和模型退化。YOLOv3还采用了多尺度预测，通过在不同尺度的特征图上检测来有效捕捉不同大小的物体。

随后，为了在保持YOLO系列效率的同时提高准确度，YOLOv4应运而生，它采用了更复杂的网络结构CSPDarknet53，并引入了诸如跨阶段部分连接（CSP）和自对抗训练（SAT）等技术。YOLOv5通过采用更高效的计算方法和硬件加速技术，提高了模型的灵活性和可用性，实现了高准确度和快速检测速度。YOLOv7通过划分网格并在每个网格中预测每个物体的位置和类别，实现了快速准确的目标检测。与之前版本相比，YOLOv7提高了检测准确度，并能满足更多应用场景的需求。

作为YOLO系列的最新模型，YOLOv8由Ultralytics发布，基于YOLO系列的历史版本构建。YOLOv8引入了新特性，使用了更深、更复杂的网络结构，以及更高效的损失函数，从而提高了检测准确度和检测速度。

此外，由Megvii开发的YOLOX目标检测算法，基于YOLOv3-SPP进行改进，将原始的基于 Anchor 点的方法转变为 Anchor-Free 点形式，并融合了其他先进的检测技术，如解耦头和标签分配SimOTA，实现了卓越的性能。

State Space Model on Visual Recognition

状态空间模型（SSM）最近在深度学习中作为状态空间转换的关键方法受到了关注[23]。从连续控制系统中的SSM获得灵感，并整合了前沿的HiPPO初始化方法[24]，LSSL模型[25]已有效地展示了SSM在解决序列中长期依赖关系的广泛潜力。然而，LSSL模型由于状态表示的计算复杂性和大量的存储需求而面临限制。

为了解决这个问题，S4模型[26]被引入，通过参数对角线结构和标准化来提升性能。随后，一系列具有不同结构的SSM（例如，复数对角线结构[27]，选择机制等[7]）出现，展示了在各自应用场景中的显著优势。

在视觉处理方面，Liu等人[28]从SSM获得灵感，提出了视觉状态空间模型（VMamba）。这个模型不仅继承了SSM在全球接收场方面的优势，还实现了线性计算复杂性，显著提高了图像处理的效率。

随后，通过引入Res-VMamba模型，Chen等人[29]进一步增强了VMamba模型，并针对细粒度食品图像分类任务进行了优化。在遥感图像分类中，Chen等人提出了RSMamba模型，利用高效的、硬件感知的Mamba实现来有效整合全球接收场和线性复杂性建模的优势。

在医学图像处理方面，Yue等人引入了MedMamba模型，这是第一个专为医学图像分类设计的特定Mamba模型。此外，Ma等人[32]提出了U-Mamba模型，通过结合U-Net架构和Mamba模型的优势，有效提升了生物医学图像分割的性能。Ruan等人提出的VM-UNet模型将视觉Mamba与U-Net结合用于医学图像分割任务，通过整合多尺度特征信息增强了分割的准确性和鲁棒性。Liu等人展示了Swin-UMamba模型，该模型将Swin Transformer与Mamba结合用于预训练，进一步为生物医学图像分割任务的模型准确性做出了贡献。此外，Yang等人引入了Vivim模型，为医学视频目标分割提供了一种新颖的方法。Gong等人展示了nnMamba模型的卓越性能，该模型通过结合深度学习与SSM的优势，在处理复杂的3D图像数据方面表现出色。最后，Guo等人[37]提出了MambaMorph模型，为可变形MR-CT配准任务提供了一种新的解决方案。

III Methodology

State Space Models

其中对于一个状态大小，以及跳过连接。

其中，，以及。

Overall architecture

picture.image

FER-YOLO-VSS module

picture.image

Attention Block with Multi-Layer Perceptron

picture.image

算法1 ABMLP伪代码

IV Experimental Results and Analysis

以下是实验结果及分析部分的开始：

IV. Experimental Results and Analysis

Datasets and Implementation Details

面部表情数据集：在本文中，作者基于两个面部表情数据集进行了实验，RAF-DB [38] 和 SFEW [39]。

实施细节：实验是在具有特定硬件配置的服务器平台上进行的，使用 PyTorch 框架进行算法开发和模型训练。硬件规格包括一个 AMD Ryzen Threadripper 3960X 24核处理器，配以125 GB的内存和一块 GeForce RTX 2080 Ti 显卡，确保了高效的计算环境。在训练策略方面，所有模型都统一使用了 Adam 优化算法，批量大小为16，以平衡计算效率和内存使用。

需要注意的是，在开始训练之前， Backbone 特征提取网络加载了来自 COCO 数据集的预训练权重。

Evaluation Metrics

对于所提出的FER-YOLO-Mamba模型，作者根据一系列关键性能指标评估了其性能，如下所示：

精确度：此指标旨在衡量模型输出中被预测为阳性的实际阳性样本的比例，其公式如下： (3) 其中真正例（_TP_）表示被模型正确识别为阳性的样本数量，而假正例（_FP_）表示被错误分类为阳性的实际阴性样本数量。
平均精确度：所有类别的的均值。 (4) 其中表示第类的，是总类别数。
召回率：召回率用于衡量模型识别所有真正例样本的准确性，即模型成功检测到的实际目标的比例，其公式如下： (5) 其中假反例（_FN_）指的是实际为阳性样本但被模型错误分类为阴性的样本数量。
平均召回率：所有类别的的均值。 (6) 其中表示第类的。
F1分数：作为精确度和召回率的调和平均数，F1分数提供了一个平衡两者的单一评估指标。较高的F1分数表明模型可以有效控制_FP_率的增加同时保持高召回率。F1分数计算如下： (7)
平均F1分数：所有类别的F1分数的均值。 (8) 其中表示第类的F1分数。
平均精度（AP）：对于任何给定的类别，AP旨在反映在各个召回率水平下的精确度的平均性能。AP直接指示模型在不同召回率水平下保持高精确度的能力。
mAP：mAP作为所有类别AP值的算术平均值，用于评估模型在多类别检测任务中的整体性能。mAP计算如下： (9) 其中表示第类的AP分数。

Comparisons with state-of-the-art methods

picture.image

Ablation Experiments

表3详细阐述了在FER-YOLO-Mamba网络中集成的各种组件在RAF-DB和SFEW数据集上的个别贡献。这些组件包括FRM、OSS、其变体OSSM和SS2D。

picture.image

Experimental results across different classes

表4展示了YOLOvX和FER-YOLO-Mamba在RAF-DB和SFEW数据集中的各类别的性能，其中表现最优的结果以粗体突出显示。

picture.image

参考

[1].FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space.

点击上方卡片，关注「AI视界引擎」公众号