点击下方卡片,关注「集智书童」公众号
本文主要解决了什么问题
MLP的固有局限性 :传统视觉Transformer(ViTs)中的多层感知器(MLPs)在特征提取和建模复杂依赖关系方面存在局限性,特别是在多尺度适应性和计算效率上。
参数效率与性能平衡 :如何在提升模型性能的同时保持较高的参数效率,避免因引入新模块而导致的计算瓶颈。
频谱先验的有效性 :探索小波变换和样条优化的结合是否能够增强ViTs的空间-频率建模能力,并在不同视觉任务中展现优势。
本文的核心创新是什么
Hyb-KAN ViT框架 :提出了一种混合Kolmogorov-Arnold Network(KAN)增强的Vision Transformer框架,将基于小波的频谱分解和样条优化的激活函数相结合。
- • Eff-KAN模块 :用样条函数替代MLP层,实现更平滑、自适应的决策边界。
- • Wav-KAN模块 :利用正交小波变换进行多尺度特征提取,增强边缘检测能力。
模块化设计 :通过系统地集成Eff-KAN和Wav-KAN模块到ViT编码器层和分类头中,增强空间-频率建模能力,同时缓解计算瓶颈。
任务特定优化 :根据不同任务的特点,设计了两种混合架构:
- • Hybrid-1:Wav-KAN Encoder + Eff-KAN Head,适合需要频谱先验的任务(如分割)。
- • Hybrid-2:Eff-KAN Encoder + Wav-KAN Head,适合需要高效推理的任务(如检测)。
结果相较于以前的方法有哪些提升
图像识别 :
- • 在ImageNet-1K数据集上,Hyb-KAN ViT取得了Top-1 84.5%的准确率,优于基线ViT和其他变体。
- • Wav-KAN ViT(DoG)以28.6M参数实现了83.9%的Top-1准确率,减少了23%的FLOPs。
目标检测与实例分割 :
- • 在COCO数据集上,Hyb-KAN ViT-S在Small类别中显著提升了Mask AP指标,缩小了与领先Adapter的性能差距超过15%,同时减少30%的参数数量。
- • Hyb-KAN ViT-B在边界框和Mask AP上比Swin-B提升了2-3%,尤其在高IoU阈值下表现更优。
语义分割 :
- • Wav-KAN ViT-B在ADE20K数据集上实现了52.3 mIoU,比Swin-B高5.6%,展示了其在像素级频率隔离上的优势。
局限性总结
计算复杂度 :尽管Hyb-KAN ViT在性能上有显著提升,但自注意力机制的二次复杂度和基于样条的参数效率问题仍然存在,导致计算成本随着模型规模的增加而迅速上升。
扩展性挑战 :Eff-KAN ViT-B的1.62亿参数仅带来了适度的精度提升,表明在更大模型上的扩展面临瓶颈。
GPU效率 :Wav-KANs虽然在频谱分析上有独特优势,但在原始吞吐量上仍落后于MLPs,尤其是在大规模部署时可能影响推理速度。
模块权衡 :Hybrid-2架构在后期层保留小波细化时,带来了更高的计算成本而没有显著提升精度,表明频谱细化在某些场景下的冗余性。
导读
本研究针对视觉Transformer(ViTs)中多层感知器(MLPs)的固有局限性,通过引入混合柯尔莫哥洛夫-阿诺尔德网络(KAN)-ViT(Hyb-KAN ViT)这一新型框架,将基于小波的频谱分解和样条优化的激活函数相结合,而以往研究未能关注ViT架构的预构建模块化特性以及小波边缘检测能力的集成。作者提出了两个关键模块:高效KAN(Eff-KAN),该模块用样条函数替代MLP层;以及小波KAN(Wav-KAN),该模块利用正交小波变换进行多尺度特征提取。这些模块被系统地集成到ViT编码器层和分类头中,以增强空间-频率建模,同时缓解计算瓶颈。
在ImageNet1K(图像识别)、COCO(目标检测和实例分割)以及ADE20K(语义分割)上的实验表明,Hyb-KAN ViT取得了最先进的性能。消融研究验证了小波驱动的频谱先验在分割任务中的有效性以及基于样条的效率在检测任务中的优势。该框架为视觉架构中平衡参数效率和多尺度表示建立了一种新的范式。
1 引言
视觉传统卷积神经网络(CNN)。A. Dosovitskiy等人修改了原始的Transformer架构,以展示其在视觉任务中的能力[1][2],通过利用M. T. Loung等人所展示的自注意力机制,该机制最初是为自然语言处理而开发的[3]。其设计的核心在于依赖于多层感知器(MLPs),这些感知器作为Transformer层内特征提取和最终分类任务的关键组件。在分类头中,MLPs获取最终的编码表示,特别是[CLS] Token ,并将其映射到特定任务的输出,如类别概率。
杨曦等提出了Kolmogorov-Arnold Transformer(KAT)的概念,通过将Kolmogorov-Arnold网络(KAN)与有理函数相结合来扩展ViT框架,以增强特征编码和分类[4]。受函数逼近理论启发,KAN将复杂的多元映射分解为更简单的单变量变换,为高效的表示学习提供了一种新颖的计算范式[5]。对KAN的一种新兴改进,即Z. Bozorgasl等提出的Wavelet-KAN,能够高效地捕捉输入数据的高频和低频分量,利用基于小波的多尺度分析进行鲁棒的特征提取[6]。与传统KAN不同,后者常面临过拟合或计算效率低下的问题,Wavelet-KAN采用正交或半正交小波基来平衡精确的数据表示与噪声抑制。尽管KAN和小波变换单独应用已显示出潜力,但将它们集成到ViT架构中仍属未探索领域。
为了系统地探索Wav-KAN在ViTs中的集成,作者开发了一个模块化框架,该框架用经过修改的Wav-KAN模块替换了编码器层和分类头中的传统MLPs。这种模块化设计允许在实验不同配置时具有灵活性,从而能够详细考察Wav-KAN如何增强ViTs中的特征编码和表示学习[2]。用Wav-KAN替换ViTs中的MLPs的动机源于MLPs的局限性。Wav-KAN通过利用小波变换和KAN解决了这些挑战,从而在Transformer架构中提升了模拟复杂数据模式的能力[6]。
此外,作者的工作引入了混合模块,将Wav-KAN和Eff-KAN(Eff-KAN)架构集成到ViT框架中。这些模块被策略性地部署在编码器层和分类头中,以增强特征表示和计算效率。EffKAN利用基于样条函数的激活函数,通过近似保持模拟复杂数据模式的能力,实现更平滑、自适应的决策边界。另一方面,Wavelet-KAN结合了基于小波的多分辨率分析,能够稳健地提取高频和低频成分。
第二节回顾了卷积神经网络(CNNs)和视觉Transformer(ViTs),阐述了 Backbone 架构的演进过程。第三节详细阐述了框架设计,将基于MLP的Transformer与样条优化和Wavelet-KAN模块相结合,以突破表征限制。第四节概述了实验内容,包括配置设置、数据集选择和验证协议。第五节通过消融实验和基准测试评估了该框架,量化了准确性和效率的提升。第六节总结了混合KANtransformer的贡献,并提出了未来自适应视觉研究的方向。
- 相关工作
2.1 卷积 Backbone 网络
卷积神经网络(CNNs)一直是计算机视觉研究的核心,自AlexNet取得突破以来[7],早期方法主要集中于加深网络以提升其性能,例如VGG[8],它采用了简单而有效的架构设计,并始终使用
卷积核。ResNet[9]的开发通过引入 Shortcut 代表了一项关键创新。GoogLeNet[10]和InceptionNet[11]通过将多个卷积核路径整合到单个CNN模块中,开创了分-变换-合并的方法。ResNeXt[12]通过开发统一的多路径架构扩展了这一理念,证明增加并行路径的基数比单纯扩展宽度或深度更为有效。DenseNet[13]引入了密集连接方案,其中每一层都接收所有先前层的特征图。此外,SparseNet[14]通过指数级间隔密集连接进一步优化了参数利用,完善了这一概念。
为提升移动设备和边缘设备的计算效率,引入了如ShuffleNet [15]等架构。ShuffleNet采用逐点组卷积以及通道混洗操作,有效降低计算复杂度同时保持高精度[9]。MobileNet [16]采用深度可分离卷积构建适用于移动应用的轻量级模型,而EfficientNet [17]通过复合缩放方法系统地平衡网络深度、宽度和分辨率。CSPNet [18]则作为一种增强CNN学习能力并缓解计算瓶颈的方法而出现。
2.2. 视觉Transformer Backbone 网络
视觉Transformer(ViTs)通过引入与传统卷积神经网络(CNNs)截然不同的图像分析方法,彻底改变了计算机视觉领域[7]。A. Dosovitskiy等人将原始的Transformer架构应用于视觉任务,展示了其在视觉任务中的有效性[2],并利用最初为自然语言处理设计的自注意力机制[3][19]。原始ViT的一个关键限制是其计算复杂度,这源于自注意力机制中的二次时间成本和大量的参数数量[2]。为解决这一问题,研究行人开发了多种具有更高效率和性能的Transformer架构。Swin Transformer[20]引入了具有滑动窗口的层次结构,将自注意力计算限制在非重叠的局部区域。
DeiT [24] 证明了通过适当的训练策略和强大的数据增强,ViTs 可以在 ImageNet 上有效训练,而无需大规模预训练数据集。ConViT [25] 引入了门控位置自注意力机制,以将卷积操作的归纳偏置融入其中,同时保持自注意力的灵活性。CaiT [26] 和 DeepViT [27] 探索了有效扩展 Transformer 深度的方法,包括类注意力层和重注意力机制。结合 CNN 和 Transformer 组件的混合方法也显示出良好的前景。T2T-ViT [28] 逐步对图像进行分词,以减少 Token 序列长度和模型重叠块信息。RegionViT [29] 引入了一种区域到局部的注意力机制,通过在区域自注意力和局部自注意力之间交替,减少了标准自注意力的计算负担。
Dual-ViT [30] 将自注意力分为两个不同的路径:一个语义路径高效地压缩 Token 向量,一个像素路径专注于学习细粒度的像素级细节。为解决计算能力有限的边缘设备的限制,开发了轻量级 Transformer 模型,如 MicroViT [31]。类似地,MobileViT [32] 结合了卷积的局部处理能力和 Transformer 的全局交互,创建了一个适用于移动设备的架构。
现有的ViT变体通过分层注意力[20]-[27]、混合架构[28][30]或参数高效设计提高了计算效率,但它们仍然依赖于基于MLP的投影,其多尺度适应性有限。相比之下,作者的Hyb-KAN ViT在编码器中用Wav-KAN模块替换了MLP以进行多分辨率特征提取,在分类头中用Eff-KAN模块进行高效推理。与先前基于KAN的方法[4][6]不同,Hyb-KAN-ViT集成了两者:Wav-KAN利用正交小波来保留边缘同时抑制高频噪声,而Eff-KAN使用GPU优化的样条曲线来减少内存使用。
- 方法论
本节首先简要回顾了现有视觉Transformer(ViTs)[2]中采用的常规分块化、多头自注意力模块和位置编码,并对其进行了分析。随后,作者提出了新的基于原理的Transformer结构,即一种新颖的模块化ViT框架,旨在探索不同架构配置对性能的影响。通过将高效KAN(见图2(a))和Wavelet KAN(见图2(b))模块作为图1中编码器和解码头的变体进行集成,所提出的框架为视觉识别任务提供了一种灵活且鲁棒的方法。
3.1 基于MLP的Transformer
基于MLP的Transformer架构利用多头自注意力机制来捕获输入序列间的复杂依赖关系[2]。其通用算法在算法1中展示。
层归一化(LN)将
标准化为
。多头注意力(MHA)为每个头
计算 queries
、keys
和 values
。注意力分数的权重值用于生成头
,这些头被连接并投影到
。残差连接确保梯度 Stream 。 FFN (FFN),通常是一个多层感知机(MLP),起着关键作用。在自注意力捕获了 Token 关系后,MLP独立地处理每个 Token 以细化其表示。它们通常由两个全连接层组成,中间有一个非线性激活函数,如公式(1)所示。
该算法处理输入特征
,其中
是token的数量,
是嵌入维度。首先,
第一层扩展特征维度,第二层再将其缩小,使模型能够捕捉复杂的模式。然而,多层感知机(MLP)存在局限性。现有的基于MLP的方法[2]、[20]、[21]、[23]、[24]和[25]通过增加块大小来减少token数量,这会导致低分辨率的特征图。与此同时,其他方法[22]、[26]、[27]、[29]、[30]和[31]将注意力机制限制在局部窗口内,从而将计算复杂度限制为相对于输入分辨率的线性规模。它们独立处理token,忽略块内的空间关系,并且对线性变换的依赖限制了它们建模复杂依赖关系的能力。这为用High-Level模块替代MLP提供了空间。
3.2. 基于KAN的高效Transformer
KANs通过在网络边缘使用可学习的B样条函数替代固定激活函数,为MLPs提供了一种替代方案。原始KANs[5]面临关键限制,包括因扩展中间变量导致的内存消耗过大,这阻碍了GPU的利用并减缓了训练[33]。此外,次优的初始化策略降低了性能。Eff-KAN[34]通过将样条计算重新表述为预激活基函数的线性组合,实现了GPU友好的矩阵乘法,并对基础权重和样条标量采用Kaiming初始化;同时将以输入为中心的L1正则化替换为基于权重的正则化,在保持可解释性的同时提升了可扩展性和收敛性。
在算法2中,
是一个3D张量,用于存储每个连接到网格范围内[a, b]内的d条非线性曲线的k个样条系数,C s()是一个用于动态调整样条输出的缩放矩阵,以及
是一个偏置向量。图2(a)展示了Eff-KAN模块的架构,该架构利用B样条基函数和线性变换,实现可控且Sparse的激活。
Eff-KAN在ViTs的编码器和解码器部分相较于传统MLP具有显著优势。在编码器中,输入块被转换为高维表示,KAN由于基于样条函数的激活函数而表现出色,这些函数自适应地学习平滑、可解释的映射,而非依赖ReLU等固定非线性函数[5]。将编码器和解码器中的MLP替换为KAN,利用了B样条函数的数学特性,特别是其局部支持和平滑性。在编码器中,两层KAN应用B样条函数来建模边缘特征。第一层KAN使用公式(2)将输入块分解为样条项,其中
是具有节点
的B样条基函数,
是可学习系数。
这些基函数由于具有紧支集,主要关注图像块中的局部区域,如边缘。第二层将这些样条项组合成高阶交互,如方程(3)所示,其中
自适应地加权与边缘相关的特征。通过组合样条,KANs逼近与自然图像统计特性(锐利边缘、渐变纹理)相一致的分段光滑函数。
B样条在捕捉边缘方面表现出色,因为它们的节点位置
是可训练的。在优化过程中,节点会聚集在高梯度区域(边缘),使KANs能够在需要的地方分配分辨率。这与MLPs形成对比,MLPs使用固定的激活斜率,并需要更多的神经元来解析边缘。
在 Head ,一个使用B样条的单一KAN层通过公式(4)将[CLS] Token 映射到类别分数,其中
是[CLS]嵌入。
B样条的光滑性防止了随机决策边界,而其局部支持特性避免了过拟合虚假关联。B样条的分段多项式结构和自适应节点使得KAN在早期层充当“边缘检测器”,在后期层充当“平滑算子”。这模拟了人类视觉系统的分层处理过程,使得KAN特别适用于ViT的编码器(边缘感知特征提取)和分类头(稳定、数据高效推理)。
尽管KANs在ViT编码器和分类头替换方面表现出更高的准确性,但它们的采用引入了显著的计算瓶颈,正如KAT[4]所强调的那样。主要缺点在于它们与MLP相比的参数效率低下。例如,一个每激活包含n个样条基的KAN层可能需要O(n×d_ind_in×d_ind_out)个参数,而一个ReLU的MLP只需要O(d_ind_out)[2[5]。这种参数膨胀导致更高的内存使用和更慢的推理速度,这对已经随token数量呈平方级扩展的ViT来说尤其成问题。此外,基于B样条的KAN由于其固有的非并行化操作和缺乏原生CUDA Kernel 支持,在GPU效率方面面临挑战。
此外,KAN由于对样条函数进行动态评估,导致其产生更高的GFLOPs,这涉及到分段多项式计算和节点区间搜索。即便使用高效的KAN实现,它们仍难以匹配MLP的FLOPs效率,因为MLP操作可以简单地映射到高度优化的GPU Kernel 。虽然KAN的精度提升颇具吸引力,但其计算需求使其不适用于大规模ViT部署,而低延迟、低FLOPs推理对于此类部署至关重要。
3.3. 基于小波KAN的Transformer
与依赖未优化操作的CUDA Kernel 的B样条KANs不同,Wav-KANs可以利用预优化的小波分解 Kernel ,从而在频带拆分中减少延迟[35]。然而,将小波基集成到可训练的KAN层中会引入开销,例如小波系数的迭代参数更新和内存密集型多分辨率特征存储,这些开销比MLPs的融合矩阵乘法-激活 Pipeline 对GPU更不友好。但话说回来,Wav-KANs并非天生低效——当通过自定义 Kernel 优化其小波操作时,它们可以达到接近MLP Level 的速度,同时提供更好的可解释性和多尺度建模能力。
现有的Wav-KAN实现[6]利用连续小波变换(CWT)和离散小波变换(DWT),但由于其在尺度空间表示中跨尺度进行冗余权重计算,依赖于通用张量操作,导致参数数量和FLOP开销显著。作者通过在Transformer层中与原始Wav-KAN实现进行比较,在图3中展示了作者提出的Wav-KAN的有效性。Hyb-KAN-ViT通过利用GPU原生的波let操作和结构化参数剪枝来解决这些低效问题。与原始Wav-KAN不同,后者将小波变换作为独立的固定不可训练基的层进行简单集成,Hyb-KAN-ViT通过利用预优化的CUDA Kernel 快速小波变换(FwT)来协同设计小波分解与KANs。这些 Kernel 借鉴自信号处理库,能够对输入通道的小波系数进行批量并行计算,用融合的矩阵-小波操作替代串行循环。为减少参数,作者通过在训练过程中剪枝低幅值高频分量,在波let系数中强制结构化Sparse性,动态地将GPU资源集中于关键的边缘/纹理带。
此外,通过融合尺度自适应小波投影与KAN的激活网格,该框架通过小波系数Sparse化减少参数冗余。这种混合设计保留了Wav-KAN的多尺度可解释性,同时将计算模式与GPU优势相匹配,通过快速小波变换进行并行系数提取,并通过内存高效的张量 Reshape 实现逆变换。通过将小波理论与CUDA感知架构设计相结合,Hyb-KAN-ViT与普通的WavKAN相比,FLOPs降低了高达4倍,使得基于小波的适应非线性在大型视觉任务中成为可能。
图2(b)展示了所提出的Wav-KAN模块,这是Hyb-KAN-ViT的关键组成部分。首先,通过快速小波变换(FwT)对输入信号进行层级分解,创建一组特定尺度的表示。独特之处在于,这些表示随后通过不同的连续小波函数进行处理。这种处理通过尺度自适应调制和输入信号的线性变换,能够提取对分解信号中不同特征敏感的互补特征。接着,对高频滤波器进行处理,并使用剪枝调制信号,然后通过逆小波变换(IwT)进行重建,随后添加偏置。此外,小波处理后的输出被求和并通过GELU激活函数。这种特定架构,通过其多小波处理和后续重建,代表了一种超越先前研究中提出的波浪积分一般整合的新颖特征调制方法[6]。
算法3介绍了作者的新型Wav-KAN模块,其中
表示作者为研究实现的三种小波函数——高斯导数(DoG)、墨西哥帽和Morlet。
高斯差分小波变换,如公式(5.1)所定义,是中心位于
、尺度为
的高斯核的第
阶导数。这种表述通过分离高频特征并抑制低频噪声,在视觉任务中实现多尺度边缘和纹理检测,模拟生物视觉系统。高斯的尺度动态调整感受野,使Wav-KAN能够捕捉精细细节或更广泛的结构,这对目标检测和分割等任务中的层次化特征学习至关重要。公式(5.2)计算了@DoG的梯度,这对于通过梯度下降在训练过程中优化小波的尺度参数至关重要。第一项
量化了空间尺度敏感性,而第二项
稳定了导数阶数的调整。这允许模型根据输入特定的尺度偏好自适应地调整
,从而提高边缘/纹理提取效率。
公式(6.1)定义了墨西哥帽(MH)小波
,将其表示为高斯核的二阶导数的归一化形式。其双相结构
增强了曲率变化的敏感性,同时抑制平坦区域,使其成为视觉任务中定位精细结构的理想选择。高斯项
确保了空间定位,这对于需要精确边缘对齐的任务至关重要。通过公式(6.2)计算OYM,实现了基于梯度的优化,用于在训练过程中调整小波的尺度
。第一项
调整空间尺度,而第二项
调节曲率敏感性。这使模型能够自适应地优化感受野,通过调整
来平衡边缘锐度和噪声抑制。
莫莱特小波变换如公式(7.1)所示,结合了高斯包络
用于空间定位,以及余弦项 cos
用于振荡频率调制。这种结构使得空间-频谱分析得以结合,这对于视觉任务中检测周期性纹理和高频模式至关重要。可调节的中心频率
使小波能够适应特定的纹理尺度,从而在材料分类或动态纹理识别等任务中增强特征解耦。公式(7.2)计算
,该梯度控制小波的尺度
的优化。第一项
调整高斯的空间扩散,而第二项
调制振荡敏感度。公式(7.3)中定义的项
精细调整振荡与纹理频率的匹配,这对于区分细粒度模式至关重要。因此,虽然当集成在视觉Transformer(ViTs)中时,Wav-KANs在原始吞吐量上可能仍落后于MLPs,但它们在空间-频率分析方面的独特优势证明了其在视觉应用中的计算权衡是合理的。
3.4. 基于混合KAN的Transformer模型
作者的第一种混合方法 Hybrid-1
采用 Wav-KAN 编码器将输入分解为多尺度空间频率分量,捕捉基础细节如边缘、纹理和振荡模式。Eff-KAN 分类头随后将这些丰富的表示提炼为精简的、任务特定的特征,用于最终预测。该设计基于以下原则:早期嵌入频谱空间先验可确保分层学习从明确的指导中受益,而后期阶段通过优异的近似来优先考虑泛化能力。模块化设计确保小波驱动的归纳偏差——对于纹理分割等任务至关重要——在输入阶段被整合,同时头的架构减轻了高维空间中的冗余,促进适应性而不至于过拟合。
作者的第二种混合方法 Hybrid-2(Eff - KANEncoder + Wav -- KANHead)反转了这种结构:Eff-KAN 编码器快速提取Low-Level空间特征,而 Wav-KAN 头通过基于小波变换的方法对这些表示进行细化,以实现细致的多尺度判别。这种分离利用了编码器在广泛特征检测方面的能力以及 Head 在频谱分析方面的优势,类似于生物视觉系统,其中初始处理优先考虑粗略输入,而后期阶段专门进行细粒度解释。
- 实验
基于Eff-KANs、WavKANs以及先前引入的混合模型的架构创新,作者严格评估了它们在三个核心视觉任务上的效能:图像识别、目标检测和语义分割。作者的实验验证了其理论优势相对于既定基准的优越性。作者在广泛认可的图像集(ImageNet-1K [36]、COCO [37]、ADE20K [38])上采用标准化协议,以确保与当前最先进的视觉 Backbone 网络进行公平比较。实现细节,包括模型特定的超参数和训练机制,均遵循可复现性标准。
4.1. 实验设置
ViT与KAN层的修改默认遵循表1中呈现的KAN超参数。
Eff-KAN的超参数可以定义为,网格大小(Grid Size)设置分段多项式逼近的节点数,样条阶数(Spline Order)定义多项式平滑度(例如,三次),缩放噪声(Scale Noise)通过系数噪声添加正则化,缩放基(Scale Base)/样条缩放线性及样条分量,网格范围(Grid Range)归一化输入边界,网格s(Grid s)确保数值稳定性,网格数量(Number of Grids)实现特征级自适应。对于Wavelet-KAN,尺度数量(Number of Scales)设置多分辨率带宽,初始尺度(Initial Scale)定义起始感受野,中心频率(Central Frequency)调整Morlet小波振荡,分解层数(Decomposition Levels)控制变换深度,剪枝率(Pruning Ratio)Sparse高频带,缩放噪声/基(Scale Noise/Base)稳定并缩放小波系数,网格8(Grid 8)确保计算稳定性。
此外 作者选择模型的配置与ViT [2]中使用的配置相同 如表2所示
4.2. 数据集
本研究采用三个基础视觉数据集:ImageNet-1K [36](包含128万训练图像、5万验证图像和10万测试图像,涵盖1000个类别)用于大规模图像分类,验证层次化特征提取;MSCOCO2017 [37](包含11.8万训练图像、5000万验证图像和2万测试开发图像,涉及80个物体类别)用于目标检测和实例分割,测试多尺度定位和遮挡物体的鲁棒性;以及ADE20K [38](包含2万训练图像、2000万验证图像和3000万测试图像,覆盖150个语义类别)用于语义分割,侧重于细粒度场景解析和富含纹理的边界界定。
4.3. 各视觉任务的实验设置
图像识别
作者使用AdamW [39]优化器,参数设置为
,在ImageNet-1K上进行图像分类任务时训练Hyb-KAN-ViT,训练周期为300个epoch。批大小设置为1024,模型分布在多个GPU上。每张图像输入的标准尺寸为
。训练过程首先进行10个epoch的线性预热,随后采用余弦退火策略调整初始学习率
,权重衰减设置为0.05,梯度裁剪值设为1.0以稳定训练。
在CutMix和Mixup之间以0.5的概率交替进行,作者采用激进的数据增强策略 [40]:RandAugment [41](幅度9)、CutMix [42](概率1.0)、Mixup [43](概率0.8)以及随机擦除 [44](概率0.25)。正则化方法包括标签平滑(0.1)和随机深度 [45](峰值率0.1)。为确保模型收敛的鲁棒性,模型权重采用指数移动平均(EMA)[46],衰减率为0.9998。作者报告了ImageNet分类常用的Top-1和Top-5准确率作为评估指标:Top-5评估真实类别是否出现在前五预测结果中,表明模型在多类别区分上的鲁棒性;而Top-1则衡量模型将其最高置信度预测结果预测为正确类别的能力。
目标检测与实例分割
目标检测框架采用MSCOCO2017[37]基准进行评估,扩展了先前关于ViTs[2][4]的学术文献中提供的技术。作者使用预训练的ImageNet-1K权重初始化具有ViTDet-based[48] Backbone 网络的Mask R-CNN[47]架构。在训练过程中,输入图像被缩小到800×1333像素,以符合常见的ViTDet协议。作者采用AdamW[39]优化器进行训练,批大小为16分布在GPU上,基础学习率为0.0001,权重衰减为0.05。
FP16混合精度训练和常见的COCO数据增强(如随机水平翻转和多尺度缩放)被纳入3×训练计划(36个epoch)。模型变体遵循表2中列出的设置。评估报告根据COCO标准对实例分割和边界框识别进行平均精度(AP)测量。作者采用
用于边界框检测,
用于分割的平均精度,以及它们的50%和75% IoU变体(
,
,
,
)。
语义分割
采用ADE20K[38]标准进行评估的语义分割框架,扩展了先前关于ViTs[2][4]的学术研究成果。在UPerNet[49]架构的主干中,作者使用ViT主干替代了传统的CNN,并使用先前学习到的ImageNet-1K权重进行初始化。为训练目的,输入图像被缩小至512×512像素,以符合常规标准。作者采用AdamW[39]优化器进行训练,使用跨GPU的16批次大小,权重衰减为0.01,基础学习率为6×10^(-5)。训练计划包含150,000次迭代,其中1,500次为线性预热阶段,随后在160,000次迭代中进行余弦学习率衰减[50]。
除了传统数据增强方法外,作者还使用了FP16混合精度训练[51]。模型变体遵循表2中列出的设置。根据ADE20K标准,评估报告了在验证集所有150个类别上平均计算的IoU(mIoU)指标。在UPerNet中,解码器中的基于MLP的像素分类器被小波增强的KAN Head 所替代。
- 结果
5.1. 模型变体消融研究
验证了DoG的多尺度边缘检测非常适合ViT的基于块的处理。相比之下,Wav-KAN ViT(Morlet)和Wav-KAN ViT(墨西哥帽)表现不佳,因为它们的振荡和曲率聚焦核难以处理低频图像成分,揭示了DoG与视觉任务更好的匹配性。作者在ImageNet-1K上对基于KAN的架构的系统性评估,如表3所示,突出了准确率、参数效率和计算成本之间的关键权衡。Eff-KAN ViT作为基准,达到了82.6%的Top-1准确率,这突显了与小波替代方案相比,基于样条的非线性固有的低效性。在独立模型中,Wav-KAN ViT(DoG)是最有效的,以28.6M参数实现了83.9%的Top-1准确率,并在Eff-KAN的基础上减少了23%的FLOPs同时提高了准确率。
混合架构进一步优化了这种平衡。Hybrid-1 KAN ViT(Wav-KAN_Encoder
Eff-KAN_Head)采用高斯导数(DoG)小波在早期层进行多尺度分解,实现了最先进的精度(Top-1 84.5%),证明将DoG的边缘定位频谱分析与Eff-KAN在 Head 的高效空间投影相结合,能够最大化层次化特征提取。选择DoG而非其他小波(Morlet、墨西哥帽)是经过深思熟虑的,其在独立Wav-KAN中的优越性能与ViT的基于块的处理方式相契合,使其成为混合协同的理想选择。
相反,Hybrid-2 KAN ViT(Eff-KAN_Encoder
Wav-KAN_Head)虽然在后期层保留了DoG,但达到了Top-1 82.9%,却带来了更高的计算成本,表明分类 Head 的频谱细化引入了冗余,而没有带来有效的精度提升。未来,分析将优先考虑Wav-KAN(DoG)ViT、Eff-KAN ViT、Hybrid-1 KAN ViT(更名为Hyb-KAN ViT),以及原始ViT,排除表现不佳的变体(Morlet、墨西哥帽)和冗余的混合(Hybrid-2)。Wav-KAN体现了轻量级频谱效率,Hyb-KAN ViT代表了混合性能的顶峰,Eff-KAN基准了样条的限制,而原始ViT则 Anchor 定了传统的MLP驱动设计。
小尺寸模型的训练损失图在四个模型变体中表现出不同的收敛模式,如图4所示。原始ViT(蓝色)显示出平滑、一致的收敛,最终损失达到0.2103的中等水平。Wav-KAN ViT(橙色)初始下降速度较慢,但最终达到最低的最终损失(0.1435),这可能是由于其基于小波的多尺度特征提取能力更有效地捕捉了图像的层次结构。在150个epoch附近出现的小波动表明在特征精炼过程中可能存在优化挑战。Eff-KAN ViT(绿色)初始轨迹与原始ViT相似,但最终损失稳定在较高水平(0.2779),表明虽然收敛效率高,但牺牲了部分表征能力。Hyb-KAN ViT(红色)表现出最 erratic的行为,初始损失最高,在40-60个epoch之间出现明显的平台期,这表明在早期训练阶段小波编码器和高效头的集成存在挑战。
图5对不同图像类别的比较评估表明,包含基于小波KAN模块(Wav-KAN ViT和Hyb-KAN ViT)的架构始终优于 Baseline ViT[2],特别是在细粒度分类任务中。这种优势在自然和人工物体类别中均有体现,表明小波驱动的多尺度特征编码增强了高频细节和结构不规则性的判别能力。虽然基于样条KAN的变体(例如Eff-KAN ViT)在某些类别中显示出微小的增益。
5.2. 与SOTA视觉 Backbone 的性能比较
图像识别
图6展示了不同视觉 Backbone 网络在准确率与计算量之间的权衡,其中Hyb-KAN ViT(紫色)在所有计算量范围内均表现出优越性能。通过分析扩展轨迹可以看出,Eff-KAN ViT(粉色)呈现适度扩展,超过10 GFLOPs后收益递减,尽管计算量增加,准确率仍停滞在83%左右。
相比之下,Wav-KAN(蓝色)和Hyb-KAN(紫色)在25 GFLOPs范围内维持更陡峭的准确率提升,展现出更高效的扩展特性。传统ViT[2](黄色)和ResNet[9](红色)在高计算预算下表现出较平缓的扩展曲线,而EfficientNet[17](绿色)在中等FLOPs时展现出具有竞争力的效率,但随后被基于小波的方法超越。该图表清晰地展示了Hyb-KAN的小波-KAN协同作用创造了显著优化的扩展轨迹,即使在更大的模型规模下(由更大的点表示),仍能保持性能优势。
目标检测与实例分割
表5展示了目标检测和实例分割中的细致权衡,在架构创新与扩展效率之间取得平衡。在Small类别中,Hyb-KAN ViT-S实现了具有竞争力的mask AP指标,通过在严格定位(AP75 m)中缩小了与领先 Adapter 如ViT-CoMer-S [54]的性能差距超过15%,同时保持比传统混合设计参数数量减少30%。这种效率得益于基于KAN的 Head 取代了边界框/ Mask 子网络中的传统MLPs,其中样条投影层实现了动态特征绑定,参数数量减少40%——这对于高分辨率ROI计算至关重要。
同时,小波编码器将特征分解为正交的多尺度分量,保留了边缘一致性以供Mask R-CNN的定位模块使用。WavKAN ViT-S进一步弥合了效率差距,实现了与Swin-T [20]的层次化注意力机制相当的mask AP提升,但参数数量比基于 Adapter 的方法减少40%,突显了小波分解在无需密集参数化的情况下提取多尺度空间层次结构的能力。然而,扩展到Base模型显示出不同的轨迹:Eff-KAN ViT-B难以获得递减回报,需要PVTv2-B5参数数量的3倍才能实现微小的边界框AP提升,而Hyb-KAN ViT-B在边界框和 Mask AP上均比Swin-B [20]提升了2-3%。
值得注意的是,Hyb-KAN的 Mask (AP75 m)甚至优于ViT-Adapter-B的专用任务微调,超出1.5%,表明小波-样条混合在较高IoU阈值下能更好地保留细粒度的实例边界。虽然Base KAN变体面临比Small版本更陡峭的计算权衡,但跨IoU范围的持续AP提升——特别是Hyb-KAN在精确 Mask 界定上比vanilla ViT-B领先5%——突显了频谱先验如何抵消ViTs在像素级密集预测任务中的固有局限性,即使纯参数扩展也产生了递减回报。
语义分割
作者的研究结果揭示了语义分割领域的范式转变,其中Wav-KAN的基于小波驱动的频谱分解在性能上优于混合模型,尽管混合模型在检测/分类任务中占据主导地位。Wav-KANViT-B通过像素级频率隔离,利用UPerNet的解码器架构,其中小波增强的KAN头替代了MLP,实现了52.3 mIoU(比Swin-B高5.6%)。与混合模型的样条-小波融合(Hyb-KAN:51.7 mIoU)不同,后者在 Mask 重建过程中引入频谱干扰,Wav-KAN的正交小波基通过将特征分解到非重叠的频段中来保持边缘连贯性。这与分割对静态频谱精度而非混合模型的动态特征绑定的需求相一致。
关键优势源于UPerNet的解码器设计:小波-KAN头通过固定基离散小波变换(DWT)处理高分辨率特征图,隔离纹理/边缘频段,而无需参数密集的样条逼近。虽然Hyb-KAN的Eff-KAN组件在检测Head中擅长上下文融合,但它们通过过早混合频段而破坏了分割的频率特定要求。Wav-KAN的优越性进一步通过早期编码器层中的DoG小波核得到增强,这些核在降采样过程中预过滤噪声,优化了解码器的多尺度 Shortcut 。
- 结论
这项工作证实,将高效且小波增强的KANs集成到ViTs中,能够在视觉任务中实现最先进的性能,同时解决了MLPs的参数效率问题。通过用光谱-空间混合模块替换MLPs,Hyb-KAN-ViT表明HybKAN ViTs通过协同小波分解和基于样条的投影,在所有视觉任务中表现优异,而Wav-KAN则通过正交频率隔离在语义分割任务中占据主导地位。
Hyb-KAN在所有视觉任务中的成功源于其双路径光谱编码:早期层的小波引导注意力提取多尺度边缘和纹理,而后期阶段的Eff-KAN Head 则优化空间-语义融合。然而,扩展到更大模型时暴露出关键局限性。自注意力机制的二次复杂度以及基于样条的参数效率问题,导致计算成本随着模型的二次增长而增加,Eff-KAN ViTB的1.62亿参数仅带来了适度的精度提升。
为了克服这些障碍,未来的工作必须重新构想注意力机制和KAN架构。受GR-KAN[4]的启发,通过参数复用跨神经元组共享激活权重,可以减少参数数量40‰,同时保持多分辨率保真度。
参考
[1]. Hyb-KAN ViT: Hybrid Kolmogorov-Arnold Networks Augmented Vision Transformer
扫码加入👉「集智书童」交流群
(备注:方向+学校/公司+昵称)