基于 Mamba 状态空间模型与残差似然估计,增强的关键点识别和定位能力 !

技术

点击下方卡片,关注「AI视界引擎」公众号

( 添加时备注:方向+学校/公司+昵称/姓名 )

picture.image

picture.image

传统中医针灸方法在临床实践中常因高度主观性而受到争议。此外,当前的智能辅助针灸系统存在两大局限:针灸穴位定位速度慢以及准确性低。

为了克服这些限制,该研究提出了一种新的方法,利用状态空间模型 Mamba 的出色推理效率,同时保留传统 DETR 架构中注意力机制的优势,从而实现高效的整体信息整合,并为针灸穴位定位任务提供高质量的特征信息。

此外,通过引入残差似然估计的概念,该方法消除了复杂的上采样过程的需求,从而加速了针灸穴位的定位任务。在一项私人数据库上的实验结果显示,该方法在人体背部针灸穴位定位任务中达到了最先进的(SOTA)精度,平均欧氏距离像素误差(EPE)为 7.792,每次定位任务的平均耗时仅为 10.05 毫秒。

与第二好的算法相比,该方法在精度和速度上分别提高了约 14%。这一显著的进步不仅提升了针灸治疗的有效性,还展示了自动化针灸机器人系统的商业潜力。

作者的方法可通过以下链接访问:https://github.com/Sohyu1/RT-DEMT

  1. INTRODUCTION

特别是与医疗领域契合良好。随着对快速和准确诊断及治疗服务需求的持续增长,这也成为了推动智能医疗发展的关键驱动力。利用机器人和人工智能技术自动化临床任务具有极大的潜力,可以提高治疗的准确性、一致性和可访问性 [1] [2]。智能针灸机器人是最有前景的发展领域之一 [3] [4] [5]。

针灸是一种传统的中医治疗方法,在现代医学界因其在缓解炎症和疼痛方面的有效性而得到了广泛认可。此外,针灸还展现出在免疫调节以及治疗某些精神疾病方面的巨大潜力[6][7][8][9]。相关研究证明了针灸作为炎症和疼痛替代疗法的可行性[6][7][8]。此外,一些学者发现针灸能够独立激活机体的自我修复机制,恢复体内稳态,从而有效治疗免疫性疾病[10]。另外,有研究表明针灸可用于治疗抑郁症和帕金森病等精神疾病,并取得了显著效果,因此扩大了其应用范围[11][9]。现在许多学者倾向于将针灸与神经科学相结合,以解释针灸的临床适用性[12][13][14]。

然而,在开发有效的针灸机器人过程中,一个关键挑战是准确定位穴位。穴位定位任务通常使用与关键点定位相关的技术来解决 [1]。在计算机视觉领域,关键点检测是姿态估计的核心子任务之一,涉及识别人体的关键部位,如 Head 、肩膀、肘部、手腕和膝盖等。姿态估计是计算机视觉领域的重要研究方向,主要目标是从图像或视频中准确识别各种人体部位及其空间位置和姿态。然而,穴位检测领域与计算机视觉中的关键点检测之间存在几个不同之处,这使得穴位检测更加困难。首先,在姿态估计任务中,穴位的数量远多于关键点的数量。其次,由于缺乏边缘点、皮肤纹理特征和其他明显特征,特征提取任务变得更加困难。上图右上角的穴位定位图和表清晰地阐明了基于人体骨骼结构定位穴位的方法。穴位之间的相对位置会随不同骨骼形态的变化而变化,增加了智能定位穴位任务的复杂性。更精确的位置标准将进一步推进姿态估计解决方案的发展。而且,在描述定位方法时,“寸”可以动态定义为患者身体某些部位间距离的比例单位,并用于测量穴位位置。确定这种单位主要有两种方法:骨比例测量法和寸法。在传统中医临床实践中,后者更为常用,因为方便获得患者骨骼和关节间距离较为困难 [15][16]。

初始的姿态估计任务通常使用传统的图像处理技术来解决,如边缘检测和形状匹配。随着卷积网络和Transformer网络等深度学习技术的出现及其在姿态估计任务中的持续应用[17][18][19][20][21][22],现在的姿态估计任务已经发展出了两种主要方法:自顶向下和自底向上的方法。

自顶向下的方法首先需要检测所有目标的边界框,然后在这些框中检测关键点。这种方法通常能提供更高的准确性,但速度较慢,并且容易出现边界框检测方面的漏检和误检问题[23][24][25]。相反,自底向上的方法首先检测所有关键点,然后再将它们组装成人形,以牺牲一些准确性来提高处理速度[26][27]。

关键点的识别和定位有两种方法:基于注册的方法和基于检测的方法。基于注册的关键点识别与定位方法首先将不同图像中的相同结构对齐到一个共同的坐标框架中,然后基于注册知识进行匹配和定位。这种方法首先需要预先定义一个模型来定义关键点的结构及其相对位置。注册的目的是最小化模板关键点与其在图像中的对应位置之间的误差 。基于检测的关键点识别与定位首先利用目标检测网络的特征提取能力提取图像特征,然后通过网络末尾的分类 Head 输出关键点坐标 [26]、[32]、[33]。分类 Head 通常分为三种技术路线:回归基于的方法 , Heatmap 基于的方法 [37],以及坐标分类(SimCC)[38]。

目标检测网络的特征提取能力决定了图像特征的质量,进而影响最终定位任务的准确性。关于目标检测网络,YOLO因其在速度和精度之间的平衡而广受青睐,但其性能受到非极大值抑制(NMS)的影响[39]、[40]、[41]、[42]、[43]。基于Transformer的一体化端到端检测器(DETR)虽然消除了NMS,但由于高昂的计算成本而受到影响[44]、[45]。RT-DETR[46]是一款实时的一体化目标检测模型,采用高效的混合编码器,通过解耦不同尺度内的交互作用和跨尺度融合来快速处理多尺度特征,从而提高速度。随后,利用不确定性最小化的Query选择来提供高质量的初始Query给解码器,以提升准确率。然而,通过CNN下采样的图像特征会损失部分精度和全局信息。当这些被截断的特征输入到Transformer架构中时,它们难以充分利用注意力机制提供的全局感受野潜力。因此,将Mamba嵌入网络作为视觉 Backbone 替换原有的CNN,可以在不牺牲全局感受野的情况下实现线性复杂度的图像特征提取能力。

对于分类 Head ,在基于回归的方法中,所有关键点共享相同的特征,并且所有关键点的计算可以同时完成,因此其速度通常快于其他方法,但准确率往往相对较低,并且在训练过程中容易发生过拟合[34][35][36][28]。基于 Heatmap 的方法通过特征生成对应的高斯 Heatmap ,在空间维度上进行特征匹配,更侧重于利用局部特征。每个关键点独立地进行计算。然而,通过上采样生成 Heatmap 不可避免地会引入量化误差,并需要大量的计算资源[37]。坐标分类方法(SimCC)结合前两种方法,将关键点定位任务重构为横纵轴上的回归任务,从而降低计算复杂度并消除量化误差,同时保持较高的准确率[38]。最近的工作将残差似然估计引入到坐标回归任务中,取得了显著的成功,使得基于回归的方法在准确率方面首次超过了基于 Heatmap 的方法[36]。残差似然估计是一种统计方法,通过聚焦于残差(观察值与模型预测值之间的差异)来估计模型参数。这种方法通常涉及最大化残差的概率分布假设下的似然函数。特别是在假设残差呈正态分布的情况下,该方法能够在模型误设或包含离群值时提供更为稳健的参数估计。在姿态估计中,残差似然估计通过增强对噪声的鲁棒性、提高准确率和确保统计效率提供了显著优势。它允许更好的模型验证和处理复杂错误结构的能力,最终提升了预测性能。最近的研究通过直接从特征图中计算近似最大响应点,绕过了高斯 Heatmap ,打破了基于回归和基于 Heatmap 方法之间的壁垒,使模型可以直接对坐标值进行回归预测[35]。可微空间到数值转换(DSNT)是一种用于计算机视觉的技巧,特别适用于姿态估计场景。它提供了一种以可微的方式将空间 Heatmap 转换为精确数值坐标的途径,这对于神经网络的端到端训练至关重要。DSNT的核心思想是使用软-argmax操作从 Heatmap 中获取关键点的坐标,使得反向传播过程中可以顺利传递梯度。DSNT具有以下优点:它是完全可微的,能够支持神经网络内的端到端训练;它将 Heatmap 转换为精确的数值坐标,这对于高精度任务至关重要;它通过软-argmax操作保证了梯度的平滑性,使得训练更加稳定和高效;即使在存在噪声的 Heatmap 情况下也较为稳健,因为它考虑了整个分布而不是仅仅峰值值;并且它易于集成到各种网络架构和基于 Heatmap 的关键点检测方法中。因此,DSNT是一个用于精确和稳健姿态关键点定位的有价值的工具。

Mamba [47] [48] 是一种基于状态空间模型的新架构,旨在解决传统 Transformer 模型在高效处理长序列时存在的局限性 [49]。状态空间模型包含两个主要方程:状态方程和观测方程。状态方程描述了系统状态随时间演变的过程。Mamba 结合了硬件感知算法与选择性的状态空间模型 (SSMs) [50],能够在不牺牲对语言、音频和基因组等密集模态性能的情况下实现线性时间序列建模。观测方程描述了观测值(或测量值)与系统状态之间的关系。Mamba 用简化结构取代了 Transformer 中的注意力机制,该结构结合了 SSMs 和多层感知机 (MLP) 块。Mamba 的设计确保了模型规模的平滑扩展,在不同任务和数据集上均能保持高质量的预训练效果和下游性能。通过利用核融合和重计算等技术,Mamba 最小化内存使用量,满足现代硬件加速器如 GPU 的要求。Mamba 通过三种优化措施解决了 SSM 的痛点:离散化 SSM、循环/卷积表示以及基于 HiPPO 的长序列处理 [51] [52]。初始阶段,它采用零阶保持技术进行连续表示和采样。当 Mamba 收到离散信号时,它会保留其值直到收到新的离散信号,从而生成可用于 SSM 的连续信号。该保持周期由一个可学习参数决定,即步长(siz),其代表输入相位保持的分辨率。借助连续输入信号,可以生成连续输出,并仅根据输入的步长进行采样。Mamba 可以用卷积的形式表示,允许类似卷积神经网络 (CNN) 的并行训练。但由于卷积核的固定大小,其推理速度不如递归神经网络 (RNN) 快。因此,Mamba 采用在推理时使用 RNN 结构而在训练时使用 CNN 结构的策略,显著提高了推理速度。

最近的研究发现,将Mamba [47][48] 和Transformer模块 [49] 结合使用比单独使用它们效果更好 [53][54][55]。这是因为Mamba的长序列处理能力和Transformer的建模能力相结合,能够显著提高计算效率和模型性能。

作者的工作关注针灸临床中的痛点:精准性和速度。作者将mamba与Transformer结合,构建了一个实时且准确的穴位识别和定位网络。作者的主要贡献包括:

  1. 作者利用了状态空间模型Mamba在长序列处理能力和推理效率方面的出色表现,并保留了传统DETR架构中注意力机制的全局建模优势,从而实现高效的全局信息整合。这一整合显著提升了计算效率和模型性能,同时减少了参数数量。
  2. 作者模型在自有的人体背部穴位检测数据集上实现了最先进的准确率和检测率。
  3. 作者的网络架构充分利用了状态空间模型Mamba的优势,在推理过程中可以近似视为RNN,大幅降低了模型的运行时间。此外,网络中的分类头跳过了关键点定位步骤中的上采样操作。
  4. 通过采用残差似然估计方法,该模型在保持准确性的同时提高了速度。

METHOD

作者的研究旨在开发一种高效的针灸关键点检测网络——RT-DEMT,以解决针灸临床环境中速度和准确性上的挑战。在本节中,作者描述了所提出的RT-DEMT网络架构。在第一个子部分中,作者形式化了关键点检测任务。在第二个子部分中,作者详细介绍了RT-DEMT框架。在第三个子部分中,作者介绍了用于穴位检测任务的评估指标。

A. Key Points Detection Task

关键点检测任务可以视为一个回归问题,目标是在图像中预测人体关键点的坐标。给定包含人体的图像

,作者的目标是预测人体

个关键点的坐标

。作者可以定义一个映射函数

,将图像

映射到一个

维的输出向量

,其中

关键点定位问题可以形式化为以下优化问题:

其中,

是训练样本的数量,

是模型的简洁表示,

是第

个训练样本的图像,

是相应的真實关键点坐标,

是用于衡量预测关键点与真實关键点之间差异的损失函数。

可以表示如下。

第一个组件是Mamba部分,对图像进行序列化并将其输入到Mamba Backbone中进行特征提取,得到

:提取的多层特征

的尺寸。

将提取出的图像特征输入到高效混合编码器

中,

表示编码后的特征数据。在此过程中,图像特征会进行同尺度内的相互交互,从而实现特征融合,使模型能够更好地理解目标与其周围环境之间的关系,并显著减少信息丢失。

的尺度与

的尺度一致。编码后的数据由解码器

解码,并传递给分类头,得到

分类 Head

最终输出任务所需的 keypoints 的类别、坐标和置信分值。

其中,

表示第

个关键点的类别,

表示其坐标,

表示置信分数,且

是检测到的关键点数量。

损失函数

选择均方误差(MSE),其与像素间误差高度一致:

其中,

分别代表归一化的预测关键点坐标和归一化的实际关键点坐标。通过最小化该损失函数,作者可以训练模型

更加准确地预测图像中的人类关键点。

Network Structure

作者在图1中阐明了RT-DEMT网络架构,将其针灸穴位检测任务平滑地映射到关键点检测任务上。作者的模型基于RT-DETR构建,并在两个主要方面进行了优化:特征提取器和分类头。经过序列化处理后,输入图像首先通过基于Mamba的特征提取网络进行处理,该网络提取了包含丰富全局信息的分层特征数据。这些图像特征随后被送入一个高效的混合编码器。该编码器采用同尺度交互和跨尺度融合来编码多尺度分层特征,并利用IOU Query 机制进行选择。被选中的特征随后被导向模型末尾的各种分类头,从而产生带有相关置信分数的边界框和关键点坐标。

picture.image

在特征提取器方面,为了充分利用基于注意力机制提供的全局感受野潜力,作者采用基于状态空间模型的Mamba代替传统的CNN Backbone 网络。这一替换解决了传统CNN中特征截断的问题。Mamba通过引入时间变化参数的状态空间模型以及硬件感知算法,提高了处理序列数据的效率和灵活性,特别适合解决长序列问题。基于状态空间模型的Mamba具有的固有全局感受野,在针灸穴位检测等任务中尤其有利,这些任务往往缺乏边缘点和皮肤纹理。研究表明,将Mamba与Transformer模块结合使用,利用Mamba的长序列处理能力和Transformer的建模能力,能够显著提高计算效率和模型性能,优于单独使用它们的情况。

Mamba Backbone:Mamba的核心是一个状态空间模型,它使用一组一阶微分方程(或差分方程)来表示系统[50][56][57][58]。这些方程描述了系统的状态变量的动力学及其如何受到输入、输出和噪声的影响。

作者在时间

定义状态向量

,状态转移矩阵为

,控制输入向量为

,输入矩阵为

,过程噪声向量为

,通常假设其服从均值为零、协方差矩阵为

的高斯分布。状态空间模型可以紧凑地表示为:

矩阵A、B、C和

定义了系统的动力学模型和观测模型,而

分别代表过程噪声和观测噪声。这些模型因其能够以结构化的方式建模复杂系统,并且可以通过多种数学和计算技术进行分析和控制而被广泛使用。

分类头:作者的分类头框架结合了RLE和DSNT两者的优点,消除了上采样过程以减少计算负载,并引入残差似然估计以提高定位精度。

由结合的Mamba和Transformer架构提取的高精度特征图直接计算出一个近似的最大响应点,以获取

和y坐标的分布。随后引入残差似然估计,对该分布进行标准化回归。作者不仅跳过了上采样步骤,显著降低了模型的计算复杂度,而且通过残差似然估计的标准化还实现了与基于 Heatmap 方法相当的坐标精度。

高效混合编码器:作者可以将Mamba架构视为一种专门的CNN网络,在推理过程中它可以转换为RNN以实现快速推理。高效的混合编码器可以结合卷积神经网络(CNNs)和Transformer架构的优点,有效捕捉局部和全局特征。

混合特征表示结合了卷积层的局部特征和Transformer编码器的全局特征:

其中

是金字塔中总层数。

Mamba 架构提取的特征 inherently 带有全局信息。这种组合确保编码器能够更有效地捕捉局部和全局上下文。

IOU选择机制用于评估预测边界框与ground truth边界框之间的重叠情况,从而优化检测性能。IOU(Intersection over Union)是一种常用的指标,定义为预测边界框与ground truth边界框的交集面积与并集面积的比例。具体而言,假设预测边界框为

,ground truth边界框为

,那么Intersection over Union (IOU) 可以表示为:

其中,

表示预测bounding box与Ground Truth bounding box的交集区域的面积,而

表示它们并集区域的面积。

通过这种机制,模型可以有效评估和优化检测结果,从而提升模型的准确性和鲁棒性。

B. evaluating indicator

为了定量评估作者关键点检测算法的性能,作者采用了以下评价指标:

欧几里得距离像素误差(EPE):检测到的关键点与Ground Truth关键点之间的平均像素欧几里得距离,评估检测任务的空间准确性。

其中,

分别表示检测到的关键点和真实关键点的像素坐标。

关键点正确率(PCK):在人体姿态估计中常用的评价指标,PCK 用于衡量检测到的关键点中有多少个落在了真实关键点位置周围指定距离阈值之内。该指标可通过调整阈值来适应不同的尺度。在此作者选择 0.05 和 0.1 作为阈值。

其中,

是一个阈值参数,

分别是边界框或图像的高度和宽度。

平均推理时间和最终吞吐量:算法处理一张图像并检测关键点所需的时间平均值对于实时应用至关重要。最终吞吐量是指模型在一定时期内处理输入数据的速度,通常以每秒处理的输入数量来衡量。平均推理时间

与最终吞吐量

之间的关系可以表示为:

作者可以从不同的角度使用这两个指标来评估算法推理的效率。

这些指标共同提供了一个 robust 的框架,用于评估作者关键点检测方法的有效性和效率。

RESULT

Datasets and processing

作者的实验数据基于深圳人民医院传统中医医师独立创建的一个私有背部穴位位置数据集。专业中医临床医师手工标注了84个穴位位置,而作者则协助完成了数据的采集和管理工作,并最终对实验数据进行了预处理,获得了可靠的临床穴位位置数据集。作者招募了近200名具有正常体型且无明显脊柱畸形的健康参与者,所有参与者均签署了知情同意书。

Prediction Result

作者的网络为每个穴位预测输出一组坐标值和置信度分数。通过设置置信度阈值,作者筛选出最终输出。图2直观地展示了作者的网络在人体背部穴位定位任务中的潜力。在图2中,绿色表示实际穴位的分布,红色 Token 指示了作者k所预测的穴位位置。

picture.image

作者在测试集上将作者的网络与SOAT模型进行了比较。作者使用所有模型在同一测试集上执行穴位定位任务,并记录了每个模型预测的穴位位置与实际穴位位置之间的欧几里得像素距离误差(EPE),以及在不同的再投影误差阈值(分别为0.05和0.1)下正确定位关键点的比例(PCK)。此外,作者还通过参数量来对比网络,即神经网络中的参数数量(以百万计),用以代表其复杂度和容量。单次前向传播的计算成本以每秒浮点运算次数(FLOPs)来衡量。另外,平均推理时间是指网络处理单个输入并生成输出所需的时间平均值(以毫秒计),而最终的吞吐量则表示网络每秒可以进行的推理次数,反映了其在实时应用中的效率和速度。综合分析这些指标可直观地衡量模型的实时性能。

表2明确展示了作者的网络在保持实时性能的同时实现了显著的准确性优势。相比之下,YOLO系列模型[39][40][41][42][43]在推理速度上表现出优势,但未能解决定位精度问题。此外,与RT-DETR[46]相比,作者的方法在准确性和速度上都取得了双重改善,实现了接近1.5倍的精度提升,同时保留了实时能力。与利用Transformer在视觉领域的VitPose[61]相比,作者的方法在准确性和速度上也更为出色。另外,由于参数量较大导致训练困难,VitPose[61]在较小数据集上的性能受到限制。Uniformer在所有指标上均表现优秀,除了

之外,表明该模型对弱特征图像任务的鲁棒性不足。然而,Uniformer仍然在与YOLO和PVT等轻量级模型相比时具有显著优势。Swin-pose[60]同样在

性能上表现出较低水平。

picture.image

Alation studies

特征提取器:作者通过与ResNet [63]、HRNet [64] 和MobileNetv3 [65] 的backbone进行比较,验证了基于Mamba的特征提取器backbone在准确性和效率方面的可行性。在特征提取器的消融实验中,作者统一将分类头设置为作者所提出的分类头。从表1000中可以看出,作者的方法在准确性方面表现出绝对的优势,在测试集上的平均欧氏像素误差低于10,几乎是HRNet准确性的两倍。这个实验验证了基于Mamba的特征提取器固有的全局特征提取能力和Transformer建模能力相结合,显著提升了模型在弱特征图像上的性能。

分类 Head :在分类头的消融实验中,所有模型仅替换分类头。作者选择了每种主流分类头方法的一个代表进行比较。从表4中可以看出,作者的改进方法在保持与回归方法相近的推理速度的同时,在准确性上略优于基于 Heatmap 的方法。这一实验验证了作者的分类头方法在两个方面均实现了最优性能。

DISCUSSION

将智能融入针灸实践的前景为提升这一古老疗法的精确性和效率带来了变革性的机会。集成先进技术如Mamba和基于Transformer的关键点检测网络标志着在临床针灸中解决关键挑战的一个重要进步,特别是在针灸穴位的准确且快速定位方面。

针灸穴位定位是针灸中的一个基本步骤,传统上一直缓慢且不够精确,主要原因是依赖于针灸师的手动识别。这一过程因穴位数量庞大及其与骨骼、关节和皮肤特征的具体解剖学关联而变得复杂。穴位定位的任务与姿态估计的核心任务——关键点识别任务相一致,共享相同的逻辑框架来解决此问题。通过利用这些技术,针灸师可以实现更准确的穴位映射,从而提高治疗效果和患者 outcome。

针灸点识别技术的进步不仅提高了针灸点定位的准确性,还为姿态估计的更广泛领域做出了贡献。随着这些技术的发展,它们使作者能够实时更细致地理解人体解剖结构,这对于针灸治疗的精准化以及各种其他医疗和康复应用至关重要。此外,在传统的姿态估计任务中,关键点的选择通常局限于 Head 、肩膀和关节等几个位置。

表4:基于三类指标(EPE、PARAMS(M)和AIT(ms))的不同分类 Head 架构对比分析。例如,图3左下角和右下角的两幅图像代表了传统姿态估计任务中的解决方案。然而,穴位数量的丰富性显著扩展了作者的选项,使得姿态定位更加多样化。

picture.image

增加参考点的数量并提高这些点在定位方案中的精度可以显著提升姿态估计解决方案。更多的参考点提供了更密集的空间框架,提高了估计姿态的粒度和准确性。更为严格的定位标准确保了参考数据的高度保真性,减少了姿态估计过程中的误差和歧义。这些改进共同促进了更加稳健和可靠的姿态估计,有助于推动诸如机器人技术、增强现实和自主导航等领域的发展。

总之,通过像Mamba和Transformer等复杂的神经网络实现针灸穴位检测的智能化自动化,标志着该领域的一项重大进展。这项创新不仅有望提高治疗方法的精度和速度,还为更广泛的医疗诊断和个人化医学应用铺平了道路,最终推动患者护理质量和治疗效果的提升。

CONCLUSIONS

在本研究中,作者通过整合Mamba和Transformer开发了一种新型网络,以增强关键点识别和定位的准确性和速度。该网络已证明在解决典型弱图像特征穴位检测任务方面效果显著,能够在较少参数的情况下提高计算效率和检测准确性。本项工作不仅推动了临床针灸的智能化,还为更准确和多样化的姿态估计应用奠定了基础。作者进行了广泛的实验来验证所提出网络的性能。结果显示,与现有方法相比,该网络在速度和准确性上均有显著提升。特别是,作者的网络实现了更高的检测率,并且假阳性的数量较少,使其在对精度要求极高的临床应用中具有很高的可靠性。

除了临床针灸外,本研究发展的原则和技术在更广泛的领域具有重要意义。

增强的关键点识别和定位能力可以应用于体育科学、康复和人机交互等多个领域。例如,准确的姿态估计可以导致更好的运动员伤病预防策略,或更有效的患者物理治疗方案。总之,作者的工作代表了将高级神经网络架构用于实际应用的重要一步。通过结合Mamba的高效性和Transformer的上下文理解能力,作者已经创建了一个强大的工具,不仅满足临床针灸的需求,还为未来姿态估计及其他领域的创新奠定了基础。

参考

[0]. RT-DEMT: A hybrid real-time acupoint detection model combining mamba and transformer .

点击上方卡片,关注「AI视界引擎」公众号

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
基于火山引擎 EMR 构建企业级数据湖仓
火山引擎 EMR 是一款云原生开源大数据平台,提供主流的开源大数据引擎,加持了字节跳动内部的优化、海量数据处理的最佳实践。本次演讲将为大家介绍火山引擎 EMR 的架构及核心特性,如何基于开源架构构建企业级数据湖仓,同时向大家介绍火山 EMR 产品的未来规划。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论