备注好友:
方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
近年来,大语言模型(LLMs)在多种任务上展现了非凡的能力。然而,它们整合物理模型知识以进行现实世界信号解释的潜力仍大多未被探索。
在此项工作中,作者提出了Wi-Chat,这是首个基于LLM的Wi-Fi人体活动识别系统。作者展示了LLM能够处理原始Wi-Fi信号并通过将Wi-Fi感知原理融入 Prompt 中来推理人类活动。
作者的方法利用了物理模型的见解来引导LLM通过信道状态信息(CSI)数据进行解释,而无需传统的信号处理技术。通过使用实际Wi-Fi数据集的实验表明,LLM展现出了强大的推理能力,实现了零样本活动识别。
这些发现突显了一种新的Wi-Fi感知范式,扩展了LLM的应用范围,使其超越了传统的语言任务,并提高了无线感知技术在实际部署中的可访问性。
1 Introduction
大语言模型(LLMs)在ChatGPT等代表性的里程碑推动下取得了显著进展。它们能够以零样本的方式生成类似人类的对话,这标志着人机交互方式的根本转变。此外,最新的大语言模型展现了卓越的推理能力和非凡的泛化能力。然而,它们依赖于互联网文本集合的数据训练,因此在实现对物理世界的深刻理解方面仍有很大差距。与此同时,无处不在的Wi-Fi设备和广泛的Wi-Fi网络为扩展Wi-Fi的功能提供了机会,特别是在感知物理世界方面(Tan等人,2022年)。当Wi-Fi信号穿越物理环境时,它们会与周围的行人和物体相互作用,产生反射、衍射、散射等现象。因此,接收到的信号可以携带大量关于行人和环境的信息。传统的基于Wi-Fi的传感系统可以在物理环境中完成多种传感任务,例如活动识别和定位(Ma等人,2019年)。
然而,这些系统通常依赖于复杂的信号处理技术和机器学习或深度学习模型的繁重训练。这提出了一个基本而又引人注目的问题:作者能否将大语言模型与Wi-Fi传感结合起来,在无需复杂信号处理的情况下以零样本的方式理解物理世界?
作者通过探究大语言模型理解原始无线信号的能力,并结合基于Wi-Fi传感的物理模型指导来研究这一问题。具体而言,作者引入了WiChat,这是一种由大语言模型驱动的Wi-Fi传感系统,用于人类活动识别。与现有的主要分析传统文本和视觉数据的大语言模型不同,Wi-Chat能够理解Wi-Fi信号,这些信号是物理环境在现实世界中的投影。作者展示了,经过大量人类知识训练的大语言模型,在与Wi-Fi传感的物理模型集成后,可以直接用于Wi-Fi信号分析。这种方法可以提取出传统上需要复杂信号处理和机器学习或大规模标注数据训练的深度学习模型才能获得的深刻洞察。
Wi-Chat 直接将原始 Wi-Fi 信号的文本或视觉表示输入到 ChatGPT、DeepSeek 和 LLama 等知名的大语言模型中进行人类活动识别。此外,作者通过 Prompt 将 Wi-Fi 感知的物理模型整合到大语言模型中,从而通过 Wi-Fi 信号对物理世界中的人类活动形成深刻理解。作者使用自收集的人类活动数据集进行实验。用于对比的基准系统包括传统的基于 Wi-Fi 的人类活动识别系统和基本的机器学习模型。作者的评估表明,大语言模型可以直接从原始 Wi-Fi 信号中实现零样本的人类活动识别,在未见过的数据上达到最高的准确率 90%。
本文的主要贡献包括:
作者提出了Wi-Chat,这是首个基于Wi-Fi的人体活动识别系统,该系统融合了大语言模型的推理能力与无线信号的感知能力,以解读人体活动。作者将在 Prompt 中集成Wi-Fi感知,为大语言模型提供物理模型指导。实验结果显示,在无需复杂信号处理的情况下,Wi-Chat在零样本设置中取得了令人瞩目的性能。
2 Related Work
Wi-Fi 感知。Wi-Fi 感知已被广泛应用于各种应用场景中,尤其是在人体活动识别领域,由于其非接触性质和低成本。例如,E-eyes (Wang et al., 2014) 是首个利用 Wi-Fi 信号进行日常人体活动识别的研究工作。Zhang et al. (2017) 对 Wi-Fi 信号的感知能力进行了理论分析,并引入了 Fresnel 区域模型用于人体活动感知。
WiG (He et al., 2015) 利用支持向量机从 Wi-Fi 信号中提取与活动相关的特征。CARM (Wang et al., 2015) 使用隐马尔可夫模型从 Wi-Fi 信号中提取时间特征以进行活动识别。此外,Yang et al. (2019) 结合卷积神经网络和循环神经网络从 Wi-Fi 信号中提取区分性特征以进行人体活动识别。尽管这些传统的 Wi-Fi 感知系统可以取得良好的性能,但它们通常依赖多阶段信号处理技术,并且需要大量数据来训练深度学习或机器学习模型。
大语言模型应用。近年来,大语言模型(LLM)由于其在理解和生成大量预训练知识方面的显著能力,已经彻底改变了学术自然语言处理研究和工业产品。通过利用大量的文本数据语料库,大语言模型能够捕捉复杂的语言模式、语义关系和上下文线索,从而生成高质量的回应。除了自然语言处理领域之外,大语言模型还被应用于医疗保健、法律和金融等领域,成为一种强大的工具,推动了这些领域的进步。最近,研究行人还探索了大语言模型在感知相关领域的应用。
穿透式人工智能(Penetrative AI,Xu等人,2024)的概念已被引入,旨在将大语言模型与物理世界结合,通过大语言模型分析传感器数据。此外,HARGPT(Ji等人,2024)和LLMTrack(Yang等人,2024)已经展示了大语言模型通过分析惯性测量单元(IMU)数据识别人类活动和跟踪机器人运动的潜力。这些进步突显了将大语言模型与物理世界的传感应用相结合的巨大潜力。
3 Preliminary
3.1 Wi-Fi Sensing
近年来,Wi-Fi 基因检测因其广泛应用的 Wi-Fi 设备及其能够感知人和周围环境的能力而引起了广泛关注。在室内环境中,Wi-Fi 信号通过直接路径(即视线路径)和反射路径传播,经物体和人类反射后再到达接收器。当检测目标是人时,可以通过信号的变化来推理人的位置、活动乃至生命体征,从而实现非接触式的人体检测。此外,现有的 Wi-Fi 基础设施可以被重用于基因检测,使其能够无缝集成到大语言模型驱动的智能环境中。
为了捕捉目标(例如一个人)引起的Wi-Fi信号变化,作者利用了信道状态信息(CSI),这种信息描述了信号在通过物理空间传播时如何被改变。具体来说,Wi-Fi信号通过多个路径从发射器传播到接收器,这些路径包括直接路径(即LoS传播)和由墙壁、家具以及人等物体反射形成的众多路径。
CSI 可进一步分解为静态分量和动态分量。静态分量包括沿径 (LoS) 信号和环境中的静止物体反射的信号。相比之下,动态分量是由移动目标引起的反射所产生。为了简化处理,作者假设目标只有一条信号反射路径。因此,CSI 可以表示为:
其中,
是静态部分,
、
和
分别是动态部分
的复衰减、相位移和路径长度。
3.2 Wi-Fi-based Human Activity Recognition
基于Wi-Fi的人体活动识别系统整体流程如图1所示。在所有系统中,Wi-Fi发射器发出信号,由Wi-Fi接收器接收以检测人体活动。系统处理来自Wi-Fi设备网络接口控制器提取的Wi-FiCSI测量值。在本工作中,作者研究了三种不同的范式:
paradigms 1:基于传统Wi-Fi的系统。在进行Wi-Fi检测之后,原始的Wi-Fi信号会在信号去噪模块中进行处理以减少噪声。这一过程可能涉及相位偏移移除技术来校准信号相位(Guo等,2017;Kotaru等,2015),以及各种过滤方法来剔除非典型值(Ali等,2017)。随后,将应用信号变换方法对去噪后的Wi-Fi信号进行时频分析。常用的技术包括快速傅里叶变换(FFT)、短时傅里叶变换(STFT)和离散小波变换(DWT)。接下来,特征提取步骤会从预处理过的Wi-Fi信号中提取相关特征。例如,可以使用功率延迟剖面(PDP)推导出传播距离特征(Xie等,2015)。此外,主成分分析(PCA)、独立成分分析(ICA)和奇异值分解(SVD)广泛应用于特征提取、信号分离和降维。一旦提取了特征,便会对深度学习或机器学习模型进行训练,使其学习Wi-Fi信号与相应真实活动标签之间的映射关系。完成训练后,该模型能够识别新捕获的Wi-Fi信号所对应的活动。
paradigms 2:直接使用原始信号的机器学习模型。一种替代方法是将原始 Wi-Fi 信号直接输入机器学习模型,包括卷积神经网络(CNNs)、循环神经网络(RNNs)和支持向量机(SVMs)。在这种方法中,作者首先应用简单的信号平滑处理。然后,将信号转换成文本或视觉表示,再输入到模型中。与传统系统类似,这些模型仍然需要大量的手动标注和训练。
paradigms 3:基于大语言模型的零样本推理系统。在 Wi-Chat 中,输入数据包括未经处理的 Wi-Fi 信号的文本或视觉表示,经过简单的信号平滑处理。该系统旨在基于这些信号识别人类活动。为了实现这一点,作者明确指示大语言模型通过分析 Wi-Fi 信号来确定一个人的活动。基本思想是,不同的人类活动会在 Wi-Fi 信号中引发不同的模式。通过将 Wi-Fi 感测的物理模型整合到 Prompt 中,作者为大语言模型提供物理模型指导以解释这些信号。与传统的基于 Wi-Fi 的系统或机器学习模型相比,Wi-Chat 消除了复杂的信号处理和劳动密集型模型训练的需求,提供了一种更高效且更具扩展性的活动识别方法。
4 Method
4.1 Wi-Fi Physical Model Knowledge
在本小节中,作者构建了基于人类行走、跌倒、呼吸以及无事件场景的Wi-Fi传感物理模型。然后,作者据此推导出大语言模型的 Prompt 指导。
人体行走场景建模。如图2(a)所示,一个人正在行走,Wi-Fi发射器和接收器固定在特定位置。Wi-Fi发射器发出的Wi-Fi信号通过多径环境传播。根据第3.1节所述,静态组件(即红色实线)包括直视路径信号和墙壁反射信号。动态组件(即蓝色虚线)则由人体反射的信号组成。假设这个人从位置
移动到位置
,这种移动会导致动态组件路径长度发生变化。这种移动的持续时间用
表示。作者可以在相位(I)和正交(Q)分量的IQ平面上绘制信号(Wang等,2015)。理论上,静态组件向量
保持固定,而动态组件向量
可以变化并旋转。总体信道状态信息(CSI)
是向量
和
的和。当IQ平面上的动态和静态组件向量朝相同方向对齐时(例如,在
处),它们会叠加增强,导致最大CSI幅度(即
)。相反,当它们朝相反方向排列时(例如,在
处),它们会叠加削弱,使CSI幅度最小化(即
)。值得注意的是,当动态组件的路径长度变化一个波长(例如,对于5 GHz Wi-Fi,一个波长大约为6厘米)时,其相位会旋转
(Ren等,2021, 2022),这在方程1中有所说明。由于人体行走是一项大规模活动,每次步态变化可能会引起传播路径中多个波长的变化,从而导致动态组件多次相位旋转。这将导致CSI幅度
多次出现峰值
和谷值
,如图2(c)所示。在本研究中,作者仅关注CSI幅度。此外,作者注意到,人体行走是一项连续性活动,其持续时间
可以从几秒钟到几分钟不等。
因此,作者对于人类行走的人工智能 Prompt 指导如下:“行走是一种大规模活动,会随着时间显著改变Wi-Fi信道状态信息(CSI)幅度,特点是有许多峰值和谷值。”建模人类跌倒场景。类似地,跌倒场景也是一种大规模活动,其中个体从位置
移动到
,如图3(a)所示。这种移动可以使整体CSI幅度
达到最大和最小值,分别对应
和
,如图3(b)和(c)所示。然而,跌倒的持续时间
可能非常短(例如约0.5秒)(Choi等人,2015)。因此,由跌倒引起的峰值和谷值集中在短暂的时间内。经过信号平滑处理后,这些快速波动可以被视为一个显著的峰值或谷值。跌倒后,个体可能会失去 Aware 或者变得静止不动,导致跌倒后的静止期。
因此,作者可以将大语言模型的 Prompt 指导应用于人类跌落场景如下:“跌落是一种大规模且突发的行为,会导致WiFi信道状态信息(CSI)幅度出现一个显著的峰值/谷值,并随后进入相对稳定的时期。”建模人类呼吸场景。人类呼吸是一种小规模活动,因为呼吸时胸部的扩张和收缩范围通常只有几厘米(从
到
,如图4(a)所示)。这种运动导致路径长度动态变化,通常是相当微小的。因此,总体CSI幅度可能不会达到最大值和最小值,这意味着
,如图4(b)和(c)所示。此外,呼吸是一个连续而平滑的过程,这意味着其持续时间
较长。
作者将大语言模型的 Prompt 指导应用于人类呼吸如下:“呼吸是一种小规模且平滑的过程,它会引起Wi-Fi CSI幅度随时间缓慢而渐进的变化,变化范围适中。”建模无事件场景。在这种场景下,仅存在静态信号分量,例如直射信号和由静止物体反射的信号,如图5(a)和(b)所示。由于没有移动发生,因此不会引入动态分量到Wi-Fi信号传播中。因此,总体CSI幅度仅由这些静态信号分量的幅度决定,并且随着时间几乎保持不变(即
,如图5(c)所示)。
作者为缺乏运动场景提出了大语言模型的 Prompt 指导:“对于无事件场景,时间序列CSI幅度保持稳定,意味着变化范围非常小。”作者还在图6中进一步说明了不同人类活动对应的实际情况无线信号示例。这些信号模式与作者的Wi-Fi传感物理模型高度契合,验证了其通过Wi-Fi CSI有效表征人类活动的能力。借助这些物理见解,作者推导出的 Prompt 为大语言模型提供了明确的指导,使它们能够根据Wi-Fi传感原理解释无线信号。这使得以零样本方式准确识别人类活动成为可能。
4.2 Wi-Chat: LLMs for Wi-Fi-Based Activity Recognition
本节概述了不同类型的 Prompt 策略,以利用大语言模型进行基于Wi-Fi的人类活动识别。作者旨在探索大语言模型如何解读Wi-Fi信号,并在无需大量模型训练或复杂信号处理的情况下提高活动分类的准确性。
基础设置中,作者提供了原始CSI幅度数据给大语言模型,并将其表示为时间序列,同时促使模型识别出人类活动标签,表示为
。此外,结合第4.1节中描述的Wi-Fi传感物理模型作为领域知识,可能会增强大语言模型的可解释性和性能。
情境学习。近期的研究表明,大语言模型在各种任务上展现出强大的少样本学习能力,这种现象被称为情境学习(In-Context Learning, ICL)(Brown等,2020)。通过在一个推理会话中学习这些示例,模型可以在不进行额外微调的情况下识别信号中的模式并提高分类准确性。标准的情境学习会用一个包含
个示例的 Prompt 来引导大语言模型
,并通过以下方式预测Wi-Fi信号的活动
:
链式思考推理(CoT)。除了简单的输入输出映射之外,将链式思考(CoT)推理融入 Prompt 中可以进一步增强模型的可解释性(Nye等,2021;Wei等,2022)。通过包含明确的中间步骤,CoT Prompt 有助于模型更好地捕捉信号变化与人类活动之间的关系。它可以表示为:
其中,
是 Prompt 中的输入-解释-输出三元组集合。
多模态。由于原始无线电信号以数值形式存在,对大语言模型来说难以解读,作者通过加入视觉表示来扩展方法。具体来说,作者生成信号图表,并将其作为额外输入提供给模型,使模型能够处理文本和视觉信息。这种多模态策略利用了大语言模型分析图像的能力,有可能通过使信号变化更加可解释来提高活动识别的效果。
其中,
表示信号的视觉表示。通过纳入这些图表,作者旨在提高 Wi-Fi 信号对大语言模型的可解释性,从而实现更准确的活动识别。
通过探索这些 Prompt 策略,作者旨在评估大语言模型在基于Wi-Fi的行为识别中的可行性,并理解不同类型输入表示对其性能的影响。
5 Experiment
5.1 Wi-Chat Dataset
MHz,数据包传输速率为每秒1000个数据包。作者采用了Linux 802.11信道状态信息(CSI)工具(Halperin等,2011)从每个数据包的30个正交频分多址(ofdm)子载波中提取CSI数据。该数据集包含来自不同身高、体重和年龄参与者收集的超过1,965,000个Wi-Fi CSI数据包。这些数据包被划分为393个片段,每个片段持续5秒,在此期间,参与者执行四种活动之一:行走、跌倒、呼吸或无事件(即空环境)。收集到的数据随后被转换成图像和文本两种表示形式,详细情况见表1。数据收集工作在两个月的时间里跨越了三个实际环境:卧室、厨房和客厅。本研究得到了作者所在机构IRB的审核与批准。
5.2 Baselines
作者对比了Wi-Chat与其他以下系统:
基于传统Wi-Fi的系统。这些系统遵循一个多步骤Pipeline,包括信号去噪、信号转换、特征提取和模型构建,具体细节见第3.2节。具体来说,作者重现了两个知名的系统:1) CARM (Wang等,2015):该系统利用PCA方法进行信号去噪,使用小波变换进行特征提取,并采用隐马尔可夫模型进行活动识别。2)
eyes (Wang等,2014):该系统首先使用低通滤波器去除数据异常值,然后使用沃特曼距离构建活动分类器。
使用原始信号的机器学习模型。作者评估了包括3) 卷积神经网络(CNN),4) 循环神经网络(RNN),以及5) 支持向量机(SVM)在内的几种机器学习模型的表现。这些模型以原始Wi-Fi信号的文字或视觉表示作为输入,并通过有标签的数据集在监督方式下进行训练。
5.3 Experimental Settings
对于大语言模型(LLM),作者首先使用Savitzky-Golay滤波器(Schafer, 2011)对信号进行平滑处理,然后将信号转换为文本或视觉表示。在少样本设置的实验中,作者选择了4个示例,每个标签类别包含一个示例。用于实验的 Prompt 信息见附录A。
作者使用了一套自收集的Wi-Fi CSI数据集进行了实验,利用了商用Wi-Fi设备,具体来说是Dell Latitude笔记本电脑,作为数据采集中的Wi-Fi发射器和接收器。每个Wi-Fi发射器和接收器都配备了三个天线。Wi-Fi信道的中心频率为5.32 GHz,带宽为40 MHz。对于所有的监督学习 Baseline ,作者随机将数据集分为70%用于训练,30%用于测试,以确保评估的公正性。在模型训练之前,作者应用了相同的信号平滑技术,并将信号转换为文本和可视化形式。传统的监督学习方法通常需要大量的 Token 数据集,而在实际应用中这可能并不总是可行的。
为了保证不同方法之间的连贯性,作者采用了一致的表示方法。CNN和RNN模型在NVIDIA GeForce RTX 4090 GPU上训练,使用Adam优化器,学习率为0.001,最大训练轮数为30轮,批处理大小为32。对于SVM模型,作者使用径向基函数作为核类型。对于CARM和E-eyes,作者遵循它们原始的信号处理Pipeline,包括去噪、特征提取和模型构建等步骤,这些步骤在各自的研究中有所描述。此外,作者还对CNN、RNN、SVM以及传统系统进行了零样本评估,使用相同的评估方法,但使用未训练过的模型来测试其零样本性能。性能评估采用标准分类指标,包括准确率、精确率、召回率和F1分数,以评估各系统识别Wi-Fi CSI数据中人类活动的能力。
5.4 Results
总体结果。表2展示了各类方法中性能最佳的模型。在零样本类别中,GPT-4o模型取得了0.62的准确性,显示了其在没有特定任务示例的情况下有效泛化的能力。在少样本类别中,GPT-4o仍然是最佳模型,展现出显著的提升,达到了0.77的准确性。这一结果突显了上下文学习的有效性,在这种学习模式下,额外的 Prompt 示例有助于细化模型预测。
在视觉模型类别中,带有CoT Prompt 的GPT-4o-mini表现出最强的性能,准确率为0.9o。这一结果表明,该模型能够通过CoT Prompt 整合视觉和文本推理的能力,这可能有助于复杂决策的做出。
对于监督学习,E-eyes(采用了复杂的信号处理技术)在所有其他模型中表现最佳。这一结果是可以预期的,因为监督模型明确地在 Token 数据上进行了训练,从而使它们能够学习精确的决策边界。尽管精确度很高,但总体而言,结果显示,大语言模型在基于Wi-Fi的人体活动识别任务中表现出色,尤其是在零样本和少样本设置下,这使它们成为标注数据有限场景中的宝贵工具。此外,视觉语言模型令人印象深刻的精度表明了在该任务中集成多模态学习的有前途的方向。
方法比较。表3总结了不同方法的分类结果。在零样本设置下,传统的机器学习模型如SVM、CNN和RNN显示出相对较低的分类性能。大语言模型GPT-4o的准确性达到了0.61,显著优于传统的机器学习模型。ICL方法进一步提高了性能,展示了增量上下文学习的优势。
此外,GPT-4o-mini 结合链式推理(CoT)实现了零样本方法中的最高精度 0.90,这表明了高级 Prompt 技术在提升基于大语言模型的分类性能方面的有效性。值得注意的是,这一性能已经可以与传统Wi-Fi活动识别系统及在监督设置下训练的机器学习模型相媲美。这些结果进一步证实,在有标签数据的情况下,监督模型可以获得更好的性能,而大语言模型则展现出强大的泛化能力,尤其是在利用少样本学习和视觉-语言整合时。
5.5 Analysis
基于CoT和领域知识的有效性。图7展示了在时间序列和基于视觉的任务中,CoT推理和领域知识对不同语言模型的影响。在零样本模型中,当引入领域知识时,GPT-4o-mini表现出明显的改进,突显了将先验知识整合到推理过程中的好处。然而,当在时间序列数据上应用CoT推理时,两种模型均出现了显著的性能下降。作者认为这种下降源于时间序列信号固有的复杂性,特别是在处理Wi-Fi原始信号的情况下,直接解释这些信号具有挑战性。引入的逐步推理可能导致混淆,因为模型难以生成动态且噪声较大的输入序列的连贯中间步骤。
对于视觉增强模型而言,GPT-4o-miniVision 变体实现了最高性能,使用CoT Prompt 时的准确率为0.90。这表明当与视觉输入结合时,CoT推理特别有效,可能是因为图像提供了额外的上下文,有助于结构化的推理。类似的效果也观察到GPT-4o-Vision中,尽管效果不如前者显著。这些结果表明,虽然CoT推理可以带来益处,但其有效性取决于具体的视觉-语言模型及其与任务的对齐情况。结构化的视觉输入可能更适合支持多步推理,而时间序列数据缺乏相同水平的可解释性,限制了CoT在那些场景中的效果。
不同大语言模型的比较。图8展示了在零样本设置下不同大语言模型变种(基础版、思考链版和知识版)的准确率分布。箱线图展示了各模型准确率的差异性,GPT-4o和DeepSeek表现出最高的中位数性能,而Mistral和LLaMA则显示了更大的波动性和较低的中位数准确率。
在这些模型中,GPT-4o-mini 和 DeepSeek 展现出了更稳定的精度分布,表明其在不同变体中的性能较为一致。相比之下,LLaMA 的精度分布更为广泛,这表明其性能对具体的推理方法更为敏感。Gemma2 保持了相对较窄的分布,表明其性能波动较小,但也意味着进一步改进的空间有限。
这些结果突显出,大型模型如GPT-4o得益于更强健的推理能力,而小型模型则根据所应用的增强措施表现出不同程度的改进。
6 Conclusion
在本文中,作者介绍了Wi-Chat,这是首个基于Wi-Fi的融合大语言模型推理能力和无线信号感知潜力的人类活动识别系统。作者在自行收集的Wi-Fi CSI数据集上的实验结果展示了大语言模型在实现零样本Wi-Fi感知方面的巨大潜力。
这些发现表明了一种新的人类活动识别范式,不依赖于大量标注数据。作者希望未来的研究能够在此基础上进一步探索大语言模型在IoT、移动感知及雷达系统等信号处理领域的应用。
参考
[0]. Wi-Chat: Large Language Model Powered Wi-Fi Sensing .