备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
时空点过程(TPPs)广泛应用于诸如社交网络、交通系统和电子商务等领域的事件时序和发生的建模。在本文中,作者提出了TPP-LLM,这是一个将大型语言模型(LLMs)与TPPs相结合的新颖框架,旨在捕捉事件序列的语义和时序方面。
与传统方法依赖的事件类型表示不同,TPP-LLM直接利用事件类型的文本描述,使模型能够捕获文本中丰富的语义信息。
尽管LLM在理解事件语义方面表现出色,但在捕捉时序模式方面则稍显不足。为了解决这个问题,TPP-LLM引入了时序嵌入,并采用了参数高效的微调(PEFT)方法,以有效地学习时序动力学,而无需进行广泛的再训练。
这种方法提高了预测准确性和计算效率。在多个真实世界数据集上的实验结果表明,TPP-LLM在序列建模和事件预测方面超过了最先进的 Baseline ,突显了将LLM与TPPs相结合的优势。
1 Introduction
时间点过程(Temporal point processes, TPPs)(Shchur等,2021年)是建模事件随时间发生的有力的工具,广泛应用于社交网络、城市动态学、交通、自然灾害和电子商务等领域。预测未来事件类型和时间的挑战,导致了越来越复杂的模型的发展。传统的TPP模型通常依赖于手工制作的特征或关于时间依赖性的特定假设,这限制了它们在实际数据集中捕获复杂事件模式的能力。最近的技术进步,如神经TPP,利用深度学习的表示能力,克服了其中一些限制,但许多仍需要从头开始进行广泛的特定任务训练。
随着强大的大语言模型(LLMs)如 GPT-4 和Llama-3 的出现,使用LLMs来理解和预测事件序列,通过捕捉丰富的语义和上下文信息,已经出现了新的机会。受到它们在基于文本的任务(Zhao等,2023)和时间序列预测成功的影响,作者提出了一种新颖的框架TPP-LLM1(图1),该框架将LLMs与TPPs相结合,用于同时模拟事件序列的时序和语义方面。通过利用预训练的LLMs,TPP-LLM可以直接利用事件类型的文本描述,超越了依赖分类表示的传统方法。为了确保模型捕获时间动态,作者在此同时引入了时间嵌入与这些事件描述。为了有效地将LLMs适应于TPP建模,作者采用了低秩适应(LoRA),这是一种参数高效的微调(PEFT)方法,允许作者调整一小部分LLM参数,在降低计算成本的同时保持高性能。通过在真实世界数据集上的广泛实验,作者证明了TPP-LLM在序列建模和下一事件预测方面始终优于最先进的 Baseline 。
本文的主要贡献如下:
(1)作者提出了一种新颖的方法,将LLMs与TPPs相结合,通过利用文本事件描述和时间嵌入来提高事件序列建模。
(2)作者证明了PEFT在TPP建模方面的有效性,允许TPP-LLM在不从头开始进行完整模型再训练的情况下,适应预训练的LLMs。
(3)作者在多个真实世界数据集上进行了广泛实验,结果显示TPP-LLM相较于现有的神经TPP模型取得了优越的性能。
在接下来的部分,作者将讨论相关工作,详细描述作者的方法,呈现实验结果,并总结研究未来的方向。
2 Related Work
神经时间点过程 近年来,神经时间点过程(TPPs)取得了重要进展,引入了许多利用深度学习技术来捕获复杂时间依赖性和事件交互的模型。许多这些模型使用循环神经网络(RNNs)或自注意力机制来根据事件历史学习事件强度。例如,RMTPP(Du等人,2016)和NHP 使用RNNs学习时间影响,而较新的方法如SAHP 和THP 则利用自注意力来捕捉长期依赖性。其他模型,如基于神经ODEs 、注意力机制、扩散过程、元学习和Mamba模型(Gao等人,2024),为连续时间中的离散事件提供了灵活且高保真的建模。这些方法通过模拟复杂交互和动态事件关系,显著提高了TPPs的性能。
近年来,已有研究将大型语言模型(LLMs)整合到事件序列预测任务中(Jin等人,2023b)。石等人提出LAMP,该框架利用LLMs进行归因推理,以提高事件序列预测。薛等人(2023b)引入了PromptTPP,该方法将连续学习集成到神经时间点过程中,以实现对 Stream 事件序列的适应性和高效学习。
Song等人(2024年)提出了LaTee模型,该模型利用了一种摊销期望最大化的框架,其中逻辑树作为潜在变量,并使用可学习的GFlowNet生成逻辑树样本,以实现更有效的event reasoning。
3 Preliminaries
在本节中,作者将介绍关于时间点过程及其扩展使用神经网络建模复杂事件序列所必需的背景知识。
Temporal Point Processes
时间点过程(TPPs)(Hawkes, 1971; Laub et al., 2015) 是一类用于模拟连续时间上离散事件发生的随机过程。带有 Token 的 TPP 通过将每个事件与发生时间和类型( Token )相关联,扩展了这一框架,使其在需要同时理解事件类型及其发生时间的关键领域具有高度适用性。
在显著的TPP(Traditional Planning Problem)中,对于一个观察窗口内的多个事件序列,可以表示为:, 其中表示第个事件的时间,表示来自离散集合中的相应事件类型。目标是基于前一个事件的历史,预测下一个事件的开始时间和类型概率。
TPP中的关键功能是条件强度函数 ,它定义了在时间和历史条件下,类型的事件的瞬时发生率。
正式定义如下:
表示截至时间之前的事件历史,是表示在时间之前发生的事件数的计数过程。这个强度函数提供了在历史的条件下,在时间内预期发生的事件的数量。联合概率密度表示在时间具有类型的下一个事件发生的可能性,在历史的条件下。它表示为:,其中积分表示在最后的事件和当前时间之间没有发生任何事件,捕捉到事件的时间和类型依赖关系。
为了评估一个 Token 时间序列潜在模型(TPP)对观测数据的拟合度,通常使用对数似然函数。在 Token TPP下观察到一个事件序列的对数似然性可以表示为:
首先,我将原文中的英文翻译为简体中文:
在观测到的过程中,第一个项求和,第二个项在时间上积分并考虑所有可能的事件类型k,以反映在观测之间没有事件发生的可能性。
请注意,翻译后的内容已经忠实于原文,同时保持了学术论文的专业性和格式。
Neural Temporal Point Processes
近年来TPP的进步引入了基于神经的网络模型,这些模型利用深度学习的表示能力来捕获复杂的事件序列。这些模型通常使用神经网络来参数化条件强度函数,从而使他们可以直接从数据中学习时间依赖性和事件类型分布。
在神经时间平行的过程中,对于每个事件,通过基于事件时间和事件类型的嵌入层计算一个嵌入向量。
然后,将当前事件的嵌入向量和先前的隐藏状态相结合,更新隐藏状态:,其中是一个神经网络,通常实现为循环神经网络(RNN)(Hochreiter,1997)或更先进的注意力机制(Vaswani等人,2017)。更新后的隐藏状态用于从条件概率分布中采样下一个事件时间和事件类型:。
不同的神经时间平行的模型使用各种架构来定义状态更新函数。早期的方法使用RNN来捕捉事件之间的时间依赖性,而更近期的模型用注意力机制替换了循环结构,允许进行更好的长程交互。这些基于神经的方法增强了时间平行的灵活性,从复杂的数据集中以数据驱动的方式学习事件依赖性。
4 Methodology
在本节中,作者介绍了一种名为TPP-LLM的框架,该框架利用大型语言模型(LLM)来模拟时间点过程(TPP)。TPP-LLM如图1所示,它将预训练的LLM集成起来,以捕捉事件类型的语义丰富性,并使用时间嵌入来处理事件序列的时间动态。
Event and Prompt Embeddings
TPP-LLM 模拟事件的序列 , 其中每个事件 包括一个时间 和相应的事件类型 。与传统的 TPP 模型不同,TPP-LLM 直接使用预训练的 LLM 处理事件类型的文本描述,而无需使用离散的事件类型。这使得模型可以从事件文本中捕获更丰富的语义信息,同时学习时间依赖性。
事件类型 表示为一系列 Token (tokens)。令 为事件类型 的 Token 序列,其中 是 Token 事件类型的长度。每个 Token 通过预训练的LLM的嵌入层 (其中 是词汇量, 是嵌入维度)映射到实数向量 。除了事件类型表示外,TPP-LLM 还包含一个时间嵌入来捕捉时间动力学。每个事件时间 使用嵌入层 映射到一个时间嵌入 :,其中 可以是线性层或位置编码。在本研究中,作者使用时间位置编码:
其他编码方法(张等,2020;高和戴,2024)也可以应用。
为了模拟事件类型及其时间的联合动力学,作者将事件类型表示 与时间嵌入 相结合。对于每个事件 ,其 ConCat 表示为: 或 ,具体取决于事件类型和时间顺序。
除了特定事件的嵌入之外,作者还将一个 Prompt 作为一个 Token 序列,这个序列通过LLM的嵌入层被转换为嵌入:. Prompt 嵌入,以及拼接的事件类型和时间嵌入,形成了一个统一的嵌入序列:, 其中表示 Prompt 嵌入,表示一个事件的事件类型和时间嵌入。
History Vectors and Intensity Function
整个序列经过LLM后,可以得到每个 Token 的上下文隐藏状态:。处理后,作者提取每个事件最后一个嵌入向量的隐藏状态。例如,事件的隐藏状态。选择的隐藏状态表示事件历史直到时间(包含):。这些历史向量随后用于建模TPPs。
在作者的模型中,强度函数通过历史向量参数化,该向量编码了从初始时间到时间的事件历史。为了计算在时间和之间的强度函数,作者对隐藏状态应用线性变换。对于事件类型,强度函数(Zuo等人,2020;高和戴,2024)被建模为:
λk(t|HT) = λ(t,k|HT) = fk(αk(t - ti) + ωkTi+bk), (4) 其中,fk = log(1 + exp(x)) 是软plus函数,αk∈R,ωk∈R^H,bk∈R 是可学习的参数。软plus激活确保强度函数非负。
Event Prediction
对于每个事件,来自LLM输出的历史向量编码了事件历史,其中既包括事件类型,也包括从时间到当前时间的动态信息。遵循之前的研究(Zuo等人,2020;高和戴,2024),作者利用这个隐式表示,通过单独的层来预测下一个事件类型和时间。
为了预测事件类型,作者对隐状态应用线性层和softmax激活,将其映射到可能的事件类型概率分布:,其中和是线性层的权重和偏置,是事件类型数量,是隐状态维度。预测的事件类型是具有最大概率的事件类型:。同样地,为了预测下一个事件时间,作者对隐状态应用另一个线性层,得到一个表示下一个时间的标量值:,其中和是这个层的权重和偏置。
Fine-Tuning
为了高效地将预训练的LLM适应到TPP任务,作者采用了低秩自适应(LoRA)(胡等人,2021年)和参数高效的微调(PEFT)(刘等人,2022年)方法。作者不是微调LLM的所有参数,而是引入了低秩矩阵到LLM权重。具体而言,作者修改了一个目标模块的权重矩阵:,其中是原始权重,和是可学习的低秩矩阵。仅通过微调这些低秩矩阵,作者可以显著减少可训练参数的数量,从而在不降低性能的情况下提高适应性。除了LoRA之外,其他PEFT方法(刘等人,2022年;张等人,2023年)也可以应用于进一步优化微调过程。
为了同时调整LLM和额外的 Head 层,作者定义了一个包含观测事件对数似然度、事件类型预测损失和事件时间预测损失的联合损失函数。基于条件强度函数的方程2进行了调整:
在蒙特卡罗或数值积分方法下,非事件积分的计算是可行的(Zuo等人,2020)。事件类型损失的定义是真实和预测事件类型的交叉熵:,其中是 GT 的one-hot编码。事件时间损失的定义是真实和预测事件时间的均方误差:。
训练目标定义为所有序列的负对数似然度,以及事件类型和时间损失的总和:
β类型和β时间是事件类型和时间损失的系数。
5 Experiments
在本节中,作者提出了作者提出的TPP-LLM模型的实验评估。作者详细介绍了数据集、使用的 Prompt 、基准模型、实验设置、结果和消融分析。
Datasets
作者在五个真实世界的数据集上进行了实验:Stack Overflow,Chicago Crime,NYC Taxi Trip,U.S. Earthquake和Amazon Review。它们在表1中的统计数据如下。这些数据集涵盖了各种应用,并在之前的TPP研究中得到了广泛使用,因此它们非常适合评估作者的模型的性能。然而,由于目前可用的版本缺少TPP-LLM所需的事件类型文本,作者对数据进行了预处理,包括这些关键的文本描述。这些多样化的数据集使作者能够评估模型在不同域间的泛化能力,处理长度不同的序列,事件类型和时间分辨率。更详细的信息请参见附录A。
Prompt Design
作者设计了 Prompt ,为模型提供结构化的指导,帮助其有效地理解和处理任务及事件序列。 Prompt 中包括关键的细节信息,如事件类型的具体细节,以便模型能够专注于需要处理的关键部分进行准确预测。 Prompt 的一般结构如下: "{Sequence Description} {Event Description} {Task Description}" 其中任务描述针对预测任务进行定制。当事件类型在嵌入序列中出现在时间之前时,任务被描述为: "根据这个序列,预测下一个事件类型和对应的时间。" 另一种情况是,当事件时间首先出现时,任务变为: "根据这个序列,预测下一个事件时间和对应的事件类型。" 作者在实验中使用的数据集的具体序列和事件描述,列在附录C中。
Baselines and Evaluation Metrics
作者将作者的模型TPP-LLM与几个最先进的(SOTA) Baseline 进行比较,以评估其在不同任务上的性能。 Baseline 包括神经哈kes过程(NHP)(Mei和Eisner,2017),自注意力哈kes过程(SAHP)(张等,2020),变换哈kes过程(THP)(左等,2020),以及注意力的神经哈kes过程(AttNHP)(杨等,2022)。这些模型代表了神经TPP建模的前沿方法。 Baseline 的详细描述见附录B。
为了评估模型性能,作者使用了以下评估指标:对数似然值衡量模型如何拟合观察到的序列 ,计算公式为 5,使用强度函数。
准确率 用于评估事件类型预测的准确性,衡量正确预测的事件类型的比例:准确率 ,其中 是真实的事件类型, 是预测的事件类型, 是指示函数。
均方根误差(RMSE) 用于衡量预测事件时间误差。它计算如下:,其中 是真实的事件时间, 是预测的事件时间。
Experimental Setup
作者使用两个基础模型进行TPP-LLM实验:TinyLlama-1.1B-Chat-v1.0(张等人,2024a)和Gemma-2-2B-IT,两者都被量化到4位精度(Dettmers等人,2024),以提高GPU内存使用效率。为了捕捉时间动态,作者使用时间位置编码(Zuo等人,2020),首先处理事件类型嵌入,然后处理每个事件的时间嵌入。
对对数似然中的非事件积分项,作者使用蒙特卡罗积分(Zuo等人,2020)处理,每个时间间隔使用20个样本,在各模型中保持一致。
在微调中,作者采用LoRA(Hu等人,2021),通过调整注意力模块的权重矩阵,带有dropout但无偏置。Adam优化器(Kingma,2014)用于优化LoRA层和预测层。在EasyTPP框架(Xue等人,2023a)中实现的 Baseline 被使用,其超参数进行了调整以进行公平比较。实验结果在五个带有早期停止的运行中平均,附加的超参数请参见附录D。
在 Baseline 中,作者使用单个NVIDIA A10或A100 GPU,而在TPP-LLM中使用单个H100 GPU。
Experiment Results
作者在五个真实世界数据集上评估了TPP-LLM与基准之间的性能。其中包含两个TPP-LLM模型:TPP-Llama(TinyLlama-1.1B-Chat-v1.0)和TPP-Gemma(Gemma-2-2B-IT)。
对数似然性能。在对数似然性(表2)方面,TPP-LLM模型(TPP-Llama和TPP-Gemma)在大多数数据集上表现出竞争力的性能。TPP-Llama在Stack Overflow上表现最佳,而AttNHP在芝加哥犯罪、纽约出租车行程和亚马逊评论等数据集上超越了所有模型。
然而,TPP-LLM模型在大多数数据集上仍然表现强劲,除了美国地震数据集,在那里SAHP获得最高分。这些结果突显了TPP-LLM有效模拟复杂事件序列的能力,尤其是在LLM捕获事件语义方面受益匪浅。尽管在某些数据集上表现不如其他模型,但TPP-LLM模型总体上仍然具有很高的竞争力。
事件类型预测准确率。对于下一事件类型预测准确率(见表3和图2),TPP-LLM在所有数据集上都优于或等于 Baseline 性能。TPP-Llama在Stack Overflow和Amazon Review上达到最高准确率,而TPP-Gemma在NYC Taxi Trip和U.S. Earthquake上表现出色。
两种变体在其他 Baseline 中取得了显著的改进,特别是在处理像Stack Overflow和Amazon Review这样的数据集时,LLM可以利用丰富的event-type语义来提高预测准确率。这突显了TPP-LLM将事件文本信息集成到预测过程中的能力,相比传统TPP模型具有明显的优势。
事件时间预测RMSE。在评估下一个事件时间预测(表3和图3)时,TPP-LLM再次展现出强大的性能。TPP-Gemma在Stack Overflow,NYC Taxi Trip和Amazon Review上的RMSE最低,而TPP-Llama在Chicago Crime上的表现最佳。
两种变体在很大程度上超过了 Baseline ,特别是在Stack Overflow,Chicago Crime和Amazon Review等时间模式较少的数据集上。这表明TPP-LLM中的基于LLM的时间嵌入有效捕捉了时间动态,从而导致更准确的事件时间预测。
总体而言,TPP-LLM在所有数据集上都表现出强大的性能和一致性。包括事件文本处理和理解,LLM的引入使得模型能够利用更丰富的上下文信息,从而提高事件类型预测的准确性。
此外,时间嵌入的集成有助于捕捉复杂的时间依赖关系,这在事件时间预测的模型强大RMSE性能中得到体现。结果证实,TPP-LLM是一种有效和适应性强的模型,适用于各种TPP任务,在实际场景中实现领先性能。
Few-Shot Learning
在仅使用训练数据的2%的少量实验中,TPP-LLM模型(TPP-Llama和TPP-Gemma)在各个数据集上表现出色。在对数似然率(见表4)方面,TPP-Llama在Stack Overflow和Amazon Review上表现优异,而TPP-Gemma在NYC Taxi Trip上占据主导地位。AttNHP在Chicago Crime和U.S. Earthquake上表现最好,TPP-Llama在其余数据集上保持竞争力。
在下一事件类型准确性(见表5)方面,TPP-Gemma在Stack Overflow、NYC Taxi Trip和Amazon Review上占据主导地位,TPP-Llama在U.S. Earthquake上位居首位。与NHP和SAHP等 Baseline 相比,TPP-LLM模型在少量数据场景下具有显著优势,有效利用预训练知识。
这些发现突显了TPP-LLM在少量数据场景下的强大适应性,有效地利用了预训练知识。
Ablation Studies
为了理解TPP-LLM中不同组件的贡献,作者进行了一系列的消融研究。通过系统性地移除或更改模型中的关键部分,作者分析每个元素如何影响整体性能,并确定哪些配置能够获得最佳结果。
5.7.1 Foundation Models
表格6中的性能比较显示了不同LLM对TPP-LLM性能的影响。TinyLlama-1.1B-Chat-v1.0和TinyLlama-1.1B-Intermediate在对数似然度和精确度得分上相似,但Chat在Stack Overflow和U.S. Earthquake的下一个事件类型预测上略胜一筹。Gemma-2-2B-IT在NYC Taxi Trip和U.S. Earthquake的事件时间预测上实现了最佳RMSE,突显了其在建模时间动态方面的优势。总体而言,TinyLlama和Gemma表现出色,各自在不同的指标上脱颖而出。各模型的一致性能强调了TPP-LLM的稳健性。
5.7.2 Temporal Embeddings
如图7所示,嵌入类型和顺序的选择会影响模型性能。位置编码在大多数指标上通常优于线性嵌入。当事件时间嵌入首先处理时,位置编码实现了最佳的事件类型预测准确性和有竞争力的RMSE值。
线性嵌入也表现良好,当事件时间首先出现时,其对美国地震的log-likelihood最佳。结果表明,在处理类型之前处理事件时间可以提高事件类型预测,而将时间放在最后可以提高时间预测准确性。这些发现突出了模型设计中嵌入顺序的重要性。
5.7.3 Prompt Settings
表8显示,使用结构化 Prompt (用“Y”表示)通常可以提高Stack Overflow上TinyLlama模型对对数似然分数,尽管省略 Prompt (用“N”表示)在事件类型预测的准确率上略有提高,尤其是在美国地震上。
RMSE结果参差不齐, Prompt 在Stack Overflow上提供较小优势,而在美国地震上没有优势。虽然 Prompt 可以带来适度的对数似然收益,但它们对准确率和RMSE的影响不一致。然而,添加 Prompt 可以提高模型的灵活性,特别是对于多任务场景。
5.7.4 Fine-Tuning Settings
表9和图4说明了不同LoRA排名配置对性能的影响。在仅训练 Head 层的情况下,模型在对数似然率(log-likelihood)和准确率(accuracy)上出现了显著的下降,这突显了需要调整预训练的LLM(语言模型)。
较高的LoRA排名通常可以提高结果,其中32位排名在美国地震数据集上实现了最高的准确率和对数似然率,而较低的排名在对数似然率和事件时间预测方面表现良好。使用LoRA进行微调可以持续提高性能,较高的排名对于更复杂的任务更有利,而较低的排名在计算成本较低的情况下可以提供具有竞争力的结果。
6 Conclusion
在本文中,作者提出了TPP-LLM,这是一个利用大型语言模型(LLMs)预训练知识来建模时间点过程(TPP)的新颖框架。通过将LLMs与时间嵌入相结合,作者的方法有效地捕获了复杂事件序列的事件语义和时间动态。
通过在真实世界数据集上的广泛实验,作者证明了TPP-LLM在序列建模和下一事件预测方面超过了最先进的 Baseline 。
此外,作者的消融研究揭示了基础模型、时间嵌入、 Prompt 设计和微调策略对整体性能的贡献。TPP-LLM在多种数据集和任务上的鲁棒性突显了其在TPP建模方面的更广泛应用潜力。
未来的工作可以探索其他微调技术和嵌入策略,并将此方法扩展到多任务设置。