新“大海捞针”实验？评估大模型是否能够进行时序分析 - 文章 - 开发者社区

时序特征对于做过推荐系统算法的传统机器学习的开发者来讲起多大的作用不言而喻。毫不夸张的讲，相较于一些基础特征，年龄、性别、偏好等远远不及最近几分钟，最近几小时这样的时序特征来的重要，它们曾一度是算法科学家的提升模型性能的“奇技淫巧”。到了大模型时代，大模型作为一个语言模型能够理解时间的意义吗？能否进行时序分析吗？这成为越来越多人关注的焦点。

大海捞针实验被Greg Kamradt提出后，现在已经是评估模型记忆检索能力的通用标准（延伸阅读：超长上下文窗口大模型的“照妖镜”——大海捞针实验，大模型“打假”必知必会）。最近针对上面热点问题的大模型时序分析性能测试的实验被Aparna Dhinakaran等人提出，并评测了当下最强模型claude 3 Opus和GPT-4的表现。这个实验类似于“大海捞针”的逻辑，就是在上下文中大量正常异常时间序列里插入一些异常的异常时间序列（比如尖峰或者低谷），要求大模型能够找到它们。

picture.image

具体设计如下：

实验面向一系列不同长度的上下文窗口。在每次测试中，都输入了 100 个时间序列，每个时间序列都代表了一个世界城市随时间变化的指标图（JSON 格式），要求 LLM 检测一个时间序列中的移动或增加。

picture.image

构造一个测试用例，通过迭代不同的上下文窗口大小，生成一组时间序列槽（slot）。具体为：

创建带有随机噪音的 JSON 格式时间序列数据
噪音可以是范围的 20-30%
测试高于噪音水平的单日数据增长百分比
测试延长异常天数和延长增长百分比
测试所需数学计算更简单的情况（预先计算标准偏差）
测试少量异常事件和大量异常事件

构造的prompt为：


          
You are an AI assistant for a data scientist. You have been given a time series dataset to analyze.
          
The dataset contains a series of measurements taken at regular intervals over a period of time.
          
There is one timeseries for each city in the dataset. Your task is to identify any anomalies in the data. The
          
dataset is in the form of a JSON object,
          
with the date as the key and the measurement as the value.
          
The dataset is as follows:
          
...

测试结果：

Claude 3 Opus对时间序列异常的识别能力优于其他所有模型。

Claude 3 Opus在以下测试case中的成绩分别为 85%、70%、90% 和 85%。

picture.image

GPT-4 在以下测试case中的成绩是分别为 45%、50%、45% 和 40%。

picture.image

异常检测一直是商业应用的一个重要场景，大模型的加入，给了大家一个新的选择。同时，大模型在时序场景的尝试也将越来越多，也必然会成为大模型差异化能力追逐的新热点。

后台回复“进群”可入群讨论。