大语言模型时代的聚类怎么做？哪种embedding算法和聚类算法最有效？

发布时间：2024年03月22日

LLM应用 文本处理 数据挖掘

面对不断膨胀的数字内容，文本聚类作为一种关键的组织手段，有助于揭示未经分类数据的结构和潜在规律。本次研究重点探索了各类文本嵌入方式——特别是大型语言模型(LLMs)中采用的嵌入，以及不同的聚类算法如何影响文本数据集的聚类效果。通过一系列实验，我们考察了嵌入方式如何左右聚类结果，摘要技术带来的维度降低作用，以及调整嵌入尺寸的影响。研究结果显示，LLM嵌入在精准捕获结构化语言微妙特性方面表现出卓越能力，而在轻量级方案中，BERT则以优异性能脱颖而出。另外，我们还发现在提升聚类效率上，一味增大嵌入维度或依赖摘要技术并非万全之策，这提示我们在实际模型应用时需审慎分析这些策略。这一系列研究结果强调了在文本聚类应用场景下，精细化文本表征需求与计算可行性的微妙权衡关系。通过融入LLMs的嵌入技术，我们的研究拓展了传统文本聚类框架，为优化方法论指引方向，并为未来各类文本分析领域的深入研究开辟了崭新路径。

概览

这篇文章对比利用embedding方法对文本进行聚类时，各种策略组合效果的对比。这个对比在大语言模型时代还是非常有意义的，也有很多类似的场景。

作者从以下几个方面对聚类方法进行了对比：

picture.image

1. 文本嵌入比较 ：研究比较了不同的文本嵌入方法，特别是LLMs的嵌入，以及它们如何影响文本数据集的聚类结果。对比了比如：TF-IDF、Bert、OpenAI、Falcon、LLaMA-2这几个模型的embedding方法。

picture.image

1. 聚类算法评估 ：文章使用了多种聚类算法，包括：K-means、AHC(agglomerative hierarchical clustering)、Fuzzy、Spectral等。

picture.image

1. 评估指标 ：为了全面评估不同嵌入和算法组合的质量，文章使用了多种外部和内部验证指标，如加权F1分数（F1S）、调整兰德指数（ARI）、同质性分数（HS）、轮廓系数（SS）和卡利斯基-哈拉布兹指数（CHI）。

通过这些方法，文章旨在揭示在文本聚类应用中，如何平衡对文本表示的细微捕捉和计算可行性之间的复杂关系。研究结果表明，虽然LLM嵌入在捕捉结构化语言的细微差别方面表现出色，但在实际应用中，需要仔细分析和选择合适的嵌入和聚类策略，以实现最佳的聚类效率。

测评结果

结果表明，OpenAI的embedding在结构化、正式文本的聚类性能上表现最好。k-means算法与OpenAI embedding的结合在大多数实验中得到了最高的调整兰德指数（ARI）、F1分数和同质性分数（HS）。可能是因为OpenAI的embedding是在更大的互联网文本上训练的，更加有效地捕捉语言结构的细微差别。对于同一算法，轮廓系数（SS）和卡利斯基-哈拉布兹指数（CHI）的低值可能表明，尽管聚类是同质的且与真实标签紧密对齐（表明良好的类别分离和聚类纯度），但它们在几何空间中可能没有很好地分离或紧凑。

在开源模型领域，Falcon、LLaMA-2和BERT中，BERT模型是效果最好的。鉴于BERT旨在理解上下文，可能还因为模型的较低维度，这些嵌入在文本聚类中表现出良好的效果。

在开源大型语言模型（LLM）嵌入的比较分析中，Falcon-7b在大多数数据集上超过了LLaMA-2-7b，显示出更好的聚类质量和区分度。这种优势可能归因于Falcon-7b嵌入更好地捕捉文本中的显著语言特征和语义关系的能力，因为这些嵌入是在文本和代码的混合语料库上训练的，与专门针对对话和问答上下文的LLaMA-2嵌入形成对比。

Arxiv[1]

引用链接

[1] Arxiv: https://arxiv.org/abs/2403.15112