KG-HTC：让多级分类任务准确率飙升139% - 文章 - 开发者社区

发布时间：2025年05月08日

picture.image

如遇无法添加，请+ vx: iamxxn886

添加请注明 HTC

为什么要提出KG-HTC

文本分类作为自然语言处理的基础任务之一，目的在于为文本分配预定义类别。

其中，分层文本分类(H ierarchical T ext C lassification, HTC)通过多级标签体系将文本归类到具有层级关系的分类框架中，已广泛应用于电商分类、政务主题建模等场景。

picture.image

如上图所示亚马逊产品评论案例，一条评论可被逐级归类至"健康个护→家居用品→洗碗用品"的层级路径。

然而实际应用中，HTC面临三大问题：

多层级标注成本高昂，在动态场景(如电商新品上线)尤为突出；
标签体系规模庞大(如亚马逊评论含500+叶节点)；
数据呈现严重的长尾分布——亚马逊评论第三层级中15%的高频类别占据80%数据，而半数尾部类别仅占6%份额。

这些问题使得传统监督学习难以适用，推动零样本学习方法的发展。现有方案可分为三类：

Halder的论文将分类转化为标签空间的二值判断，但需多次LLM调用；
Bon giovanni等通过嵌入模型计算文本-标签相似度，并沿层级传播分数；
Paletto等结合LLM生成新标签层与嵌入分类。但这些方法对深层标签效果欠佳。

这篇论文提出了KG-HTC（K nowledge G raph），创新性地将知识图谱融入LLM实现HTC。

什么是KG-HTC?

2.1 系统架构

picture.image

上图展示了KG-HTC的完整工作流程：

存储阶段：将所有标签分别存入图数据库和向量数据库
检索阶段：根据输入文本，从向量库获取各层级l的候选标签Q^l，同时通过验证跨层级候选标签的父子关系，从图库提取有效子图
提示构建：将子图中的路径网络转化为结构化提示，并与分类指令拼接
分类执行：采用上下文学习技术实现零样本文本分类

2.2 层级标签存储方案

将所有标签分别存入图数据库和向量数据库。

在层级文本分类任务中，标签体系可抽象为有向无环图（DAG）知识图谱，各层级标签通过树状关联关系彼此联结。

通过清晰定义层级间的关联路径，大语言模型（LLM）能够结构化理解每个标签及其在分类体系中的概念边界。

picture.image

以上图为例，输入内容可能被归类为"洗碗"或"清洁剂"，但根据亚马逊产品评论数据集的分类体系，"清洁剂"属于"浴室洗护"的子类，其概念范畴应限定在"人体清洁用品"范围内。

LLM就能准确判定"洗碗"为正确分类。这种图式知识表达为LLM带来双重增益：

既为文本处理构建了明确的语义导航路径
又通过优化语义消歧，在零样本场景下形成可显著提升分类精度的拓扑约束

2.3 子图检索

检索增强生成（RAG）框架在开放问答任务中优势显著。面对层次文本分类（HTC）中标签体系庞大的核心挑战，RAG通过上下文相似性比对，从向量库动态抓取相关文档，大幅提升回答的准确性。

大语言模型处理长文本和大规模分类任务时存在瓶颈，容易因信息过载导致性能衰减。

为此，本文作者提出了RAG增强框架：根据输入文本实时检索知识图谱中的语义相关子树，将其转化为上下文提示，使分类器聚焦核心层级关系，过滤无关噪声。

picture.image

逐层计算文本嵌入与标签的余弦距离，筛选每层相似度超过阈值$的候选，并通过父子关系校验层级一致性——候选标签的父节点必须存在于上层候选集中。

2.4 子图到提示的智能转换

给定输入文本x，先用算法1提取子图G。

为了将知识图谱高效融入大语言模型，采用"图结构转路径集"策略——把每个子图序列化为从根节点到叶节点的层级路径。这种链式表达既保持了图结构特征，又完美适配大语言模型的序列输入要求。在层次分类任务中，路径长度正好对应分类体系的深度L。

picture.image

由于大语言模型无法直接解析图数据，设计了转换方案：用图中的路径作为理解推理的提示线索。通过自底向上的传播算法，系统会保留子图中所有有效的层级标签路径作为上下文提示。该算法以循环遍历的方式，从最底层的任一节点出发，沿着父节点指针溯源至根节点（如上图），再回溯探索其他分支，确保穷尽所有合法路径组合。

最终，会反转每条路径的节点顺序，使所有输出路径都保持从顶层到底层的统一方向。其中每条路径都代表一个连贯的节点序列。

用"→"符号连接相邻层级的节点，将子图路径转化为结构化提示。这种设计让大语言模型在分类时能自动感知层级约束。

2.5 层级分类方案

结合检索子图的结构化上下文与分类提示模板，通过上下文学习和提示工程驱动大语言模型（LLM）推理。

针对分层文本分类（HTC），设计逐层递进策略：模型先锁定首层标签，再层层深入直至最终层级。

根据先前的研究，面对海量候选标签的挑战时，只使用一个提示全量注入会导致性能滑坡。所以利用首层标签稀少性（评估集均≤10个），将其完整嵌入提示，既简化流程又提升精度。

深层分类时，模型将上层预测作为刚性约束——下一层候选集以子类为核心，搭配公式2检索的结果动态补全。

picture.image

既能消化前层预测误差，又显著增强整体分类的稳健性与准确度（如上图）。

3 效果评估

3.1 数据集

亚马逊产品评论（Amazon）

收录亚马逊平台商品评论，每条数据含标题与描述，需按三级分类体系标注（标签数分别为6、64、510）。

科学网（WoS）

聚焦科研文献，涵盖自然科学、社会科学、人文艺术等多领域数据，广泛应用于学术研究及文献分析。数据采用二级分类体系（标签数分别为7、134）。

**DBpedia **

基于维基百科构建的开放式知识库，通过结构化处理维基百科海量信息，形成支持跨域知识检索的复杂知识图谱。数据采用三级分类体系（标签数分别为9、70、219）。

3.2 评估指标

选用F1宏平均作为核心评估指标，通过计算各类别F1分数的算术均值得出。该指标赋予稀有类别同等权重，有效避免样本不均衡场景下的性能高估问题。其数学定义为：

picture.image

针对大规模标签空间与长尾分布的双重挑战，设计了平均衰减率指标。随着分类层级的深入，标签空间扩张与数据偏差加剧的问题可通过该指标量化：

picture.image

3.3 主要效果对比

picture.image

上表数据显示，KG-HTC方案在弱基线和强基线上均展现出稳定且显著的性能优势。

相较于单独使用GPT-3.5-turbo（弱基线）的零样本分类，KG-HTC实现了质的飞跃：一级分类平均提升27.1%，二三级分类更分别飙升123.1%和139.0%。这表明知识图谱与LLM的融合能大幅提升层次分类效果，且层级越深提升越显著，尤其在处理高阶抽象信息时优势明显，成功攻克了标签空间庞大和长尾分布等难题。

picture.image