发布时间:2025年05月08日
如遇无法添加,请+ vx: iamxxn886
添加请注明 HTC
- 为什么要提出KG-HTC
文本分类作为自然语言处理的基础任务之一,目的在于为文本分配预定义类别。
其中,分层文本分类(H ierarchical T ext C lassification, HTC)通过多级标签体系将文本归类到具有层级关系的分类框架中,已广泛应用于电商分类、政务主题建模等场景。
如上图所示亚马逊产品评论案例,一条评论可被逐级归类至"健康个护→家居用品→洗碗用品"的层级路径。
然而实际应用中,HTC面临三大问题:
- 多层级标注成本高昂,在动态场景(如电商新品上线)尤为突出;
- 标签体系规模庞大(如亚马逊评论含500+叶节点);
- 数据呈现严重的长尾分布——亚马逊评论第三层级中15%的高频类别占据80%数据,而半数尾部类别仅占6%份额。
这些问题使得传统监督学习难以适用,推动零样本学习方法的发展。现有方案可分为三类:
- Halder的论文将分类转化为标签空间的二值判断,但需多次LLM调用;
- Bon giovanni等通过嵌入模型计算文本-标签相似度,并沿层级传播分数;
- Paletto等结合LLM生成新标签层与嵌入分类。但这些方法对深层标签效果欠佳。
这篇论文提出了KG-HTC(K nowledge G raph),创新性地将知识图谱融入LLM实现HTC。
- 什么是KG-HTC?
2.1 系统架构
上图展示了KG-HTC的完整工作流程:
- 存储阶段:将所有标签分别存入图数据库和向量数据库
- 检索阶段:根据输入文本,从向量库获取各层级l的候选标签Q^l,同时通过验证跨层级候选标签的父子关系,从图库提取有效子图
- 提示构建:将子图中的路径网络转化为结构化提示,并与分类指令拼接
- 分类执行:采用上下文学习技术实现零样本文本分类
2.2 层级标签存储方案
将所有标签分别存入图数据库和向量数据库。
在层级文本分类任务中,标签体系可抽象为有向无环图(DAG)知识图谱,各层级标签通过树状关联关系彼此联结。
通过清晰定义层级间的关联路径,大语言模型(LLM)能够结构化理解每个标签及其在分类体系中的概念边界。
以上图为例,输入内容可能被归类为"洗碗"或"清洁剂",但根据亚马逊产品评论数据集的分类体系,"清洁剂"属于"浴室洗护"的子类,其概念范畴应限定在"人体清洁用品"范围内。
LLM就能准确判定"洗碗"为正确分类。这种图式知识表达为LLM带来双重增益:
- 既为文本处理构建了明确的语义导航路径
- 又通过优化语义消歧,在零样本场景下形成可显著提升分类精度的拓扑约束
2.3 子图检索
检索增强生成(RAG)框架在开放问答任务中优势显著。面对层次文本分类(HTC)中标签体系庞大的核心挑战,RAG通过上下文相似性比对,从向量库动态抓取相关文档,大幅提升回答的准确性。
大语言模型处理长文本和大规模分类任务时存在瓶颈,容易因信息过载导致性能衰减。
为此,本文作者提出了RAG增强框架:根据输入文本实时检索知识图谱中的语义相关子树,将其转化为上下文提示,使分类器聚焦核心层级关系,过滤无关噪声。
逐层计算文本嵌入与标签的余弦距离,筛选每层相似度超过阈值$的候选,并通过父子关系校验层级一致性——候选标签的父节点必须存在于上层候选集中。
2.4 子图到提示的智能转换
给定输入文本x,先用算法1提取子图G。
为了将知识图谱高效融入大语言模型,采用"图结构转路径集"策略——把每个子图序列化为从根节点到叶节点的层级路径。这种链式表达既保持了图结构特征,又完美适配大语言模型的序列输入要求。在层次分类任务中,路径长度正好对应分类体系的深度L。
由于大语言模型无法直接解析图数据,设计了转换方案:用图中的路径作为理解推理的提示线索。通过自底向上的传播算法,系统会保留子图中所有有效的层级标签路径作为上下文提示。该算法以循环遍历的方式,从最底层的任一节点出发,沿着父节点指针溯源至根节点(如上图),再回溯探索其他分支,确保穷尽所有合法路径组合。
最终,会反转每条路径的节点顺序,使所有输出路径都保持从顶层到底层的统一方向。其中每条路径都代表一个连贯的节点序列。
用"→"符号连接相邻层级的节点,将子图路径转化为结构化提示。这种设计让大语言模型在分类时能自动感知层级约束。
2.5 层级分类方案
结合检索子图的结构化上下文与分类提示模板,通过上下文学习和提示工程驱动大语言模型(LLM)推理。
针对分层文本分类(HTC),设计逐层递进策略:模型先锁定首层标签,再层层深入直至最终层级。
根据先前的研究,面对海量候选标签的挑战时,只使用一个提示全量注入会导致性能滑坡。所以利用首层标签稀少性(评估集均≤10个),将其完整嵌入提示,既简化流程又提升精度。
深层分类时,模型将上层预测作为刚性约束——下一层候选集以子类为核心,搭配公式2检索的结果动态补全。
既能消化前层预测误差,又显著增强整体分类的稳健性与准确度(如上图)。
3 效果评估
3.1 数据集
亚马逊产品评论(Amazon)
收录亚马逊平台商品评论,每条数据含标题与描述,需按三级分类体系标注(标签数分别为6、64、510)。
科学网(WoS)
聚焦科研文献,涵盖自然科学、社会科学、人文艺术等多领域数据,广泛应用于学术研究及文献分析。数据采用二级分类体系(标签数分别为7、134)。
**DBpedia **
基于维基百科构建的开放式知识库,通过结构化处理维基百科海量信息,形成支持跨域知识检索的复杂知识图谱。数据采用三级分类体系(标签数分别为9、70、219)。
3.2 评估指标
选用F1宏平均作为核心评估指标,通过计算各类别F1分数的算术均值得出。该指标赋予稀有类别同等权重,有效避免样本不均衡场景下的性能高估问题。其数学定义为:
针对大规模标签空间与长尾分布的双重挑战,设计了平均衰减率指标。随着分类层级的深入,标签空间扩张与数据偏差加剧的问题可通过该指标量化:
3.3 主要效果对比
上表数据显示,KG-HTC方案在弱基线和强基线上均展现出稳定且显著的性能优势。
相较于单独使用GPT-3.5-turbo(弱基线)的零样本分类,KG-HTC实现了质的飞跃:一级分类平均提升27.1%,二三级分类更分别飙升123.1%和139.0%。这表明知识图谱与LLM的融合能大幅提升层次分类效果,且层级越深提升越显著,尤其在处理高阶抽象信息时优势明显,成功攻克了标签空间庞大和长尾分布等难题。
上表表明:在WoS和Amazon数据集上,随着分类层级加深,KG-HTC的性能衰减最小,且与三类基线的差距持续拉大。再次验证了本方案在应对层次分类挑战时的卓越表现。
3.4 错误解析
Hit@K 指标反映检索器在前K个结果中命中正确答案的概率。
对Dbpedia和Amazon数据集采用 Hit@K(二级分类)和 Hit@40(三级分类),WoS数据集则使用 Hit@20 (二级分类)。
上表数据显示,RAG系统在误分类样本的二、三级 Hit@K 指标均呈现下滑趋势。
表明系统性能下降的主因是推理时未能捕获正确子图 ——当检索知识与输入文本或分类任务匹配不足时,模型缺乏精准推理所需的上下文支撑,从而更易产生误判。
此外,错误子图引入的噪声会进一步干扰模型的标签判别能力。这也预示着,随着信息检索技术(特别是精准检索相关领域)的发展,KG-HTC性能仍有提升空间。
3.5 消融实验
3.5.1 子图检索的增效作用
通过RAG引入知识图谱可显著增强LLM在层次文本分类(HTC)中的表现。移除原RAG系统的子图提取功能(其他模块保持不变),改为向LLM直接输入完整知识图谱(Full-KG方案)。
如上表所示,除一级分类外,KG-HTC的F1-macro指标全面超越Full-KG。这是因为一级分类标签较少,完整图谱能更清晰呈现标签语义关联;但随着标签维度增加,子图检索机制可帮助LLM精准抓取关键信息,有效规避长文本输入的性能衰减 。
3.5.2 开源模型的适配性
将基座模型从GPT-3.5-turbo替换为Qwen2.5-8b后(上表),KG-HTC在Amazon数据集一级分类外的场景均展现出性能提升,证实该方法对开源LLM具有优秀的泛化能力。
-
获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
-
加入社群,+v: iamxxn886
想加入【大语言模型人才交流】群的可以私信小仙女