从被动检索到主动探索：LATTICE让LLM像导航员一样在文档海洋中智能搜索 - 文章 - 开发者社区

论文标题：LLM-GUIDED HIERARCHICAL RETRIEVAL

论文链接：https://arxiv.org/pdf/2510.13217

picture.image

一、研究背景

任务定义与研究动机

现代信息检索系统正面临越来越复杂的挑战。用户的查询不再是简单的关键词匹配，而是需要深度推理的复杂问题。比如，用户可能会描述一个代码bug的行为来寻找解决方案，或者询问需要应用特定定理的数学问题。

目前基于LLM的信息检索主要有三种范式，但都存在明显缺陷：

检索后重排序（Retrieve-then-Rerank） ：先用便宜的检索器获取候选文档，再用强大的LLM重新排序。问题是如果初始检索阶段漏掉了关键文档，再好的重排序也无法挽回。
生成式检索（Generative Retrieval） ：直接用LLM生成答案。参数化方式容易产生幻觉且难以更新；长上下文方式把整个语料库放入LLM上下文中，计算成本过高。
长上下文方法 ：对于大规模文档库，自注意力机制的二次/超线性复杂度导致成本和延迟都无法接受。

picture.image

图1展示了LATTICE在不同数据集上的性能表现

核心贡献

本文提出了LATTICE（LLM-guided hierarchical retrieval） 框架，主要创新点包括：

对数复杂度的搜索 ：通过将文档库组织成语义树结构，搜索复杂度降为对数级别（相对于文档数量）
两阶段设计 ：

离线阶段：将文档集合组织成语义层次结构
在线阶段：LLM在树上进行智能导航搜索

校准的路径相关性评分 ：解决了LLM判断噪声大、依赖上下文、不了解层次结构等问题，能够跨分支和层级进行全局一致的搜索
优异的零样本性能 ：在BRIGHT基准测试上（语料库规模高达420K），Recall@100提升最高达9%，nDCG@10提升最高达5%

picture.image

图2展示了LATTICE框架的整体流程

二、相关工作梳理

1. LLM在信息检索中的应用

检索-重排序范式 ：这是当前主流方法，LLM主要作为强大的重排序器使用，可以是逐点打分或列表式排序。但整体性能受限于初始检索质量。在检索阶段，LLM越来越多地作为密集嵌入模型的骨干网络，但这需要调整其自回归架构用于表示学习。

生成式范式 ：

可微搜索索引（DSI） ：将IR重构为序列到序列任务，直接从查询映射到文档标识符。虽然概念优雅，但在扩展性和索引更新方面存在挑战。
长上下文检索 ：将整个语料库放入LLM上下文窗口，但对于中等规模应用仍然计算成本过高。

2. 层次化检索

向量层次结构 ：长期以来用于提高大输出空间任务的计算效率，如语言建模中的层次化softmax、极端多标签分类中的树方法。在向量搜索中，HNSW算法使用多层图进行高效的近似最近邻搜索，但这种层次结构是几何的而非语义的。

文本层次结构 ：RAPTOR等模型通过自底向上递归聚类和摘要来构建语义层次结构。但RAPTOR依赖传统的基于嵌入的相似性搜索来遍历树。本文的根本区别在于 ：在在线检索阶段使用LLM作为主动遍历代理，通过上下文推理在每个节点决定最优路径。

3. 智能体式和推理式IR

预处理步骤中的推理 ：常见方法是通过查询扩展（QE）融入推理，LLM在查询传递给标准检索系统之前丰富查询内容或生成思维链分析。但这将推理视为离散的预检索步骤，核心搜索机制保持不变。

智能体框架 ：将检索概念化为多步骤、目标导向的过程。但当前实现通常是LLM代理调用外部黑盒搜索工具，其成功取决于工具的有效性。类似地，Graph-RAG利用LLM对预结构化知识图谱进行推理，但LLM从图中检索信息的角色有限。

本文的深度融合 ：将推理代理更深入地集成到检索过程本身。LLM不仅是预处理器或工具调用者，而是核心搜索机制——是一个以语料库语义树为环境的智能体。树提供必要的脚手架，约束代理的动作空间使搜索可行，而代理的推理能力支持智能遍历决策。

picture.image

图3展示了真实查询的搜索过程示例

三、核心方法

1. 问题设定与符号定义

给定一个包含

个文档的大规模语料库

和一个复杂的自然语言查询

，目标是检索一个排序的相关文档列表

。

核心组件 ：

语义树 ：语料库组织成树结构

，有单一根节点

**节点

**：分为叶节点

（对应文档）和内部节点

（代表文档簇）

**边

**：有向边集合，

表示

是

的父节点，

表示节点

的所有子节点

**节点表示

**：每个节点有文本表示。叶节点是文档内容，内部节点是LLM生成的子节点摘要

**搜索LLM

**：列表式评分函数，给定查询

和

个候选节点，返回评分列表：

其中

，分数越高表示偏好越强。

2. 在线LLM引导的层次化搜索

这是整个系统的核心挑战。LLM的相关性判断存在以下问题：

噪声性 ：推理链的不确定性导致评分不稳定
上下文依赖 ：节点得分取决于同时评估的其他选项
层次不感知 ：难以比较不同分支或层级的节点

解决方案 ：算法通过预测路径相关性得分

，将这些噪声局部信号转换为全局一致的信号。

算法流程 （见Algorithm 1）：

步骤1：初始化

创建优先队列 Frontier (F)，初始化根节点，设置
初始化预测集 Pred（存储候选叶节点）和评分历史 ScoreHistory

步骤2：波束扩展

运行

轮迭代，每轮从前沿

中选择路径相关性最高的

个节点进行扩展

步骤3：带校准的候选集构建

对每个待扩展节点

，构建评估候选集，包含其子节点

和增强集

：

如果子节点是内部节点：

包含

的最高分兄弟节点（跨分支对比）

如果子节点是叶节点：

包含

个从 Pred 中采样的叶节点（与已找到的最佳候选锚定）

图4显示了交叉分支校准参数的影响

步骤4：潜在分数估计与路径相关性更新

这是关键创新。算法将观察到的分数建模为潜在相关性分数的线性变换：

其中

是全局尺度参数，

是每个候选集的偏差参数。

通过最小化均方误差（MSE）求解最大似然估计（MLE）：

得到潜在分数后，更新路径相关性：

这里

是动量参数，平衡父节点的历史信息和当前节点的局部评分。

步骤5：终止

运行

轮后，从 Pred 中返回按最终路径相关性排序的 top-K 文档

3. 离线树构建

目标是创建一棵树，其中每个叶节点通过单一路径连接到根节点，最大分支因子受限于

。

方法1：自底向上聚类与摘要

类似于RAPTOR的递归聚类摘要方法，逐层构建树：

组件需求 ：

嵌入函数

：将文本映射到

维向量（实验中使用Gecko嵌入）

聚类函数

：将

个向量划分为

个簇，每簇不超过

个元素

构建流程 ：

初始层形成 ：

从零开始：对所有文档应用嵌入和聚类
利用元数据：对于StackExchange数据集，将同一源文章的段落分组

迭代聚类与摘要 ：

为当前层节点生成摘要
嵌入这些摘要并聚类形成下一层

终止：当前层节点数 ≤

时，这些节点成为根节点的子节点

方法2：自顶向下分裂聚类

类似于层次化k-means，从包含整个语料库的单一簇开始递归划分。

核心创新 ：使用LLM作为更强大的聚类函数。由于无法将整个语料库提供给LLM，引入预处理步骤——层次化摘要 ：为每个叶节点生成5个不同复杂度级别的摘要

（从1-2词到更长）。

构建流程 ：

初始化：工作队列包含根节点，其子节点初始为所有叶节点
递归划分：

为待划分节点选择合适的摘要级别
将唯一摘要提供给LLM，提示其分组为

个概念主题

节点创建：

LLM返回每个主题的描述和摘要到主题的映射
创建

个新内部节点，分配叶子后代

终止：队列为空时，所有内部节点满足分支因子约束

四、实验效果

1. 实验设置

picture.image

基准数据集 ：BRIGHT基准——12个推理密集型检索任务的集合，包括StackExchange、Leetcode、TheoremQA等，涵盖生物学、经济学、编程、数学等领域。

评估指标 ：

nDCG@10 ：评估前10个结果的排序质量
Recall@100 ：衡量前100个结果中的召回全面性

对比基线 ：

SOTA系统 ：DIVER-v1/v2、RaDeR、ReasonRank、ReasonIR（针对BRIGHT训练的专门化模型）
受控重排序基线 ：XRR2（BM25 + 用Gemini-2.5-flash重排序），使用相同的基础LLM确保公平比较

实现细节 ：

LLM：Gemini-2.5-flash
路径相关性动量：
迭代次数：
波束大小：
每个查询评估约250个文档
最大分支因子：
完全零样本 ：无微调，无集成

2. 主要性能表现

排序性能（nDCG@10）

在7个StackExchange数据集（使用静态语料库）上：

LATTICE平均nDCG@10 ：51.6
受控重排序基线 ：47.4
微调的SOTA（Diver-v2） ：52.2

LATTICE的零样本性能与微调的SOTA高度竞争 ，在Economics和Robotics等子领域甚至达到最佳结果。

召回性能（Recall@100）

平均Recall@100表现：

LATTICE ：74.8%（最高）
ReasonIR-8B （微调）：70.8%
BM25 ：65.3%

在7个领域中的4个达到最高召回率，包括Economics和Psychology。

表1展示了各方法在BRIGHT基准上的详细性能对比

关于动态语料库的说明 ：

在3/5个编码和定理类任务（LeetCode、AoPS、TheoremQ）上，LATTICE性能明显低于基线。原因是这些任务使用查询相关的动态语料库 ——每个查询排除一个唯一的大文档列表（可能>10K）。虽然可以在查询时剪枝被排除的叶节点，但预计算的父节点摘要不会动态更新，导致摘要可能误导遍历。而检索-重排序流程可以简单地在检索后过滤被排除文档而不受惩罚。值得注意的是，大多数真实世界IR系统使用查询无关的语料库 。

3. 成本-性能分析

图1（右）展示了Robotics子集上的trade-off：

重排序基线 （BM25+rerank，ReasonIR-8B+rerank）：

随着top-k候选集增大，早期有收益但很快达到平台
需要处理大量无关候选的token

LATTICE ：

初始有一段平坦区域（遍历树层级的成本）
随后更有效地扩展——超越基线并持续改进到更高的nDCG
证明LLM引导的层次化遍历可以是更高效的计算资源使用方式

五、深入分析

1. 交叉分支校准的影响（

参数）

图4展示了在叶节点候选集中包含

个来自兄弟分支的高分节点的影响：

**无校准（

）** ：性能显著下降，随着更多搜索迭代无法改善

**性能随

一致增加** ：从

到

有显著提升

收益递减 ：

之后增益减小

结论：这种校准机制对有效搜索至关重要。

2. 方法组件的消融实验

表2展示了各组件的贡献：

| 配置 | 平均nDCG@10 | 性能下降 | | --- | --- | --- | | LATTICE完整方法 | 51.57 |

| | 无分数校准 | 49.36 | -2.21 | | 无路径相关性（

） | 48.62 | -2.95 | | 无推理（thinking_budget=0） | 49.33 | -2.24 |

关键发现 ：

路径相关性平滑最重要 ：去除后性能下降最大（-2.95）
LLM推理和分数校准都关键 ：各自去除都导致超过2.2的nDCG下降
所有组件协同工作 ：每个都对最终性能有显著贡献

picture.image

表2展示了消融实验的详细结果

3. 波束大小 vs. 搜索迭代次数

图5展示了在固定总节点扩展数（

）的预算匹配分析：

**（深度优先）：达到最高最终nDCG@10

**：次优但仍表现很好

和 **

**（宽度优先）：性能较低

结论：在固定计算预算下，优先考虑搜索深度（更多迭代）而非广度（更大波束）更好 。这验证了使用小波束（

）配合适度迭代次数的选择。

picture.image

图5展示了不同波束大小配置的性能对比

4. 树构建策略的影响

picture.image

表3比较了两种树构建方法在两个代表性数据集上的表现：

Biology数据集 （由较大源文档的段落组成）：

自底向上方法：nDCG@10 = 64.38，R@100 = 87.53
自顶向下方法：nDCG@10 = 55.22，R@100 = 67.31
自底向上优势超过9个点

TheoT数据集 （高层主题下的独立文档集合）：

自底向上方法：nDCG@10 = 35.89，R@100 = 61.82
自顶向下方法：nDCG@10 = 47.85，R@100 = 73.91
自顶向下优势近12个点

关键洞察 ：将树构建方法与语料库的底层结构对齐对零样本性能至关重要 。

自底向上方法更适合有部分-整体关系的数据
自顶向下方法更擅长发现独立文档间的潜在概念簇

六、论文总结

主要成就

范式创新 ：提出了LLM原生的检索系统，LLM不再只是检索管道的附加组件，而是深度集成在搜索过程中
算法贡献 ：

设计了鲁棒的LLM引导搜索算法，能处理噪声判断
提出路径相关性评分机制，实现全局一致的层次化搜索
对比了两种树构建策略，揭示了与数据结构对齐的重要性

性能突破 ：

在推理密集型BRIGHT基准上达到SOTA零样本性能
Recall@100提升最高9%，nDCG@10提升最高5%
零样本结果与高度专门化的微调方法竞争

效率优势 ：证明了在某些情况下，引导式层次化遍历比重排序长列表更高效地使用LLM计算预算

系统特点

优势：

对数复杂度的搜索效率
推理与检索的深度融合
完全训练无关（training-free）
易于更新和维护（相比参数化方法）

局限性 ：

对动态语料库的处理还需改进
树构建策略需要根据数据特性选择
初始遍历阶段存在平坦开销

七、值得思考的问题与优化方向

1. 动态语料库的挑战

问题：当前方法在查询相关的动态语料库上表现不佳，因为预计算的节点摘要不会动态更新。

可能的解决方案 ：

开发增量摘要更新机制，能够快速调整受影响节点的表示
探索在线摘要生成策略，在查询时动态生成节点表示
设计混合方法，结合预计算摘要和查询时调整

2. 树结构的自适应优化

问题：树构建策略需要根据数据集特性手动选择。

研究方向 ：

开发自动化的树结构选择机制，基于语料库特征自动选择构建策略
探索混合树结构，在不同层级使用不同的构建方法
研究在线树调整算法，根据查询模式动态优化树结构

3. 校准机制的理论基础

问题：当前的线性变换校准模型是启发式的，缺乏深入的理论分析。

探索方向 ：

建立更严格的概率模型来描述LLM评分的噪声特性
探索更复杂的校准函数（非线性变换、神经网络校准器）
研究不同LLM的评分特性，设计模型特定的校准策略

总体而言 ，LATTICE代表了信息检索领域的重要进展，展示了LLM作为主动搜索智能体的潜力。通过将推理能力深度集成到检索过程中，该方法为未来的IR系统开辟了新的可能性。随着LLM技术的不断进步，这种范式有望成为下一代智能检索系统的基础。