太牛了，韩国某大学利用分层检索策略提升上市公司年报RAG准确率455% - 文章 - 开发者社区

太牛了，韩国某大学利用分层检索策略提升上市公司年报RAG准确率提升455%

发布时间：2025年05月26日

智能金融

如遇无法添加，请+ vx: iamxxn886

1 RAG技术在公司年报问答的应用

大型语言模型（LLM）驱动的检索增强生成（RAG）技术大幅提升了知识密集型任务的性能。凭借其提升事实准确性与时效性的双重优势，该技术已在金融信息检索领域引发研究热潮——该领域对信息精准度和时效性要求极高的决策场景。

以上市公司年报（10-K）为代表的金融文档具有高度标准化特征：

跨公司、跨年度的统一模板中，相似表格与重复叙述屡见不鲜。

picture.image

如上图所示，亚马逊、Meta和沃尔玛2023年的10-K报告，其表格结构宛如复制粘贴，仅数值存在差异。当被问及"2023年亚马逊与沃尔玛营业利润率差异"时，传统RAG系统往往陷入"找不同"困境，检索出大量雷同内容，导致答案失准。

为此，韩国汉阳大学团队提出HiREC框架（Hi erarchical R etrieval with E vidence C uration）大幅提升了在年报问答领域的RAG准确率。

什么是HiREC框架

picture.image

如上图所示，该框架包含两大核心模块：

1.层级检索：采用分层策略精准抓取与问题

2.1 分层检索

上市公司年报是一种标准化文档，标准化文档往往采用统一模板，结构重复且内容相似 ，使得精准检索相关段落颇具挑战。

HiREC框架采用分层解决方案：先筛选与问题相关的文档缩小范围，再精筛文档中的关键段落。

2.1.1 文档检索器

标准化文档信息量大但格式统一，单向量难以捕捉所有关键细节。

为此，特别提取并索引区分性特征 。

以财务报告为例，封面页 的公司名称、报告类型和财年等信息至关重要。

对每个文档，先用LLM生成封面摘要d'（提示模板见论文原文），通过双编码器预计算嵌入向量，存入文档库。

检索流程：

1.查询优化：用LLM将原始问题q转化为精炼查询q'，消除股票代码等干扰术语的影响
2.向量检索：使用相同双编码器计算q'的向量v_q'，通过相似度评分筛选出k_D'个候选文档
3.精准排序：采用交叉编码器重排候选文档，最终保留与问题最相关的k_D篇文档

2.1.2 段落检索器

在已筛选文档中，通过交叉编码器C评分，精选k_P个核心段落。

这种设计既保证实时性，又充分发挥交叉编码器捕捉句间关系的优势。

针对财务表格的特殊性，进行了专项优化：

问题：通用模型难以识别表格中的标题、会计期间等关键特征
解决方案：使用FinQA数据集微调模型，其中表格作为证据单元
训练方法：对每个证据表格采样n_neg个负样本，采用二元交叉熵损失函数。

2.2 证据精修

金融问题常需跨时段或跨公司对比。即便检索到相关段落，关键信息仍可能缺失，且无关内容会干扰结果准确性。

为此，设计了证据精修流程：通过三重过滤机制剔除噪声数据，并在信息不足时智能发起补充检索。包含：

智能去噪的段落过滤器
证据完备性评估器
缺口识别问答生成器

所有功能均由LLM单轮响应实现（提示模板见论文原文）。

2.2.1 段落净化工序

从原始检索集中剔除无关内容，输出精炼后的段落集。

系统会综合考量新增段落与历史有效段落——这一步骤直接影响LLM输出质量，任何噪声渗入都可能导致答案偏差。

2.2.2 证据完备性验证

对净化后的段落集进行充分性检验：达标则进入答案生成环节；若存在信息缺口，立即启动补充检索流程。

2.2.3 智能补全机制

深度扫描识别证据链缺失，动态生成补充查询

，为下一轮检索提供精准靶向。

2.3 答案生成

在答案生成阶段，系统以相关文本片段和原始问题为输入，通过智能推理得出最终答案。

针对数值计算类问题，采用程序化推理（PoT）方法
对于文本推理问题，则运用思维链（CoT）技术

这种双轨策略尤其适合处理数据密集的金融文档，既能解析复杂表格，又能确保推理严谨。

效果评估

3.1 哪个策略更好？

picture.image

如上表所示，HiREC在页面召回率和答案准确率上全面超越基线模型——页面召回率较次优模型Dense至少提升10%，答案准确率领先13%，印证了该方法在标准化文档检索中的卓越性能。

更惊艳的是，HiREC平均仅需检索3.7个段落，证明其证据筛选机制的高效性。

在文本类问题中，所有模型的答案准确率均反超页面召回率，说明大语言模型具备"检索不全却答得准 "的文本理解能力。但数值类问题依赖精密推理，表格类仍是公认难点。

3.2 消融实验

picture.image

上表展示了HiREC各组件移除后的页面精确率、召回率及答案准确率。

其中分层检索（HR）和证据整理（EC）为两大核心模块。未启用HR时相当于Dense方法与EC联用，未启用EC时则反映HR初始检索性能（kP=10）。

未微调场景下使用原始排序器以避免表格先验知识干扰。虽然性能微降，HiREC准确率仍领先Dense基线10%以上。即便Dense搭配微调排序器，其平均答案准确率仅30.55%，差距依然显著。

HR模块对提升检索精度至关重要，缺失时性能跌至谷底。值得注意的是，HR初始检索效果已优于"Dense+EC"组合。未启用EC的实验结果则印证了段落过滤器与互补问题生成器的协同效应。

EC加持下的HR系统在各项指标上全面跃升。未启用过滤器的对照实验表明：虽然互补组件能获得最高召回值，但其准确率不及完整版HiREC，原因在于未过滤的错误信息会产生干扰。

3.3 错误类型分析

picture.image

上图统计了HiREC与基线模型在公司/文档/页面三级错误率上的对比。HiREC凭借精准的公司识别能力，错误率最低，实现了文档与段落检索的双重准确。

3.4 迭代优化效果

picture.image

上图表明相比初始分层检索，迭代式证据整理（EC）在提升页面召回率与精确率的同时，显著降低了单查询处理量。随着迭代推进，检索效能持续增强。

3.5 检索效能

picture.image

上图曲线表明，当k值在1-50区间变化时，基线方法的召回率提升伴随精确率下降。HiREC则实现双重突破，其指标全面超越基线最佳值。

3.6 成本控制

picture.image

上表显示，通过在答案生成前过滤无关段落，HiREC以更少的token消耗和更低成本达成最优性能。

相比IRCoT，其智能过滤与问题生成机制使迭代效率提升显著。实验证明，轻量级LLM也能高效完成证据整理任务。

3.7 多模型生成器性能对比分析

深入评估了HiREC框架在不同大语言模型生成器上的表现。本次测试采用DeepSeek-R1-Distill-Qwen-14B和Qwen-2.5-7B-Instruct等开源模型替代GPT-4o作为生成器进行对比实验。

picture.image

上表数据显示，HiREC在不同规模的生成器上均保持领先的问答性能，展现出卓越的适应性。尤为亮眼的是，即便采用参数量更小的开源模型，HiREC方案仍能超越Dense基准线。其中HiREC+Deepseek-14B组合相较Dense+GPT-4o方案实现了超过9%的平均准确率提升。

在检索环节采用轻量化模型，既能维持优异性能，又可显著降低整体推理成本。

3.8 数据源性能对比

通过分析不同数据源，既评估了基准数据泄露风险，也验证了HiREC框架的稳健性。

picture.image

上表数据显示，HiREC在各数据源均保持领先优势。

所有方法（含HiREC）在SECQA子集表现稍逊，因其多文档问答特性需整合多方信息。表明LOFin基准因多文档场景更具挑战性，而基于检索证据的设计有效规避了数据泄露风险。

3.9 商业LLM与搜索引擎的较量

以SearchGPT和Perplexity为代表的商业系统，通过结合大语言模型与网络搜索来处理金融数据问题。

picture.image

上表显示，采用llama-3.1-sonar-large-

-online模型的Perplexity和使用GPT-4o的SearchGPT，在每类40题的测试中均被HiREC方案超越——尤其在数值计算方面，商业系统虽能抓取相关文献，却频繁丢失关键数据细节，导致计算精度不足。

论文原文: https://arxiv.org/abs/2505.20368
获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
加入社群，+v: iamxxn886