太牛了,韩国某大学利用分层检索策略提升上市公司年报RAG准确率455%

大模型向量数据库机器学习
太牛了,韩国某大学利用分层检索策略提升上市公司年报RAG准确率提升455%

发布时间:2025年05月26日

智能金融

如遇无法添加,请+ vx: iamxxn886


1 RAG技术在公司年报问答的应用

大型语言模型(LLM)驱动的检索增强生成(RAG)技术大幅提升了知识密集型任务的性能。凭借其提升事实准确性与时效性的双重优势,该技术已在金融信息检索领域引发研究热潮——该领域对信息精准度和时效性要求极高的决策场景。

以上市公司年报(10-K)为代表的金融文档具有高度标准化特征:

  • 跨公司、跨年度的统一模板中,相似表格与重复叙述屡见不鲜。

picture.image

如上图所示,亚马逊、Meta和沃尔玛2023年的10-K报告,其表格结构宛如复制粘贴,仅数值存在差异。当被问及"2023年亚马逊与沃尔玛营业利润率差异"时,传统RAG系统往往陷入"找不同"困境,检索出大量雷同内容,导致答案失准。

为此,韩国汉阳大学团队提出HiREC框架(Hi erarchical R etrieval with E vidence C uration)大幅提升了在年报问答领域的RAG准确率。

  1. 什么是HiREC框架

picture.image

如上图所示,该框架包含两大核心模块:

  • 1.层级检索:采用分层策略精准抓取与问题

相关的文本片段

  • 2.证据提纯:对检索结果进行双重过滤与验证

证据提纯模块会智能判断文本片段的信息完备性:

  • 当信息不足时自动生成补充问题

启动二次检索(补充通道),信息充足时则将精炼后的文本集

送入答案生成器(主通道)。

  • 系统在达到最大迭代次数

时自动终止检索,并融合所有有效文本生成最终答案。

注:本项目以开源,https://github.com/deep-over/LOFin-bench-HiREC

2.1 分层检索

上市公司年报是一种标准化文档,标准化文档往往采用统一模板,结构重复且内容相似 ,使得精准检索相关段落颇具挑战。

HiREC框架采用分层解决方案:先筛选与问题相关的文档缩小范围,再精筛文档中的关键段落。

2.1.1 文档检索器

标准化文档信息量大但格式统一,单向量难以捕捉所有关键细节。

为此,特别提取并索引区分性特征

以财务报告为例,封面页 的公司名称、报告类型和财年等信息至关重要。

对每个文档,先用LLM生成封面摘要d'(提示模板见论文原文),通过双编码器预计算嵌入向量,存入文档库。

检索流程:

  • 1.查询优化 :用LLM将原始问题q转化为精炼查询q',消除股票代码等干扰术语的影响
  • 2.向量检索 :使用相同双编码器计算q'的向量v_q',通过相似度评分筛选出k_D'个候选文档
  • 3.精准排序 :采用交叉编码器重排候选文档,最终保留与问题最相关的k_D篇文档

2.1.2 段落检索器

在已筛选文档中,通过交叉编码器C评分,精选k_P个核心段落。

这种设计既保证实时性,又充分发挥交叉编码器捕捉句间关系的优势。

针对财务表格的特殊性,进行了专项优化:

  • 问题:通用模型难以识别表格中的标题、会计期间等关键特征
  • 解决方案:使用FinQA数据集微调模型,其中表格作为证据单元
  • 训练方法:对每个证据表格采样n_neg个负样本,采用二元交叉熵损失函数。

2.2 证据精修

金融问题常需跨时段或跨公司对比。即便检索到相关段落,关键信息仍可能缺失,且无关内容会干扰结果准确性。

为此,设计了证据精修流程:通过三重过滤机制剔除噪声数据,并在信息不足时智能发起补充检索。包含:

  • 智能去噪的段落过滤器
  • 证据完备性评估器
  • 缺口识别问答生成器

所有功能均由LLM单轮响应实现(提示模板见论文原文)。

2.2.1 段落净化工序

从原始检索集中剔除无关内容,输出精炼后的段落集。

系统会综合考量新增段落与历史有效段落——这一步骤直接影响LLM输出质量,任何噪声渗入都可能导致答案偏差。

2.2.2 证据完备性验证

对净化后的段落集进行充分性检验:达标则进入答案生成环节;若存在信息缺口,立即启动补充检索流程。

2.2.3 智能补全机制

深度扫描识别证据链缺失,动态生成补充查询

,为下一轮检索提供精准靶向。

2.3 答案生成

在答案生成阶段,系统以相关文本片段和原始问题为输入,通过智能推理得出最终答案。

  • 针对数值计算类问题,采用程序化推理(PoT)方法
  • 对于文本推理问题,则运用思维链(CoT)技术

这种双轨策略尤其适合处理数据密集的金融文档,既能解析复杂表格,又能确保推理严谨。

  1. 效果评估

3.1 哪个策略更好?

picture.image

如上表所示,HiREC在页面召回率和答案准确率上全面超越基线模型——页面召回率较次优模型Dense至少提升10%,答案准确率领先13%,印证了该方法在标准化文档检索中的卓越性能。

更惊艳的是,HiREC平均仅需检索3.7个段落,证明其证据筛选机制的高效性。

在文本类问题中,所有模型的答案准确率均反超页面召回率,说明大语言模型具备"检索不全却答得准 "的文本理解能力。但数值类问题依赖精密推理,表格类仍是公认难点。

3.2 消融实验

picture.image

上表展示了HiREC各组件移除后的页面精确率、召回率及答案准确率。

其中分层检索(HR)和证据整理(EC)为两大核心模块。未启用HR时相当于Dense方法与EC联用,未启用EC时则反映HR初始检索性能(kP=10)。

未微调场景下使用原始排序器以避免表格先验知识干扰。虽然性能微降,HiREC准确率仍领先Dense基线10%以上。即便Dense搭配微调排序器,其平均答案准确率仅30.55%,差距依然显著。

HR模块对提升检索精度至关重要,缺失时性能跌至谷底。值得注意的是,HR初始检索效果已优于"Dense+EC"组合。未启用EC的实验结果则印证了段落过滤器与互补问题生成器的协同效应。

EC加持下的HR系统在各项指标上全面跃升。未启用过滤器的对照实验表明:虽然互补组件能获得最高召回值,但其准确率不及完整版HiREC,原因在于未过滤的错误信息会产生干扰。

3.3 错误类型分析

picture.image

上图统计了HiREC与基线模型在公司/文档/页面三级错误率上的对比。HiREC凭借精准的公司识别能力,错误率最低,实现了文档与段落检索的双重准确。

3.4 迭代优化效果

picture.image

上图表明相比初始分层检索,迭代式证据整理(EC)在提升页面召回率与精确率的同时,显著降低了单查询处理量。随着迭代推进,检索效能持续增强。

3.5 检索效能

picture.image

上图曲线表明,当k值在1-50区间变化时,基线方法的召回率提升伴随精确率下降。HiREC则实现双重突破,其指标全面超越基线最佳值。

3.6 成本控制

picture.image

上表显示,通过在答案生成前过滤无关段落,HiREC以更少的token消耗和更低成本达成最优性能。

相比IRCoT,其智能过滤与问题生成机制使迭代效率提升显著。实验证明,轻量级LLM也能高效完成证据整理任务。

3.7 多模型生成器性能对比分析

深入评估了HiREC框架在不同大语言模型生成器上的表现。本次测试采用DeepSeek-R1-Distill-Qwen-14B和Qwen-2.5-7B-Instruct等开源模型替代GPT-4o作为生成器进行对比实验。

picture.image

上表数据显示,HiREC在不同规模的生成器上均保持领先的问答性能,展现出卓越的适应性。尤为亮眼的是,即便采用参数量更小的开源模型,HiREC方案仍能超越Dense基准线。其中HiREC+Deepseek-14B组合相较Dense+GPT-4o方案实现了超过9%的平均准确率提升。

在检索环节采用轻量化模型,既能维持优异性能,又可显著降低整体推理成本。

3.8 数据源性能对比

通过分析不同数据源,既评估了基准数据泄露风险,也验证了HiREC框架的稳健性。

picture.image

上表数据显示,HiREC在各数据源均保持领先优势。

所有方法(含HiREC)在SECQA子集表现稍逊,因其多文档问答特性需整合多方信息。表明LOFin基准因多文档场景更具挑战性,而基于检索证据的设计有效规避了数据泄露风险。

3.9 商业LLM与搜索引擎的较量

以SearchGPT和Perplexity为代表的商业系统,通过结合大语言模型与网络搜索来处理金融数据问题。

picture.image

上表显示,采用llama-3.1-sonar-large-

-online模型的Perplexity和使用GPT-4o的SearchGPT,在每类40题的测试中均被HiREC方案超越——尤其在数值计算方面,商业系统虽能抓取相关文献,却频繁丢失关键数据细节,导致计算精度不足。


0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论