发布时间:2025年05月26日
智能金融
如遇无法添加,请+ vx: iamxxn886
1 RAG技术在公司年报问答的应用
大型语言模型(LLM)驱动的检索增强生成(RAG)技术大幅提升了知识密集型任务的性能。凭借其提升事实准确性与时效性的双重优势,该技术已在金融信息检索领域引发研究热潮——该领域对信息精准度和时效性要求极高的决策场景。
以上市公司年报(10-K)为代表的金融文档具有高度标准化特征:
- 跨公司、跨年度的统一模板中,相似表格与重复叙述屡见不鲜。
如上图所示,亚马逊、Meta和沃尔玛2023年的10-K报告,其表格结构宛如复制粘贴,仅数值存在差异。当被问及"2023年亚马逊与沃尔玛营业利润率差异"时,传统RAG系统往往陷入"找不同"困境,检索出大量雷同内容,导致答案失准。
为此,韩国汉阳大学团队提出HiREC框架(Hi erarchical R etrieval with E vidence C uration)大幅提升了在年报问答领域的RAG准确率。
- 什么是HiREC框架
如上图所示,该框架包含两大核心模块:
- 1.层级检索:采用分层策略精准抓取与问题
相关的文本片段
- 2.证据提纯:对检索结果进行双重过滤与验证
证据提纯模块会智能判断文本片段的信息完备性:
- 当信息不足时自动生成补充问题
启动二次检索(补充通道),信息充足时则将精炼后的文本集
送入答案生成器(主通道)。
- 系统在达到最大迭代次数
时自动终止检索,并融合所有有效文本生成最终答案。
注:本项目以开源,https://github.com/deep-over/LOFin-bench-HiREC
2.1 分层检索
上市公司年报是一种标准化文档,标准化文档往往采用统一模板,结构重复且内容相似 ,使得精准检索相关段落颇具挑战。
HiREC框架采用分层解决方案:先筛选与问题相关的文档缩小范围,再精筛文档中的关键段落。
2.1.1 文档检索器
标准化文档信息量大但格式统一,单向量难以捕捉所有关键细节。
为此,特别提取并索引区分性特征 。
以财务报告为例,封面页 的公司名称、报告类型和财年等信息至关重要。
对每个文档,先用LLM生成封面摘要d'(提示模板见论文原文),通过双编码器预计算嵌入向量,存入文档库。
检索流程:
- 1.查询优化 :用LLM将原始问题q转化为精炼查询q',消除股票代码等干扰术语的影响
- 2.向量检索 :使用相同双编码器计算q'的向量v_q',通过相似度评分筛选出k_D'个候选文档
- 3.精准排序 :采用交叉编码器重排候选文档,最终保留与问题最相关的k_D篇文档
2.1.2 段落检索器
在已筛选文档中,通过交叉编码器C评分,精选k_P个核心段落。
这种设计既保证实时性,又充分发挥交叉编码器捕捉句间关系的优势。
针对财务表格的特殊性,进行了专项优化:
- 问题:通用模型难以识别表格中的标题、会计期间等关键特征
- 解决方案:使用FinQA数据集微调模型,其中表格作为证据单元
- 训练方法:对每个证据表格采样n_neg个负样本,采用二元交叉熵损失函数。
2.2 证据精修
金融问题常需跨时段或跨公司对比。即便检索到相关段落,关键信息仍可能缺失,且无关内容会干扰结果准确性。
为此,设计了证据精修流程:通过三重过滤机制剔除噪声数据,并在信息不足时智能发起补充检索。包含:
- 智能去噪的段落过滤器
- 证据完备性评估器
- 缺口识别问答生成器
所有功能均由LLM单轮响应实现(提示模板见论文原文)。
2.2.1 段落净化工序
从原始检索集中剔除无关内容,输出精炼后的段落集。
系统会综合考量新增段落与历史有效段落——这一步骤直接影响LLM输出质量,任何噪声渗入都可能导致答案偏差。
2.2.2 证据完备性验证
对净化后的段落集进行充分性检验:达标则进入答案生成环节;若存在信息缺口,立即启动补充检索流程。
2.2.3 智能补全机制
深度扫描识别证据链缺失,动态生成补充查询
,为下一轮检索提供精准靶向。
2.3 答案生成
在答案生成阶段,系统以相关文本片段和原始问题为输入,通过智能推理得出最终答案。
- 针对数值计算类问题,采用程序化推理(PoT)方法
- 对于文本推理问题,则运用思维链(CoT)技术
这种双轨策略尤其适合处理数据密集的金融文档,既能解析复杂表格,又能确保推理严谨。
- 效果评估
3.1 哪个策略更好?
如上表所示,HiREC在页面召回率和答案准确率上全面超越基线模型——页面召回率较次优模型Dense至少提升10%,答案准确率领先13%,印证了该方法在标准化文档检索中的卓越性能。
更惊艳的是,HiREC平均仅需检索3.7个段落,证明其证据筛选机制的高效性。
在文本类问题中,所有模型的答案准确率均反超页面召回率,说明大语言模型具备"检索不全却答得准 "的文本理解能力。但数值类问题依赖精密推理,表格类仍是公认难点。
3.2 消融实验
上表展示了HiREC各组件移除后的页面精确率、召回率及答案准确率。
其中分层检索(HR)和证据整理(EC)为两大核心模块。未启用HR时相当于Dense方法与EC联用,未启用EC时则反映HR初始检索性能(kP=10)。
未微调场景下使用原始排序器以避免表格先验知识干扰。虽然性能微降,HiREC准确率仍领先Dense基线10%以上。即便Dense搭配微调排序器,其平均答案准确率仅30.55%,差距依然显著。
HR模块对提升检索精度至关重要,缺失时性能跌至谷底。值得注意的是,HR初始检索效果已优于"Dense+EC"组合。未启用EC的实验结果则印证了段落过滤器与互补问题生成器的协同效应。
EC加持下的HR系统在各项指标上全面跃升。未启用过滤器的对照实验表明:虽然互补组件能获得最高召回值,但其准确率不及完整版HiREC,原因在于未过滤的错误信息会产生干扰。
3.3 错误类型分析
上图统计了HiREC与基线模型在公司/文档/页面三级错误率上的对比。HiREC凭借精准的公司识别能力,错误率最低,实现了文档与段落检索的双重准确。
3.4 迭代优化效果
上图表明相比初始分层检索,迭代式证据整理(EC)在提升页面召回率与精确率的同时,显著降低了单查询处理量。随着迭代推进,检索效能持续增强。
3.5 检索效能
上图曲线表明,当k值在1-50区间变化时,基线方法的召回率提升伴随精确率下降。HiREC则实现双重突破,其指标全面超越基线最佳值。
3.6 成本控制
上表显示,通过在答案生成前过滤无关段落,HiREC以更少的token消耗和更低成本达成最优性能。
相比IRCoT,其智能过滤与问题生成机制使迭代效率提升显著。实验证明,轻量级LLM也能高效完成证据整理任务。
3.7 多模型生成器性能对比分析
深入评估了HiREC框架在不同大语言模型生成器上的表现。本次测试采用DeepSeek-R1-Distill-Qwen-14B和Qwen-2.5-7B-Instruct等开源模型替代GPT-4o作为生成器进行对比实验。
上表数据显示,HiREC在不同规模的生成器上均保持领先的问答性能,展现出卓越的适应性。尤为亮眼的是,即便采用参数量更小的开源模型,HiREC方案仍能超越Dense基准线。其中HiREC+Deepseek-14B组合相较Dense+GPT-4o方案实现了超过9%的平均准确率提升。
在检索环节采用轻量化模型,既能维持优异性能,又可显著降低整体推理成本。
3.8 数据源性能对比
通过分析不同数据源,既评估了基准数据泄露风险,也验证了HiREC框架的稳健性。
上表数据显示,HiREC在各数据源均保持领先优势。
所有方法(含HiREC)在SECQA子集表现稍逊,因其多文档问答特性需整合多方信息。表明LOFin基准因多文档场景更具挑战性,而基于检索证据的设计有效规避了数据泄露风险。
3.9 商业LLM与搜索引擎的较量
以SearchGPT和Perplexity为代表的商业系统,通过结合大语言模型与网络搜索来处理金融数据问题。
上表显示,采用llama-3.1-sonar-large-
-online模型的Perplexity和使用GPT-4o的SearchGPT,在每类40题的测试中均被HiREC方案超越——尤其在数值计算方面,商业系统虽能抓取相关文献,却频繁丢失关键数据细节,导致计算精度不足。
- 论文原文: https://arxiv.org/abs/2505.20368
- 获取更多最新Arxiv论文更新: https://github.com/HuggingAGI/HuggingArxiv!
- 加入社群,+v: iamxxn886