金融AI搜索革命:FinSearch 准确率提升 15.93%

大模型向量数据库机器学习
金融AI搜索革命:FinSearch 准确率提升 15.93%

发布时间:2024 年 12 月 14 日

智能金融

金融决策需要处理海量实时信息,同时理解这些信息之间复杂的时间关系。传统搜索引擎在实时信息获取方面表现出色,但往往难以理解复杂的用户意图和上下文细微差别。相比之下,大型语言模型(LLMs)展现了强大的推理和交互能力,但在缺乏实时数据的情况下可能生成不可靠的结果。尽管近期已有尝试将 LLMs 与搜索功能结合,但它们仍面临以下挑战:(1)受限于专业金融数据的访问;(2)静态查询结构无法适应动态市场环境;(3)生成结果时缺乏足够的时间感知能力。

https://arxiv.org/abs/2502.15684

picture.image

添加请注明FinLLM

如遇无法添加,请+ vx: iamxxn886


一、为什么需要 FinSearch 技术?

1.1 从传统搜索引擎到 FinSearch 的代际跃迁

在过去的十年中,传统搜索引擎(如 Google、Bing)在提供实时信息访问方面表现出色,但在处理复杂的用户意图和上下文关系时却显得力不从心,尤其是在金融领域。例如,当用户需要分析某公司的股票表现时,传统搜索引擎无法提供实时的市场数据和财务报告,导致信息获取的局限性。

2020 年代初,大语言模型(LLMs,Large Language Models)如 GPT 和 Llama 的崛起,展示了强大的推理和交互能力。然而,由于 LLMs 依赖于静态的训练数据,无法访问实时信息,生成的输出可能不靠谱。例如,当用户查询当前市场状况时,LLMs 可能会生成过时或不准确的分析。

picture.image

2023 年,MindSearch 首次尝试将 LLMs 与搜索能力结合,但仍存在三大局限:无法访问专业金融数据、静态查询结构、缺乏时间敏感性。例如,MindSearch 在处理金融查询时,无法动态调整查询策略,导致搜索结果无法适应市场的快速变化。

2024 年,FinSearch 通过动态查询重写、时间加权机制和多步搜索预规划,解决了上述问题,成为金融信息搜索的里程碑。例如,FinSearch 能够根据中间搜索结果实时优化后续查询,确保搜索过程始终响应最新的市场信息。

1.2 FinSearch 解决的三大行业难题

难题 1:专业金融数据访问受限

案例 :某投资者需要分析某公司的股票表现,但传统搜索引擎无法提供实时市场数据和财务报告。

FinSearch 的解决方案 :通过集成 Yahoo Finance API、NewsAPI 等专业数据源,FinSearch 能够精准获取实时金融信息。例如,FinSearch 可以直接从 Yahoo Finance API 获取最新的股票价格和财务报告,确保投资者能够及时做出决策。

难题 2:静态查询结构无法适应动态市场

案例 :某分析师在查询过程中发现新的市场信息,但传统搜索引擎无法动态调整查询策略。

FinSearch 的解决方案 :通过动态查询重写器,FinSearch 能够根据中间搜索结果实时优化后续查询。例如,当分析师发现某公司的股票价格出现异常波动时,FinSearch 会自动调整查询策略,优先获取与该波动相关的新闻和分析报告。

难题 3:搜索结果缺乏时间敏感性

案例 :某投资者需要了解近期货币政策变化,但传统搜索引擎无法优先展示最新信息。

FinSearch 的解决方案 :通过时间加权机制,FinSearch 能够根据查询的时间上下文优先展示最相关的信息。例如,当投资者查询“最近一周的货币政策变化”时,FinSearch 会优先展示最近一周内的政策公告,而不是几个月前的旧信息。

通过解决这三大难题,FinSearch 不仅提升了金融信息搜索的准确性和时效性,还为投资者和分析师提供了更加智能化的决策支持工具。

二、FinSearch 的核心技术原理是什么?

picture.image

FinSearch 是一个专门为金融信息检索设计的智能搜索框架,结合了大型语言模型(LLMs, Large Language Models)和实时数据源,能够高效处理复杂的金融查询。

核心组件包括:

  • • 搜索预规划器(Search Pre-Planner)
  • • 动态查询重写器(Search Executor with Dynamic Query Rewriter)
  • • 时间加权机制(Temporal Weighting Mechanism)
  • • 响应生成器(Response Generator)

这些组件共同协作,确保用户能够获得准确、及时且上下文相关的金融信息。

picture.image

2.1 多步搜索预规划器(Search Pre-Planner)

FinSearch 的核心是一个基于 LLM 的多步搜索预规划器,它能够将用户的复杂查询分解为结构化的子查询,并通过图表示法将每个子查询映射到特定的数据源。

想象一下,你在规划一次旅行,预规划器就像一个智能导游,将你的旅行计划分解为多个小任务(如订机票、订酒店、规划行程),并为每个任务选择最合适的资源。

预规划器首先通过语义解析提取用户查询中的关键元素,如时间指示、公司实体和金融事件。

然后,将复杂的金融查询分解为多个子查询,例如分析公司业绩时,可能会生成查询历史股价、近期财报、市场情绪和行业趋势的子查询。每个子查询都会被映射到特定的金融数据源,如新闻 API、搜索 API 和金融 API。

最终,预规划器构建一个搜索图,图中的每个节点代表一个子查询,节点之间的边表示逻辑依赖关系。

2.2 动态查询重写器(Search Executor with Dynamic Query Rewriter)

在搜索执行过程中,FinSearch 通过动态查询重写器不断优化后续查询。就像你在解谜游戏时,每解开一个线索,就会根据新线索调整下一步的策略。搜索执行器在遍历搜索图时,会根据中间搜索结果动态调整后续子查询。例如,如果某个子查询的结果表明市场情绪发生了显著变化,重写器可能会调整下一个子查询,以更深入地分析这一变化。

动态查询重写器的核心是一个基于 LLM 的模型,它能够根据当前查询的结果和搜索图的状态,生成更优化的子查询。这种动态调整机制使得 FinSearch 能够灵活应对金融市场的快速变化,确保搜索结果始终与用户需求保持一致。

2.3 时间加权机制(Temporal Weighting Mechanism)

FinSearch 通过时间加权机制,根据用户查询的时间上下文优先展示最相关的信息。就像在看新闻时,最新的头条新闻总是被放在最显眼的位置。

在金融领域,信息的时效性至关重要,因此 FinSearch 为每个子查询的结果分配一个时间权重,权重的大小取决于信息的时间戳与查询时间戳的接近程度。

时间加权机制使用一个时间衰减函数来计算每个节点的权重。例如,信息的时间戳与查询时间戳相差在 72 小时内的节点会获得较高的权重,而超过 72 小时的信息则会被忽略。这种机制确保了 FinSearch 在生成最终结果时,能够优先展示最新且最相关的金融信息。

2.4 响应生成器(Response Generator)

响应生成器将搜索结果整合为连贯的、上下文相关的输出,并结合可视化元素(如 K 线图)呈现给用户。这就像你在阅读一份综合报告,文字分析和图表相辅相成,帮助你全面理解信息。响应生成器首先会聚合所有节点的搜索结果,并根据时间权重对信息进行排序和去重。接着,它会生成一份结构化的分析报告,报告中包含详细的文字分析和可视化图表。

例如,当用户查询某只股票的表现时,响应生成器可能会生成一段文字分析,描述该股票的历史表现、近期波动和市场情绪,同时附上一张 K 线图,展示该股票的价格走势。这种结合文字和图表的输出方式,能够帮助用户更直观地理解复杂的金融信息。

通过以上四个核心组件的协作,FinSearch 能够高效处理复杂的金融查询,为用户提供准确、及时且易于理解的金融信息。这种设计不仅提升了搜索的准确性,还大大提高了用户的使用体验。

三、FinSearch 的实际效果如何?

3.1 准确率提升

picture.image

在 FinSearch Bench-24 基准测试中,FinSearch 的表现显著优于现有方法。例如,与Perplexity Pro (GPT-4o) 相比,FinSearch 的准确率提升了 15.93%;与 Llama3.1-405B 相比,准确率提升了 14.06%;而与 Claude3.5-Sonnet 相比,准确率更是提升了 21.6%。这些数据表明,FinSearch 在处理复杂金融查询时具有显著优势。

3.2 算力成本与效率

picture.image

尽管 FinSearch 的算力成本有所增加,但其处理时间仍保持在合理范围内。平均处理时间为 14.55 至 29.31 秒/答案。相比之下,Perplexity Pro 的处理时间虽然更短(3.94 至 6.12 秒),但其准确率显著低于 FinSearch。这意味着 FinSearch 在保证高准确率的同时,仍能维持较高的计算效率。

3.3 组件贡献分析

picture.image

FinSearch 的两个核心组件——时间加权机制和动态查询重写器,各自对系统性能的提升都有显著贡献。单独使用时,时间加权机制使准确率提升了 14.20%,而动态查询重写器则提升了 3.66%。当两者结合使用时,准确率提升了 17.47%,展现出显著的协同效应。这表明,这两个组件在提升系统性能方面具有互补性。

  1. 如何使用

目前,该项目已开源: https://github.com/eeeshushusang/FinSearch,不过代码仓库不是很完善,最后更新是4个月前,README也没有。

picture.image


picture.image

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论