google开源chain-of-table框架,解锁LLM表格理解新高度

火山方舟向量数据库智能应用

        
          
https://blog.research.google/2024/03/chain-of-table-evolving-tables-in.html  

      
Chain-of-Table

在Chain-of-Table中,我们通过上下文学习( in-context learning )来指导LLMs,以迭代生成操作并更新表格,以表示其对表格数据的推理链。这使得LLMs能够根据先前操作的结果动态规划下一步操作。表格的持续演变形成了一个链条,为给定问题的推理过程提供了更结构化和清晰的表示,并能够从LLMs获得更准确和可靠的预测。

例如,当询问“哪位演员获得了最多的NAACP形象奖?”时,Chain-of-Table框架会提示LLMs生成反映表格推理过程的表格操作。首先,它会识别相关的列。然后,根据共享内容对行进行聚合。最后,重新排列聚合结果以得到一个清晰回答所提问题的最终表格。

这些操作会改变表格以符合所提出的问题。为了在大表格上平衡性能和计算开销,我们根据表格行的子集构建操作链。与此同时,逐步操作通过显示来自表格操作的中间结果揭示了潜在的推理过程,促进了更好的可解释性和理解。

picture.image

Chain-of-Table由三个主要阶段组成。在第一阶段,它指示LLM通过上下文学习动态规划下一步操作。具体来说,提示包括如下图所示的三个组件:

  1. 问题Q:“哪个国家有最多的骑自行车的选手获得前三名?”
  2. 操作历史链:f_add_col(Country) f_select_row(1, 2, 3)
  3. 最新的中间表T:转换后的中间表。

通过在提示中提供三元组(T,Q,chain),LLM可以观察先前的表格推理过程,并从操作池中选择下一个操作,逐步完成推理链。

picture.image在确定了下一个操作f之后,在第二阶段,我们需要生成参数。与上文一样,Chain-of-Table将提示中的三个组成部分考虑在内,如图所示:(1)问题,(2)所选操作及其所需参数,以及(3)最新的中间表。 例如,当选择操作时,它需要一个标题名称作为其参数。

LLM在表格中选择一个合适的标题。拥有所选操作和生成的参数,Chain-of-Table执行操作并构建一个新的中间表,用于下一步推理。

Chain-of-Table迭代前两个阶段以规划下一个操作并生成所需的参数。在此过程中,我们创建一个操作链,作为表格推理步骤的代理。这些操作生成中间表,呈现每一步的结果给LLM。因此,输出表包含有关表格推理中间阶段的全面信息。在我们的最终阶段,我们利用这个输出表来制定最终查询,并提示LLM连同问题寻求最终答案。

Experimental setup

我们使用PaLM 2-S和GPT 3.5作为骨干LLM,并在三个公共表格理解基准上进行实验:WikiTQ、TabFact和FeTaQA。WikiTQ和FeTaQA是用于基于表格的问题回答的数据集。TabFact是一个基于表格的事实验证基准。在这篇博文中,我们将重点关注WikiTQ和TabFact上的结果。我们将Chain-of-Table与通用推理方法(例如,端到端问答,少样本问答和思维链)以及程序辅助方法(例如,文本到SQL,Binder和Dater)进行比较。

picture.image

Better robustness on harder questions

在Chain-of-Table中,更长的操作链表明了问题及其对应表格的难度和复杂性更高。我们根据Chain-of-Table中的操作长度对测试样本进行分类。我们将Chain-of-Table与Chain-of-Thought和Dater进行比较,作为代表性的通用推理和程序辅助推理方法。我们利用来自WikiTQ上PaLM 2的结果来加以说明。picture.image值得注意的是,Chain-of-Table 在所有操作链长度上均始终明显优于基准方法,与 Chain-of-Thought 相比优势高达11.6%,与 Dater 相比高达7.9%。此外,与其他基准方法相比,Chain-of-Table 的性能随着操作数量的增加呈现出平稳下降的趋势,当操作数量从四个增加到五个时,其性能仅出现轻微下降。

Better robustness with larger tables

我们根据标记数量将WikiTQ中的表格分为三组:小型(<2000个标记)、中型(2000至4000个标记)和大型(>4000个标记)。然后我们将Chain-of-Table与Dater和Binder进行比较,这两种是最新和最强大的基准。picture.imageBinder、Dater 和提议的 Chain-of-Table 在来自 WikiTQ 的小型(<2000 个标记)、中型(2000 到 4000 个标记)和大型(>4000 个标记)表格上的性能。我们观察到,随着输入表格变得越来越大,性能下降,而 Chain-of-Table 则能够优雅地降低性能,实现明显超过竞争方法的改进(上文中,下划线文字表示次佳性能;粗体表示最佳性能)。 正如预期的那样,随着输入表格变得越来越大,性能会下降,因为模型需要推理更长的上下文。尽管如此,所提议的 Chain-of-Table 的性能仍然优雅地降低,并在处理大型表格时实现了明显超过次佳竞争方法 10% 以上的改进。这证明了推理链在处理长表格输入时的有效性。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
火山引擎大规模机器学习平台架构设计与应用实践
围绕数据加速、模型分布式训练框架建设、大规模异构集群调度、模型开发过程标准化等AI工程化实践,全面分享如何以开发者的极致体验为核心,进行机器学习平台的设计与实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论