google开源chain-of-table框架，解锁LLM表格理解新高度 - 文章 - 开发者社区


        
          
https://blog.research.google/2024/03/chain-of-table-evolving-tables-in.html

Chain-of-Table

在Chain-of-Table中，我们通过上下文学习（ in-context learning ）来指导LLMs，以迭代生成操作并更新表格，以表示其对表格数据的推理链。这使得LLMs能够根据先前操作的结果动态规划下一步操作。表格的持续演变形成了一个链条，为给定问题的推理过程提供了更结构化和清晰的表示，并能够从LLMs获得更准确和可靠的预测。

例如，当询问“哪位演员获得了最多的NAACP形象奖？”时，Chain-of-Table框架会提示LLMs生成反映表格推理过程的表格操作。首先，它会识别相关的列。然后，根据共享内容对行进行聚合。最后，重新排列聚合结果以得到一个清晰回答所提问题的最终表格。

这些操作会改变表格以符合所提出的问题。为了在大表格上平衡性能和计算开销，我们根据表格行的子集构建操作链。与此同时，逐步操作通过显示来自表格操作的中间结果揭示了潜在的推理过程，促进了更好的可解释性和理解。

picture.image

Chain-of-Table由三个主要阶段组成。在第一阶段，它指示LLM通过上下文学习动态规划下一步操作。具体来说，提示包括如下图所示的三个组件：

问题Q：“哪个国家有最多的骑自行车的选手获得前三名？”
操作历史链：f_add_col(Country) f_select_row(1, 2, 3)
最新的中间表T：转换后的中间表。

通过在提示中提供三元组（T，Q，chain），LLM可以观察先前的表格推理过程，并从操作池中选择下一个操作，逐步完成推理链。

picture.image 在确定了下一个操作f之后，在第二阶段，我们需要生成参数。与上文一样，Chain-of-Table将提示中的三个组成部分考虑在内，如图所示：（1）问题，（2）所选操作及其所需参数，以及（3）最新的中间表。例如，当选择操作时，它需要一个标题名称作为其参数。

LLM在表格中选择一个合适的标题。拥有所选操作和生成的参数，Chain-of-Table执行操作并构建一个新的中间表，用于下一步推理。

Chain-of-Table迭代前两个阶段以规划下一个操作并生成所需的参数。在此过程中，我们创建一个操作链，作为表格推理步骤的代理。这些操作生成中间表，呈现每一步的结果给LLM。因此，输出表包含有关表格推理中间阶段的全面信息。在我们的最终阶段，我们利用这个输出表来制定最终查询，并提示LLM连同问题寻求最终答案。

Experimental setup

我们使用PaLM 2-S和GPT 3.5作为骨干LLM，并在三个公共表格理解基准上进行实验：WikiTQ、TabFact和FeTaQA。WikiTQ和FeTaQA是用于基于表格的问题回答的数据集。TabFact是一个基于表格的事实验证基准。在这篇博文中，我们将重点关注WikiTQ和TabFact上的结果。我们将Chain-of-Table与通用推理方法（例如，端到端问答，少样本问答和思维链）以及程序辅助方法（例如，文本到SQL，Binder和Dater）进行比较。

picture.image

Better robustness on harder questions

在Chain-of-Table中，更长的操作链表明了问题及其对应表格的难度和复杂性更高。我们根据Chain-of-Table中的操作长度对测试样本进行分类。我们将Chain-of-Table与Chain-of-Thought和Dater进行比较，作为代表性的通用推理和程序辅助推理方法。我们利用来自WikiTQ上PaLM 2的结果来加以说明。 picture.image 值得注意的是，Chain-of-Table 在所有操作链长度上均始终明显优于基准方法，与 Chain-of-Thought 相比优势高达11.6%，与 Dater 相比高达7.9%。此外，与其他基准方法相比，Chain-of-Table 的性能随着操作数量的增加呈现出平稳下降的趋势，当操作数量从四个增加到五个时，其性能仅出现轻微下降。

Better robustness with larger tables

我们根据标记数量将WikiTQ中的表格分为三组：小型（<2000个标记）、中型（2000至4000个标记）和大型（>4000个标记）。然后我们将Chain-of-Table与Dater和Binder进行比较，这两种是最新和最强大的基准。 picture.image Binder、Dater 和提议的 Chain-of-Table 在来自 WikiTQ 的小型（<2000 个标记）、中型（2000 到 4000 个标记）和大型（>4000 个标记）表格上的性能。我们观察到，随着输入表格变得越来越大，性能下降，而 Chain-of-Table 则能够优雅地降低性能，实现明显超过竞争方法的改进（上文中，下划线文字表示次佳性能；粗体表示最佳性能）。正如预期的那样，随着输入表格变得越来越大，性能会下降，因为模型需要推理更长的上下文。尽管如此，所提议的 Chain-of-Table 的性能仍然优雅地降低，并在处理大型表格时实现了明显超过次佳竞争方法 10% 以上的改进。这证明了推理链在处理长表格输入时的有效性。