综述：大语言模型时代的表格数据挖掘

Title: A Survey on Table Mining with Large Language Models: Challenges, Advancements and Prospects

Authors: Mingyue Cheng, Qingyang Mao, Qi Liu, Yitong Zhou, Yupeng Li, Jiahao Wang, Jiaying Lin, Jiawei Cao, Enhong Chen

Link: https://doi.org/10.36227/techrxiv.174352282.22844759/v1

Github: https://github.com/USTCAGI/Awesome-LLM-Table-Mining

picture.image

添加请注明表格挖掘

如遇无法添加，请+ vx: iamxxn886

表格数据是一类重要的信息载体，从金融报表、医疗病历到教育档案，从电商订单、实验记录到文献报告，表格数据承载着绝大多数的结构化信息，且呈现信息爆炸的特点。国际数字公司（IDC）于2024年发布的趋势预测报告显示，2028年的全球数据量将增长至393.8ZB，而含表格数据在内的结构化数据将由2023年的7.1%增长至2028年的17.7%，其复合年增长率将达到惊人的49.3%，这表明表格数据已经且将持续展现重要的应用价值。

picture.image

与自然语言不同，表格数据具有二维的行列组织布局，这一结构的独特性使之能够天然适配人类对信息的分类、对比和归纳需求，展现出信息密度高、数据关联性强的特点。多数情况下，表格会附带元数据（如标题、注释、模式定义），这些元数据能提供额外的语义语境，帮助更好地理解表格结构与内容。这使得表格数据成为连接数据和业务场景的重要桥梁。

picture.image

在此背景下，对表格数据的全方位挖掘在过去的数十年间受到了科研界和工业界的广泛关注和探索。早期基于人工规则的系统与统计方法，在定义明确的静态环境中表现优异且具备强解释性。随着机器学习技术的广泛普及，基于树结构模型、集成学习等技术的方法通过自动学习特征交互作用，展现出更强的泛化能力。而在深度学习领域中，多层感知机、自编码器、Transformer等架构的革新，通过端到端学习表格数据中的非线性关系，能够有效规避繁琐的特征工程，结合学习方式的改进，显著推动了表格数据挖掘领域的发展。然而，基于以上范式的工作仍然难以在任务灵活性、场景泛化性和结构可解释性上保持较高优势。

近年来，大语言模型带来的全新学习范式。通过强化的上下文理解能力、逻辑推理水平以及知识表示优化，大语言模型大幅拓宽了表格数据挖掘的应用任务，从自动补全缺失值、检测异常数据，到生成动态可视化报告，再到基于表格的决策推演，大语言模型通过更灵活的学习模式以及更强的可解释性，为表格数据挖掘领域带来了独特的“认知智能”时刻。

picture.image

基于此，中国科大认知智能全国重点实验室发布了基于大语言模型的表格数据挖掘综述，旨在全面梳理大语言模型在表格挖掘领域的研究进展。具体而言，本综述聚焦以下关键维度：(1)系统归纳表格挖掘面临的独特挑战，并进行深度解析；(2)回顾大语言模型在表格相关任务中的应用方法与最新突破；(3)建立多维分类体系，从任务范畴、模型架构和应用场景三个层面系统梳理现有研究成果；(4)指明该领域亟待解决的开放性难题与未来研究方向。通过以上内容，本综述为表格数据挖掘领域提供了全景式的研究路线图，完整呈现了该领域发展面临的应用场景、技术突破与发展潜力。

表格数据总览

1.1 表格类型和来源

表格数据通常被认为是一种（半）结构化数据形式。然而，随着表格数据在各个领域的应用日益广泛，其来源和格式往往因具体场景的特点而有所不同。因此，并非所有表格数据都符合（半）结构化存储类型。

结构化表格：遵循严格且标准化的模式定义，其中所有记录和属性都符合预定义的表模式和格式。这种一致性使得数据组织和检索更加高效，从而使结构化表在系统分析中具有高度可靠性。常见的结构化表格包括关系数据库。
半结构化表格：缺乏严格的模式定义，允许单元格内容在类型、格式和形态上有所不同。这种灵活性使得半结构化表格在表示多样化信息方面更具适应性和可扩展性。网页表格和电子表格被认为是半结构化表格的重要来源，它们支持动态和异构的内容表示，而不受严格模式定义的约束。
非结构化表格：在实际应用中，大多数表格都是非结构化的。这些表格常见于图片或 PDF 格式的文章、书籍和资料中，因此直接提取其数字信息颇具挑战性。文档表是最具代表性的非结构化表格，其布局复杂，且与周围文本之间存在上下文依赖关系。

picture.image

1.2 表格数据特性

与其它类型数据相比，表格数据具有多样化的表示形式，在结构、内容和数据关系上展现出独特的特性：

结构化形式：与自然语言文本不同，表格通常以行和列交织的二维格式呈现，其中每行和每列都可以被视为一个整体单元。这种组织方式能够以逻辑顺序高效地进行索引、检索和分析。
多样化边界：非结构化图像格式的表格数据呈现不同类型的边界（例如，全线、部分线或无线），这会影响结构布局和内容组织的识别。
高维特征：表格通常包含大量特征。随着表格特征数量的增加，数据的复杂性及其分析所需的精细程度也显著提升，因此需要先进的分析技术来有效地处理表格数据。
多模态内容：表格整合了多种模态的内容，包括文本、数值、分类数据、时间戳甚至图像。这种异质性对进一步的数据理解和处理提出了挑战。
数值主导：在大多数情况下，表格整合了大多数数值（例如，实验结果表、财务报告表）。表格数据的处理和进一步分析不可避免地会涉及复杂的数值计算。
语义简洁：表格通常用于传达高度集中的信息，在紧凑的框架中呈现关键指标和统计洞察。虽然这有助于高效理解，但也导致信息密度过高，需要仔细解读。
复杂关系：在关系数据库等多表场景中，表的结构组织和不同属性之间的关系通过主键和外键维持着丰富的依赖关系。这些关系对于理解底层语义和进行高级查询至关重要。
多样化类型：表格数据可来自众多数据源，包括数据库、电子表格、Web 表和文档。在进一步分析之前，需要对来自不同来源的表进行特定的规范化，以解决结构和格式的差异。

大语言模型遇上表格数据挖掘

2.1 大语言模型处理表格数据的优势

大语言模型（LLMs）在表格挖掘领域展现出巨大的潜力，它们利用自然语言界面为用户提供高效直观的人机交互，凭借丰富的预训练知识和强大的语言理解能力，LLMs能够在各种场景中处理复杂的推理任务，展现出巨大优势。

零样本泛化能力 。LLMs 展现出卓越的零样本泛化能力，这源于其在跨领域大规模数据集上进行的广泛预训练。具体而言，LLMs 可以通过其固有的语言模式和事实知识轻松捕捉其结构和语义信息，而无需进一步微调，这为完成表格挖掘任务提供了一种全新的范式。
新颖的生成与交互范式。 LLMs采用文本生成和交互的范式，而非传统的知识表示学习，在推理任务处理中表现出高度的灵活性和可解释性。在表格理解和推理过程中，LLMs 可以灵活地将任务目标分解为多个子步骤，并对其中间推理过程提供透明且全面的描述。
丰富的世界知识。 LLMs 在预训练阶段整合了来自各个领域的大量多模态数据。这使得 LLM 能够存储和理解广泛的知识，从而能够直接或经过短时间的微调后，广泛应用于对表格进行上下文理解和推理，并应用于特定领域的表格数据的知识迁移。
强大的推理能力。 LLMs 通过大量的训练和指令调整，拥有卓越的推理能力。凭借先进的任务规划、自我反思和工具集成能力，它们能够更准确地执行整个推理路径上的中间步骤。这使得LLMs具有完成表格数据的多跳推理和组合推理过程。

2.2 大语言模型处理表格数据面临的挑战

然而，伴随着这些显著的进步，结合LLMs的表格数据挖掘在广泛的探索和应用中也出现了一系列新的挑战性问题，这些问题可能导致结果不可靠且性能下降。

picture.image

结构理解能力有限。 虽然LLsM在经过海量文本语料库训练后可以处理一定程度的结构信息，但它们在解析结构高度复杂的表格时可能会遇到困难。这种局限性部分源于对二维表格数据（尤其是包含多层级索引和合并单元格的数据）的一维文本形式编码，从而导致理解能力不足。
数值敏感性差。 虽然LLMs在理解离散文本信息方面表现出强大的能力，但它们对连续数值数据缺乏敏感性，这限制了它们处理涉及大量数值计算和逻辑推理的表格挖掘任务的能力。直接查询LLMs可能会导致错误的中间计算步骤，最终导致错误的结果。
潜在的知识混淆。 表格在行、列和单元格内容中呈现高度浓缩的信息，通常包含专业术语、简洁符号或语义模糊的实体。由于 LLMs 可能缺乏领域特定知识，它们可能会产生包含不相关事实或虚假内容的错误中间结果，从而误导整个表格挖掘过程。
不完整的意图理解。 LLMs 在隐式意图理解方面可能会遇到性能受限的问题。在大多数情况下，表格推理涉及多个需要验证或执行的子事实，这些子事实很容易在基于 LLMs 的推理链以及整个流程的一致性检查中被忽略。
结果中的不确定偏差。 LLMs可能会从其预训练数据中继承偏差，这可能会影响其推理性能。当表格任务中的信息与模型的偏差相冲突时，输出可能会失真，从而降低结果的可靠性和准确性。
巨大的token消耗。 在对大型表格进行多轮LLMs推理时，其长上下文特性会导致大量的token消耗，因此探索经济高效的基于LLMs的表格挖掘方法至关重要。

3.表格数据准备任务

表格数据准备旨在将非结构化、非标准和不干净的表格转换为结构化、完整且格式标准的表格，以便进一步进行基于LLMs的表格挖掘。

picture.image

3.1 表格识别

表格识别旨在通过识别表格单元格内容、确定单元格关系并将其转换为结构化格式，将非结构化表格数据转换为结构化格式。相关研究可根据其策略分为自顶向下、自底向上和基于序列的方法。

自顶向下的方法 ：自顶向下的方法首先预测表格边界，然后通过行和列的交叉点确定各个单元格的位置，最后合并任何过度分割的单元格。
自底向上的方法 ：自底向上的方法首先识别单元格，然后将检测到的内容视为表格图中的节点，并基于构建的图预测单元格之间的逻辑关系。
基于序列的方法 ：基于序列的方法使用序列化模型进行表格识别，通常基于Transformer框架，将图像作为编码器输入，通过解码器生成表格的结构化信息。

3.2 表格处理

表格处理主要涉及表格转换和表格清洗，适当的表格处理能够更好地从表格中提取潜在信息，为后续任务如数据提取、表格理解或表格推理奠定基础。

表格转换 ：为了调整和修改表格内容的结构、格式和展示方式，需要对表格数据进行转换。
表格清洗 ：从现实世界数据中衍生出的表格通常包含错误、非标准或不相关数据。这个问题不仅影响数据质量，还降低了分析结果的可靠性，使得表格清洗成为必要步骤。表格清洗的核心任务包括错误检测和纠正。

3.3 表格编码

LLMs接受顺序文本作为输入。在处理表格数据时，结构化的表格必须首先转换为LLM编码的特定形式。具体来说，表格数据可以编码成几种格式，包括JSON、LaTeX、CSV、XML、DataFrame、Markdown和HTML。鉴于可用的编码方法范围广泛，选择最合适的表示方法取决于几个因素，包括数据复杂性、模型效率、标记效率以及特定的使用案例。在实践中，研究人员必须在表示保真度与计算成本之间进行权衡。

picture.image

表格数据挖掘任务

表格数据挖掘包含了一系列广泛的任务和应用（例如，表格问答（QA）、表格补全、表格到文本生成、表格分类）。在LLMs时代，表格挖掘研究领域取得了显著的进步。

picture.image

4.1 表格问答

表格问答（QA）旨在从给定的表格中提取和处理精确信息，以回答提出的相关问题。作为一种涉及同时精确处理非结构化文本和结构化表格的传统自然语言处理任务，表格问答已经吸引了大量的研究兴趣，特别是在LLMs带来全新学习策略的时代。

结构视角。 在处理大规模表格时，将整个表格数据编码进LLMs会导致性能不佳和成本高昂，特别是在主流的多步骤推理过程中。因此，许多研究关注于结构的简化与适配。
内容视角。 另一类研究关注多样化的表格内容及其相关元素，一些方法设法在基于LLMs的理解中桥接不对齐的表格内容和查询文本。
过程视角。 表格问答通常涉及复杂的逻辑推理过程，这需要精细的设计和应用。一个直观的想法是将推理过程分解为多个操作，以便进行逐步查询与多跳推理。

4.2 表格推理

表格推理可涵盖数值推理和逻辑推理。前者强调对特定数值的预测和推理，包括表格预测和数据填补任务。后者则更注重分析和组织事实信息中固有的逻辑关系，在这方面，表格事实验证是一个代表性任务。

表格预测。 表格预测涉及预测表格数据中的缺失或目标值，这在特定领域（例如，隐式记录推荐、时间序列分析、运动表现预测）得到了广泛的应用。它可以分为单列预测，专注于使用其他列预测特定列，以及全表预测，旨在填充整个表中的缺失值。.
表格填补。 表格填补指的是使用特定的算法或模型估计表格中的缺失数据，并用合理的近似值填充缺失的值。表格填补不仅提高了数据质量，还增强了后续数据分析任务的准确性和可靠性。
表格事实验证。 表格事实验证旨在验证提出的描述是否由给定的表格数据所支持或反驳。与表格问答相比，表格事实验证涉及更复杂的检索和推理过程。

此外，还包括表格内容检索、表格分类、表格操作等其它相关推理任务。

4.3 表格相关生成

表格相关生成任务可划分为两类，一类是以表格数据为输入，生成精细化的文本，另一类是将混乱的非结构化数据，组织为简洁明确的表格数据。

表格到文本生成。 涉及从给定的结构化数据表中生成自然语言描述或摘要，其主要目标是将表格数据转换为连贯且信息丰富的文本，以准确地传达了表格中包含的信息。生成的文本应该是流畅的、信息丰富的，并且能够有效地总结表格中的关键见解。
表格生成。 表格生成涉及将非结构化或半结构化的数据，如自然语言描述，转换成反映数据关系和结构的有组织的表格。目标是创建连贯、一致且完整的表格，适用于数据可视化、报告生成和知识表示等任务。

5.基于LLMs的高级表格数据挖掘方法

在LLMs时代，新的学习范式在表格挖掘任务中涌现，在各种场景中取得了令人瞩目的成果。其中包含两种先进学习范式，即表格基础模型和无需训练的方法。

picture.image

5.1 表格基础模型

通用表格建模代表了一种新的范式，它使得单一模型或统一框架能够解决多种表格任务，重点是在单一模型架构内推广对表格数据的理解。它利用积累的通用知识来在复杂任务中实现卓越的性能。为了构建一个通用的表格基础模型，研究人员必须在多个维度上解决挑战和机遇，包括处理表格结构、行-列关系、单元格之间的交互以及将表格数据与其他模态集成。

预训练范式。 预训练方法利用大规模、多源和多样化的表格数据（有时包括相关的文本描述、知识库或其他模态数据）来预训练模型。这一过程使模型能够学习表格结构、数据分布、语义信息和上下文依赖的一般表示。在获得这些一般表示之后，模型可以灵活地转移到各种与表格相关的任务上。
微调范式。 微调方法是在现有的预训练模型基础上进行的，通过利用特定任务或领域特定的数据进一步训练或微调，以适应目标应用。与从头开始训练相比，这种方法可以更快地收敛到高准确度，同时显著减少计算和数据需求。

5.2 无需训练的方法

无需训练的方法绕过了显式的预训练或微调，而是利用现有LLMs的内在能力来处理与表格相关的任务。通过精心设计提示和输入格式，表格信息将被重新表述为模型可以轻松处理的表示形式。本质上，无需训练的方法在提示范式内运作。

提示学习：专注于通过设计复杂的提示来增强LLMs的推理能力。
检索增强生成（RAG）：旨在通过检索高度相关的信息来支持理解和推理过程，以提高推理质量。
智能体（Agent）：设计适配特定表格场景的能够感知环境、自主决策并执行动作的智能实体，完成特定表格挖掘任务。

领域特定的表格挖掘

随着表格数据的持续增长和人工智能技术的发展，各种领域逐渐推动了对自动化表格挖掘的需求，尤其是在一些表格数据智能理解和应用场景的代表性领域种，如电子表格、科学表格、电子健康记录表格和财务表格。

picture.image

电子表格：在日常工作中被广泛使用，它对复杂的表格结构（例如层级索引、合并单元格和多个表格）保持了高度的灵活性。此外，它还包含一些常用的快速电子表格处理函数。
科学表格：通常以非结构化图像格式呈现，因此在进一步分析之前，有必要对其进行识别。此外，科学表格包含特殊的呈现语料，需要特定领域的知识实体链接才能充分理解。
电子健康记录表格：集成了高度结构化且存储在关系数据库中的患者健康记录，其中包含具有特定模式定义的多个表以及表之间复杂的关系。此外，医学术语和实体缩写广泛存在于表格和相关文本注释中，这给查询过程带来了巨大的挑战。
财务表格：包含大量数值，需要大量的数值计算和统计分析。此外，财务表格通常与可视化图表有关联，这可能需要多模态理解。

7.思考与未来展望

7.1 长文本扩展性

大多数场景和应用涉及需要长上下文处理的大规模表格或长文本。尽管已经出现了能够处理数百万tokens作为输入的LLMs，但它们在处理复杂的长上下文挖掘任务时仍然存在困难，存在记忆力差和高计算成本的问题。有效的证据检索、分解理解过程以及特定的内存机制设计可以被认为是提高长上下文表格挖掘的准确性和效率的改进。

7.2 多模态内容理解

表格可以存储包括数值、文本、图像甚至视频在内的多模态元素。现有研究已经广泛探讨了对文本形式或视觉形式表格中的数值和文本内容的理解，然而，图像、视频和其他模态的单元格内容尚未得到充分探索。通过模态特定的模块，可能很容易单独理解它们。然而，如何在结构化表格语义下对不同模态的单元格进行对齐仍然是一个挑战。

7.3 实时交互式处理

大多数现实世界的应用程序需要实时交互式表格挖掘过程，例如电子表格操作、报告表格生成。而用户查询中存在不确定性，因为它们可能在样式、难度、场景等方面有所不同。如何精确捕捉用户意图，并将它们精细地适应于从交互式响应中得到的真实场景，可以在未来的研究中考虑。

7.4 Agentic推理范式

当前已有许多配备了手工制作提示和结构化工作流程的基于LLMs的表格挖掘框架。尽管它们在一些特定任务和应用中展示了有希望的结果，但在泛化方面却表现不佳，因为它们在一般场景中几乎没有自主学习、规划和执行的能力。因此，在表格挖掘中发展代理推理范式可以是基于LLMs的表格挖掘中的另一个前沿问题。

7.5 可信表格挖掘

现有的基于大型语言模型（LLM）的表格挖掘研究在大多数任务中已经取得了令人鼓舞的准确性，然而它们较少关注可信问题，包括可解释性、鲁棒性、公平性和隐私保护。一些研究已经对一般场景下的可信性改进进行了探讨，而在一些特定领域的应用中（例如，医疗诊断、金融分析），可信问题却较少受到关注。在可信表格挖掘方面的研究将会是长期且重要的。

7.6 通用表格基础模型

基础模型已经在诸如语言、视觉、机器人等众多领域得到了广泛探索。它们需要在异构数据和各种任务中进行大规模训练，并且能够快速高效地适应下游应用。虽然一些研究已经探讨了此类问题，但要实现真正的通用表格基础模型还有很长的路要走，因为它们需要精细的模块设计和巨大的训练成本来覆盖广泛的基于表格的任务。

7.7 领域特定知识整合

领域特定的表格及其相关的信息可以存储关键概念和术语，这些通过通用的大型语言模型难以理解。例如，医疗电子健康记录表格和笔记通常包含医学术语、特殊缩写和非语法性速记。因此，如何在一些关键领域实现有效和高效的知诀整合是另一个具有挑战性的未来方向，因为当前的研究尚未深入探讨这一问题。

总结

本综述对基于大语言模型的表格数据挖掘领域的研究进行了系统调研，通过全面展现该领域的核心挑战、技术突破、应用场景、发展潜力与未来方向，旨在为读者提供理解与归类当前先进方法与技术的宝贵资源，从而启发未来研究的新视角与重大突破。

部分相关工作

Mao Q, Liu Q, Li Z, et al. PoTable: Programming Standardly on Table-based Reasoning Like a Human Analyst[J]. arXiv preprint arXiv:2412.04272, 2024.
Zhou Y, Cheng M, Mao Q, et al. Enhancing Table Recognition with Vision LLMs: A Benchmark and Neighbor-Guided Toolchain Reasoner[J]. arXiv preprint arXiv:2412.20662, 2024.
Wang J, Cheng M, Mao Q, et al. TableTime: Reformulating Time Series Classification as Zero-Shot Table Understanding via Large Language Models[J]. arXiv preprint arXiv:2411.15737, 2024.

论文原文: https://doi.org/10.36227/techrxiv.174352282.22844759/v1
获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
加入社群，+v: iamxxn886
点击公众号菜单加入讨论