Alpha-SQL：无需训练就可超越GPT-4o的Text2SQL方法，可能是最好的Text2SQL方案

发布时间：2025 年 02 月 24 日

picture.image

添加请注明Text2SQL

如遇无法添加，请+ vx: iamxxn886

一、为什么我们需要 Alpha-SQL？

随着大型语言模型（LLMs）的快速发展，Text-to-SQL（自然语言到SQL的转换）技术在各行各业中扮演着越来越重要的角色。Text-to-SQL 使得用户能够通过自然语言与数据库进行交互，从而简化了数据访问过程，无论是普通用户还是专家用户都能更高效地获取洞察。

然而，随着更强大的LLMs不断涌现，针对特定任务进行 微调的成本变得极其高昂 ，不仅需要大量的标注数据，还需要耗费大量的计算资源。此外， 微调过程容易出错 ，且随着新模型的推出，微调过程需要不断重复，进一步增加了成本和复杂性。

在这种背景下， 零样本（Zero-Shot）Text-to-SQL 方法应运而生。这种方法利用LLMs中的知识和推理能力，无需针对特定任务进行微调，从而避免了标注数据和计算密集型训练的需求。

然而，零样本Text-to-SQL面临着一个核心难点： 如何将预训练LLMs中的知识迁移并泛化到SQL生成任务中 ，尤其是在没有任务特定标注数据的情况下。

为了应对这些问题，香港科技大学的团队提出了Alpha-SQL：一种新颖的零样本Text-to-SQL方法。

二、Alpha-SQL 是什么？

Alpha-SQL的核心思想是将SQL生成任务分解为一系列逐步构建的子任务，每个子任务都有上下文指导，使得模型能够在每个步骤中更好地处理复杂性。

picture.image

具体来说，Alpha-SQL将SQL生成过程建模为一个树状结构的搜索问题，其中节点表示部分SQL查询状态，边表示SQL构建动作（如选择表或修改SQL子句）。通过从根节点到叶节点的迭代选择动作，Alpha-SQL逐步构建出一个有效的SQL查询。

Alpha-SQL的创新之处在于引入了 蒙特卡洛树搜索（MCTS）框架 ，结合LLM作为 动作模型（LLM-as-Action-Model） ，在MCTS过程中动态生成SQL构建动作，从而引导搜索朝着更有潜力的SQL查询方向进行。此外，Alpha-SQL还引入了 自监督奖励函数 ，用于评估候选SQL查询的质量，确保生成更准确和高效的查询。

2.1. 蒙特卡洛树搜索（MCTS）框架

picture.image

Alpha-SQL 将 SQL 构造过程建模为一个树状空间中的搜索问题，其中节点表示部分 SQL 查询状态，边表示 SQL 构造动作（例如选择表或修改 SQL 子句）。通过从根节点到叶节点迭代选择动作，Alpha-SQL 逐步构建一个有效的 SQL 查询。

2.2. LLM-as-Action-Model

为了增强搜索过程中的推理能力，Alpha-SQL 引入了 LLM-as-Action-Model，它在 MCTS 框架中调用 LLM 作为推理动作模型，生成逐步推理（即思维链）。这些推理与部分 SQL 查询状态一起存储在每个节点中，确保每个 SQL 构造动作都是上下文感知的，并与整体推理路径保持一致。

在推理过程的第i步，MCTS从 动作空间 中选择一个SQL构建动作，基于历史推理步骤（包括第一步到第i步）和第i步的提示词生成第i+1步的状态。

SQL构建推理动作空间

动作空间定义了LLM在分解和解决Text-to-SQL问题时可以采取的潜在推理步骤集合。通过指定每个阶段可能的动作来指导SQL查询的逐步构建。

A1: 问题重写

Text-to-SQL系统需要处理来自不同用户群体的多样化问题风格和歧义。基于rStar，使用少样本提示将问题分解为结构化（条件列表，问题）格式。

picture.image

A2: 模式选择

数据库通常包含复杂的模式，但单个SQL查询通常只使用可用元素的一小部分。使用思维链（CoT）提示来识别每个用户问题的相关模式子集，然后指导后续的查询生成。

picture.image

A3: 列值识别

Text-to-SQL系统需要准确识别用户问题中的过滤条件。

例如，“Bob在足球比赛中的最佳排名是多少？”需要过滤姓名（“Bob”）和比赛类型（“足球”）（例如，WHERE name='Bob' AND match_type='football'）。

CHESS-SQL 发现，BIRD开发集中20%的错误源于错误的过滤列或值选择。为了解决这个问题，引入了一个列值识别动作，在SQL生成之前评估潜在的过滤值。

picture.image

A4: 列函数识别

复杂的SQL查询通常需要聚合函数（例如COUNT）和标量函数（例如STRFTIME）。

例如，问题“2024年出生的人数是多少？”需要日期操作（STRFTIME('%Y',people.date_of_birth)='2024'）和聚合（COUNT(people.id)）。

CHASE-SQL 的分析显示，函数相关的错误占BIRD开发集中19%的错误。为了提高函数处理能力，在推理过程中引入了列函数识别动作。

picture.image

A5: SQL生成

SQL生成是Text-to-SQL系统的核心组件。CHASE-SQL引入了CoT策略，将复杂查询分解为多个子任务，独立解决它们，然后组合解决方案。这种方法在处理嵌套查询时表现尤为出色。Alpha-SQL 将这一策略纳入推理动作空间。

picture.image

A6: SQL修订

在复杂场景中，LLM可能会生成语法无效的SQL查询。

为LLM提供用户问题、模式、错误的SQL以及执行结果，以指导查询修订。系统执行多轮修正，直到获得有效的SQL查询或达到最大尝试次数Nrevision。

picture.image

A7: 终止

当推理过程产生最终的预测SQL时，终止动作被调用，标志着推理轨迹的结束。

终止动作必须在SQL生成或SQL修订动作之后发生。

动作顺序和约束

picture.image

每个推理轨迹都遵循结构化的顺序，以确保逻辑连贯性。例如，某些动作（如SQL修订）必须仅在SQL生成之后发生。上表定义了动作之间的有效转换。为了避免无限循环，限制每个动作在给定过程中只能出现一次。

自监督奖励函数

为了确保在 MCTS 搜索过程中生成准确和高效的查询，Alpha-SQL 引入了一个自监督奖励函数来评估候选 SQL 查询的质量。

Alpha-SQL 通过高温度采样生成多个候选 SQL 查询，过滤掉无效查询，并通过比较采样查询的执行结果与预测 SQL 的执行结果来计算自一致性得分。这有助于优先选择有希望的路径并优化探索过程。

三、Alpha-SQL 的测评效果

picture.image

实验主要基于BIRD和Spider两个开发集进行，并采用了执行准确率（Execution Accuracy, EX）作为主要评估指标。

3.1 主要结果

使用了Qwen2.5-Coder系列的7B、14B和32B模型作为Alpha-SQL的推理模型。

picture.image

• BIRD开发集 ：Alpha-SQL在BIRD开发集上表现出色，使用32B模型时达到了69.7%的执行准确率，显著超越了现有的零样本方法，如基于GPT-4o的RSL-SQL（67.2%）。即使使用7B模型，Alpha-SQL也达到了66.8%的准确率，与RSL-SQL相当。
• Spider开发集 ：在Spider开发集上，Alpha-SQL同样表现优异。使用14B模型时，Alpha-SQL达到了87.0%的执行准确率，超越了专门为Spider数据集微调的SFT Coder-15B模型（84.9%）。

3.2 MCTS Rollout次数对性能的影响

picture.image