论文名称:Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study 作者团队-中文:浙江大学、蚂蚁集团 发表时间:2025年11月13日 发表会议:AAAI 2026
Github地址:https://github.com/zjunlp/DataMind Lab4AI链接:https://www.lab4ai.cn/paper/detail/reproductionPaper?utm_source=volcengine_datamind&id=72b16097935b4cabaad4162a9aeb15f6
开源大型语言模型(LLMs)在数据分析这类推理密集型任务中表现受限,而现有研究尚未明确训练数据关键属性对模型性能的影响。为此,该研究系统拆解数据分析任务的三大核心能力——数据理解、代码生成与战略规划,通过多源数据集构建与消融实验,揭示出战略规划质量是性能首要决定因素、数据质量比多样性更关键等核心发现。基于这些洞察,提出策略引导的数据合成框架,筛选中等长度对话与中高难度任务,富集简洁推理轨迹生成训练数据。经微调后,7B开源模型性能显著提升,14B模型表现接近甚至超越GPT-4o,为开源LLMs适配复杂数据分析场景提供了高效可行的优化路径。
1. 研究背景
大型语言模型(LLMs)在自动化数据分析任务中展现出潜力,相关代理系统与基准测试已逐步发展,但性能仍由闭源大模型主导。开源LLMs在这类推理密集型场景中表现受限,而现有研究尚未明确训练数据的哪些属性(如任务难度、场景多样性等)对模型泛化能力起关键作用,缺乏针对性的优化策略。
2. 研究目的
针对开源LLMs在数据分析任务中的短板,本研究旨在:剖析影响模型数据分析性能的核心因素;明确数据理解、代码生成、战略规划三大核心能力的作用权重;提出数据合成方法,系统性提升开源LLMs的分析推理能力,缩小与闭源模型的差距。
3. 本文核心贡献
- 系统拆解数据分析任务的三大核心能力维度,揭示战略规划质量是模型性能的首要决定因素,为优化方向提供关键依据。
- 提出策略引导的数据合成框架,通过筛选中等长度对话、富集简洁推理轨迹等设计,生成高质量训练数据,无需复杂模型结构修改。
- 构建包含多源真实场景数据的训练集,通过实证分析明确数据质量比多样性更重要、交互设计与任务复杂度显著影响推理效果等关键结论。
4. 研究方法
- 数据构建:从DAEval、DSBench等多个公开数据集采集结构化数据与任务,经两轮筛选(自动化过滤无效样本+人工验证)得到5613个高质量样本,确保无评估集重叠。
- 能力评估:采用“提示词评估”(数据理解、代码生成)与“LoRA微调评估”(战略规划)结合的方案,在DiscoveryBench和QRData两大基准上以准确率为核心指标。
- 消融实验:围绕交互轮次、推理长度、任务复杂度、问题多样性四大变量设计实验,控制数据集规模以保证公平对比。
- 模型训练:基于LLaMA Factory框架,使用4块NVIDIA A800 GPU,采用DeepSpeed ZeRO-3优化进行监督微调,评估开源模型(Qwen2.5系列等)与闭源模型(GPT-4o等)性能差异。
5. 研究结果
- 三大核心能力中,战略规划对性能的影响远超数据理解与代码生成,多数错误源于高层推理失效而非代码缺陷。
- 中等长度交互轮次(4-5轮)、简洁聚焦的推理轨迹、中高难度任务数据更利于模型学习,问题多样性对性能提升影响微弱。
- 基于数据合成框架微调后,7B开源模型性能显著提升,14B模型性能接近甚至超越GPT-4o,验证了方法的有效性。
6. 总结与展望
总结
研究通过拆解数据分析任务核心能力、开展系统性实证研究,明确了开源LLMs性能受限的关键因素,提出的策略引导数据合成方法有效提升了模型分析推理能力,为开源LLMs适配复杂数据分析场景提供了可行路径。
局限性与展望
- 局限性:训练数据集规模仍有限(2.8k合成样本),未充分覆盖各类复杂真实场景;优化策略对更大规模模型的增益存在饱和效应。
- 未来方向:扩展数据集以涵盖更多真实复杂场景;探索结合强化学习进一步优化战略规划能力;将方法拓展至多模态数据分析任务,适配更广泛的应用场景。
