又是合成数据,nl2sql起飞

大模型关系型数据库机器学习

论文笔记分享,论文标题:Synthesizing Text-to-SQL Data from Weak and Strong LLMs, ACL2024

要做个什么事? 通过合成数据提升text2sql性能

怎么做?picture.image

  1. Strong Data 上做SFT:使用厉害的LLm,如GPT-4,生成高质量的数据,这些数据具有多样性,有助于模型跨领域泛化。 有一些prompt技巧。
  2. Weak Data 上做偏好训练:利用小的、差一些的开源LLM,生成可能存在错误的SQL样本。然后,通过对sql进行执行,验证对错,并通过dpo教导LLM从正确和错误的样本中学习

prompt:

picture.image

效果:picture.image

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动 XR 技术的探索与实践
火山引擎开发者社区技术大讲堂第二期邀请到了火山引擎 XR 技术负责人和火山引擎创作 CV 技术负责人,为大家分享字节跳动积累的前沿视觉技术及内外部的应用实践,揭秘现代炫酷的视觉效果背后的技术实现。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论