控制LLM生成的破冰方案SGCD:Sketch-Guided Constrained Decoding

技术

          
论文题目:Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access
          
论文链接:https://arxiv.org/pdf/2401.09967.pdf
      

概要

研究背景:

在自然语言处理(NLP)任务中,约束解码(Constrained Decoding)是一种在不重新训练或修改模型架构的情况下,对语言模型输出施加约束的技术。然而,这种技术的应用通常受限于能够访问模型的softmax logits(下一个token分布)的模型,这在黑盒大型语言模型(LLMs)中并不可行。

方案设计:

为了解决这个问题,论文提出了一种名为 草图引导约束解码

Sketch-Guided Constrained Decoding , SGCD)的新方法。SGCD不依赖于黑盒LLM的logits,而是利用一个本地托管的辅助模型来细化黑盒LLM的输出。这个初始输出被视为进一步细化的“草图”。SGCD将约束解码任务分为两个阶段:

草图阶段约束生成阶段 。在草图阶段,一个强大的黑盒LLM生成一个初步的草案。在约束生成阶段,一个较小规模的本地LLM对草案进行细化,以满足指定的约束。

picture.image

实验结论:

通过在封闭信息提取和依存句法分析任务上的实验,论文展示了SGCD的有效性。SGCD显著提高了LLMs的性能,并在多个模型上超越了先前的方法。

  • 在封闭信息提取任务中,SGCD平均提高了 16.4% 的精确度和 7.9% 的召回率;

picture.image

  • 在依存句法分析任务中,SGCD提高了 32.1% 的精确度和 27.4% 的召回率

picture.image

讨论

1、 SGCD在处理黑盒LLMs时如何克服对logits访问的限制?

答案:

SGCD通过使用一个本地托管的辅助模型(constrained generator, Pcg)来细化黑盒LLM(sketcher, Psk)的输出。 这个辅助模型在草图阶段接收到的输出被视为进一步细化的“草图”,然后通过应用约束来生成最终的输出。 这种方法不依赖于黑盒LLM的logits,而是通过细化过程来实现约束。

2、SGCD在封闭信息提取和依存句法分析任务上的表现如何?

答案: 在封闭信息提取任务中,SGCD显著提高了性能,与没有logit访问的黑盒LLMs相比,平均提高了16.4%的精确度和7.9%的召回率。在依存句法分析任务中,SGCD同样表现出色,提高了32.1%的精确度和27.4%的召回率。这些结果表明SGCD能够有效地提高黑盒LLMs在复杂NLP任务中的性能。

3、SGCD在实际应用中可能面临哪些挑战?

答案: SGCD可能面临的挑战包括“退化”问题,即在某些情况下,约束生成器可能会偏离草图,产生一个虽然满足约束但质量较低的输出。此外,随着LLMs的性能不断提升,SGCD在某些任务上的优势可能会减弱,因为约束解码本身可能不足以应对更复杂的任务需求。


推荐阅读


欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
字节跳动客户端性能优化最佳实践
在用户日益增长、需求不断迭代的背景下,如何保证 APP 发布的稳定性和用户良好的使用体验?本次分享将结合字节跳动内部应用的实践案例,介绍应用性能优化的更多方向,以及 APM 团队对应用性能监控建设的探索和思考。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论