控制LLM生成的破冰方案SGCD：Sketch-Guided Constrained Decoding - 文章 - 开发者社区


          
论文题目：Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access
          
论文链接：https://arxiv.org/pdf/2401.09967.pdf

概要

研究背景：

在自然语言处理（NLP）任务中，约束解码（Constrained Decoding）是一种在不重新训练或修改模型架构的情况下，对语言模型输出施加约束的技术。然而，这种技术的应用通常受限于能够访问模型的softmax logits（下一个token分布）的模型，这在黑盒大型语言模型（LLMs）中并不可行。

方案设计：

为了解决这个问题，论文提出了一种名为 草图引导约束解码

（ Sketch-Guided Constrained Decoding , SGCD）的新方法。SGCD不依赖于黑盒LLM的logits，而是利用一个本地托管的辅助模型来细化黑盒LLM的输出。这个初始输出被视为进一步细化的“草图”。SGCD将约束解码任务分为两个阶段：

草图阶段 和 约束生成阶段 。在草图阶段，一个强大的黑盒LLM生成一个初步的草案。在约束生成阶段，一个较小规模的本地LLM对草案进行细化，以满足指定的约束。

picture.image

实验结论：

通过在封闭信息提取和依存句法分析任务上的实验，论文展示了SGCD的有效性。SGCD显著提高了LLMs的性能，并在多个模型上超越了先前的方法。

在封闭信息提取任务中，SGCD平均提高了 16.4% 的精确度和 7.9% 的召回率；

picture.image

在依存句法分析任务中，SGCD提高了 32.1% 的精确度和 27.4% 的召回率

picture.image

讨论

1、 SGCD在处理黑盒LLMs时如何克服对logits访问的限制？

答案：

SGCD通过使用一个本地托管的辅助模型（constrained generator, Pcg）来细化黑盒LLM（sketcher, Psk）的输出。这个辅助模型在草图阶段接收到的输出被视为进一步细化的“草图”，然后通过应用约束来生成最终的输出。这种方法不依赖于黑盒LLM的logits，而是通过细化过程来实现约束。

2、SGCD在封闭信息提取和依存句法分析任务上的表现如何？

答案： 在封闭信息提取任务中，SGCD显著提高了性能，与没有logit访问的黑盒LLMs相比，平均提高了16.4%的精确度和7.9%的召回率。在依存句法分析任务中，SGCD同样表现出色，提高了32.1%的精确度和27.4%的召回率。这些结果表明SGCD能够有效地提高黑盒LLMs在复杂NLP任务中的性能。

3、SGCD在实际应用中可能面临哪些挑战？

答案： SGCD可能面临的挑战包括“退化”问题，即在某些情况下，约束生成器可能会偏离草图，产生一个虽然满足约束但质量较低的输出。此外，随着LLMs的性能不断提升，SGCD在某些任务上的优势可能会减弱，因为约束解码本身可能不足以应对更复杂的任务需求。