论文题目:Sketch-Guided Constrained Decoding for Boosting Blackbox Large Language Models without Logit Access
论文链接:https://arxiv.org/pdf/2401.09967.pdf
概要
研究背景:
在自然语言处理(NLP)任务中,约束解码(Constrained Decoding)是一种在不重新训练或修改模型架构的情况下,对语言模型输出施加约束的技术。然而,这种技术的应用通常受限于能够访问模型的softmax logits(下一个token分布)的模型,这在黑盒大型语言模型(LLMs)中并不可行。
方案设计:
为了解决这个问题,论文提出了一种名为 草图引导约束解码
( Sketch-Guided Constrained Decoding , SGCD)的新方法。SGCD不依赖于黑盒LLM的logits,而是利用一个本地托管的辅助模型来细化黑盒LLM的输出。这个初始输出被视为进一步细化的“草图”。SGCD将约束解码任务分为两个阶段:
草图阶段 和 约束生成阶段 。在草图阶段,一个强大的黑盒LLM生成一个初步的草案。在约束生成阶段,一个较小规模的本地LLM对草案进行细化,以满足指定的约束。
实验结论:
通过在封闭信息提取和依存句法分析任务上的实验,论文展示了SGCD的有效性。SGCD显著提高了LLMs的性能,并在多个模型上超越了先前的方法。
- 在封闭信息提取任务中,SGCD平均提高了 16.4% 的精确度和 7.9% 的召回率;
- 在依存句法分析任务中,SGCD提高了 32.1% 的精确度和 27.4% 的召回率
讨论
1、 SGCD在处理黑盒LLMs时如何克服对logits访问的限制?
答案:
SGCD通过使用一个本地托管的辅助模型(constrained generator, Pcg)来细化黑盒LLM(sketcher, Psk)的输出。 这个辅助模型在草图阶段接收到的输出被视为进一步细化的“草图”,然后通过应用约束来生成最终的输出。 这种方法不依赖于黑盒LLM的logits,而是通过细化过程来实现约束。
2、SGCD在封闭信息提取和依存句法分析任务上的表现如何?
答案: 在封闭信息提取任务中,SGCD显著提高了性能,与没有logit访问的黑盒LLMs相比,平均提高了16.4%的精确度和7.9%的召回率。在依存句法分析任务中,SGCD同样表现出色,提高了32.1%的精确度和27.4%的召回率。这些结果表明SGCD能够有效地提高黑盒LLMs在复杂NLP任务中的性能。
3、SGCD在实际应用中可能面临哪些挑战?
答案: SGCD可能面临的挑战包括“退化”问题,即在某些情况下,约束生成器可能会偏离草图,产生一个虽然满足约束但质量较低的输出。此外,随着LLMs的性能不断提升,SGCD在某些任务上的优势可能会减弱,因为约束解码本身可能不足以应对更复杂的任务需求。
推荐阅读
- • TinyGPT-V:小而强大,轻量级骨架打造高效多模态大语言模型
- • 2024:ToB、Agent、多模态
- • TA们的RAG真正投产了吗?(上)
- • 2023年最新LLM发展时间线一览(ChatGPT、LLaMA等)
欢迎关注我的公众号“ PaperAgent ”, 每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。