Retro 48B: 使用检索预训练的LLM

火山方舟人工智能与算法增长营销

        
          
https://arxiv.org/abs/2310.07713  

      

picture.image

来自Nvidia和伊利诺伊大学香槟分校的研究人员介绍了Retro 48B,这是一个比之前的Retrieval-augmented模型(如Retro 7.5B参数)更大的语言模型。Retro 48B在通用语料库上进行了检索预训练,从而获得了更好的困惑度指标。InstructRetro中的编码器可以被去除,这表明持续的检索增强预训练可以提高大模型解码器在问答任务中的性能。

picture.image

检索增强语言模型在开放域问答中已经得到广泛应用,无论是在预训练还是推理过程中都有益处。他们的方法降低了模型的困惑度,提高了真实性,并改善了精调后的任务性能。现有的检索增强模型在大小上受到限制,相比仅有解码器的模型,限制了它们在指令调整后的zero-shot泛化能力。指令调整对于自然语言理解至关重要,在FLAN、OpenAssistant和Dolly等高质量数据集的支持下,使得在聊天和问答任务中能够实现更优秀的性能。

预训练语言模型与检索相结合的方法,如Retro,已经显示出在降低困惑度和提高事实准确性方面的潜力。然而,现有的检索增强模型需要更多的参数和训练数据,这会影响它们在指令调优和其他大型语言模型常见任务中的性能。他们的研究引入了Retro 48B,这是最大的检索增强模型,继续对一个43B GPT模型进行预训练,并添加额外的标记。从这个过程中获得的InstructRetro,在zero-shot问答方面相比传统的GPT模型有了显著改进。当去除编码器时,InstructRetro的解码器仍能取得类似的结果,说明检索增强预训练在问题回答中有效地整合了上下文。

他们的研究探索了一个全面的过程,包括对GPT模型进行预训练以创建Retro 48B,指导其提高zero shot问答能力,并在各种任务中评估其性能。研究引入了一种新颖的48B大小的检索增强语言模型InstructRetro,在指导调优后,在zero-shot问答任务中明显优于标准GPT模型。这种扩展方法展示了更大的检索增强模型在自然语言理解中的潜力。

Retro 48B是一个使用检索进行预训练的语言模型,在困惑度上超过了原始的GPT模型。经过指导调优后,即InstructRetro,在zero-shot问答方面有显著提升,与其GPT对应模型相比,短格式问答任务平均提高了7%,长格式问答任务提高了10%。令人惊讶的是,仅仅使用InstructRetro的解码器骨干就能够获得可比较的结果,这表明了基于检索的预训练在上下文融入问答中的有效性。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CloudWeGo白皮书:字节跳动云原生微服务架构原理与开源实践
本书总结了字节跳动自2018年以来的微服务架构演进之路
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论