欢迎关注我的公众号“ NLP前沿 ”,日更最新论文/博客速读,周更AI领域近一周发生的那些事儿 。欢迎投稿! 行文仓促,有理解错误,欢迎指正 !
https://contextual.ai/introducing-rag2/
Why RAG2.0
RAG 系统使用冻结的现成模型进行嵌入,使用向量数据库进行检索,使用黑盒语言模型进行生成,通过提示词拼接在一起。单个组件在技术上是有效的,但整体远非最佳。这些系统很脆弱,缺乏任何机器学习或对它们所部署的领域的专业化,需要大量的提示,并且存在级联错误。因此,RAG 系统很少通过生产标准。
RAG 2.0 方法将所有组件预训练、微调和对齐为一个集成系统,通过语言模型和检索器进行反向传播,以最大限度地提高性能:
RAG2.0 基准测试
与使用 GPT-4 或最先进的开源模型(如 Mixtral)构建的各种强大的freezy RAG 系统相比,CLM 显著提高了性能。
RAG 2.0 和长上下文窗口
长上下文模型通常使用《大海捞针》基准测试,其中“针”(即事实)隐藏在一个大的“大海”(即文本语料库)中,并且使用旨在引出特定针的查询来评估模型。为了有意义地比较冻结的 RAG 和上下文语言模型,创建了一个不重复的 2M token大海捞针。使用 100+ 个传记问题的测试集,评估了 CLM、Frozen-RAG 和 GPT-4-Turbo(最多 32K 个token),大海捞针从 2K 到 2M 个token不等。
下图可以看到的是 RAG 2.0 的表现更好,特别是如果您希望扩展:与长上下文语言模型相比,RAG 2.0 的准确性更高,计算量也少得多,这种差异在生产中变得有意义。