contextual.ai 推出 RAG2.0 - 文章 - 开发者社区

欢迎关注我的公众号“ NLP前沿 ”，日更最新论文/博客速读，周更AI领域近一周发生的那些事儿。欢迎投稿！ 行文仓促，有理解错误，欢迎指正 ！


        
          
https://contextual.ai/introducing-rag2/

Why RAG2.0

RAG 系统使用冻结的现成模型进行嵌入，使用向量数据库进行检索，使用黑盒语言模型进行生成，通过提示词拼接在一起。单个组件在技术上是有效的，但整体远非最佳。这些系统很脆弱，缺乏任何机器学习或对它们所部署的领域的专业化，需要大量的提示，并且存在级联错误。因此，RAG 系统很少通过生产标准。

RAG 2.0 方法将所有组件预训练、微调和对齐为一个集成系统，通过语言模型和检索器进行反向传播，以最大限度地提高性能： picture.image

RAG2.0 基准测试

与使用 GPT-4 或最先进的开源模型（如 Mixtral）构建的各种强大的freezy RAG 系统相比，CLM 显著提高了性能。 picture.image

picture.image

RAG 2.0 和长上下文窗口

长上下文模型通常使用《大海捞针》基准测试，其中“针”（即事实）隐藏在一个大的“大海”（即文本语料库）中，并且使用旨在引出特定针的查询来评估模型。为了有意义地比较冻结的 RAG 和上下文语言模型，创建了一个不重复的 2M token大海捞针。使用 100+ 个传记问题的测试集，评估了 CLM、Frozen-RAG 和 GPT-4-Turbo（最多 32K 个token），大海捞针从 2K 到 2M 个token不等。

下图可以看到的是 RAG 2.0 的表现更好，特别是如果您希望扩展：与长上下文语言模型相比，RAG 2.0 的准确性更高，计算量也少得多，这种差异在生产中变得有意义。 picture.image