迈向 AI 搜索范式：从AI搜索、多模态推荐到零样本混合检索器 - 文章 - 开发者社区

信息检索领域前沿研究观察：从AI搜索到多模态推荐

最近在信息检索领域看到了不少有意思的研究进展，从百度搜索提出的AI搜索范式到各种新颖的检索增强方法，这些工作都在试图解决当前搜索和推荐系统面临的实际问题。今天想和大家分享一下这些研究的核心思想和技术亮点。

AI搜索的新范式：多智能体协作系统

百度搜索团队最近提出了一个很有意思的"AI搜索范式"概念。传统的搜索引擎更多是基于关键词匹配和排序算法，而这个新范式试图用多个大语言模型智能体来协作完成复杂的搜索任务。

这个系统的设计思路相当巧妙，它包含了四个专门的智能体，每个都有明确的分工。主控智能体负责分析用户查询的复杂程度，然后决定需要动员哪些其他智能体来参与。规划智能体则像一个项目经理，会把复杂查询拆解成多个子任务，并用有向无环图来组织这些任务的执行顺序。执行智能体专门负责调用各种工具来完成具体的子任务，而写作智能体则把所有结果整合成用户能理解的答案。

这种设计的好处在于它能根据查询的复杂程度动态调整。对于简单的事实性查询，可能只需要写作智能体直接回答；而对于需要多步推理、涉及多个信息源的复杂问题，就会启动完整的多智能体协作流程。这样既保证了效率，又能处理复杂场景。

从技术实现角度来看，这个系统还整合了很多现有的先进技术，包括检索增强生成（RAG）、偏好对齐方法，以及各种LLM推理优化技术。可以说是把现在AI领域的多种技术有机结合到了搜索场景中。 picture.image

📚 https://arxiv.org/abs/2506.17188

MoR:检索器的艺术,混合多种检索方法

在检索技术方面，有一个叫做MoR（Mixture of Retrievers）的工作让我印象深刻。这个研究解决的是一个很实际的问题：不同类型的查询需要不同的检索方法才能获得最好的效果。

我们都知道，传统的BM25这类稀疏检索器在处理关键词匹配方面很强，而基于深度学习的密集检索器则更擅长理解语义相似性。但在实际应用中，用户的查询千变万化，有些查询更适合词汇匹配，有些则需要语义理解。MoR的创新之处在于它不是简单地选择某一种检索器，而是动态地组合多种检索器的结果。

这个系统会根据查询的特点来计算每种检索器的权重。它既考虑预检索信号（比如查询嵌入与文档簇的接近程度），也考虑后检索信号（包括一些查询性能预测指标）。更有意思的是，它还实现了多粒度检索，把查询和文档都分解成更细的原子单元，然后在不同的语义层面上进行检索。

这种方法的实用性很强，因为它能够自适应地处理各种类型的查询，而不需要人工去判断应该用哪种检索方法。

📚 https://arxiv.org/abs/2506.15862

👨🏽‍💻 https://github.com/Josh1108/MixtureRetrievers

picture.image

多模态推荐的新思路

在推荐系统领域，阿里巴巴提出的SimCIT（Simple Contrastive Item Tokenization）框架也很有启发性。这个工作主要解决的是如何在生成式推荐中更好地表示物品。

传统的方法往往依赖重建式量化，试图精确地重建物品的嵌入表示。但SimCIT认为这种思路与推荐任务的本质不太匹配，因为推荐本质上是一个判别任务，需要区分用户喜欢和不喜欢的物品。

所以SimCIT采用了完全基于对比学习的方法。它把物品的不同模态信息（文本描述、图像、用户行为数据等）看作是对比学习中的不同"视图"，通过学习这些视图之间的一致性来获得更好的物品表示。这种方法特别适合处理多模态信息，比如电商场景中商品既有文本描述又有图片的情况。

系统使用了可学习的残差量化模块，结合Gumbel-Softmax技术和NT-Xent对比损失，能够学习到既具有语义意义又保持多样性的token表示。这样的设计既能够捕捉不同模态之间的关联，又能避免表示空间的退化。

📚 https://arxiv.org/abs/2506.16683

picture.image

Revela:自监督学习在检索中的应用

Revela这个工作提供了一个很有趣的视角：如何利用语言模型的预训练来改进密集检索器。传统的检索器训练需要大量的标注数据，这在很多场景下都是成本很高的。

Revela的核心创新是"批内注意力"机制。在传统的语言模型预训练中，模型只需要根据当前句子的上下文来预测下一个token。而Revela扩展了这个概念，让模型在预测下一个token时不仅考虑当前句子的上下文，还考虑同一批次中其他文档的内容，而这个跨文档的注意力权重就由检索器的相似度分数来决定。

这样设计的巧妙之处在于，它把检索任务和语言建模任务统一起来了。检索器需要学会识别哪些文档块之间存在依赖关系，这与语言模型学习token级别的依赖关系在本质上是相似的。通过这种方式，可以在未标注的原始文本上同时训练检索器和语言模型，大大降低了对标注数据的需求。

📚 https://arxiv.org/abs/2506.16552

👨🏽‍💻 https://github.com/TRUMANCFY/Revela

picture.image

NEAR²：效率优化,嵌套嵌入的智慧

NEAR²: A Nested Embedding Approach to Efficient Product Retrieval and Ranking

在实际部署中，模型的效率往往和准确性同样重要。NEAR²这个工作专门针对电商场景的检索排序问题，提出了一种基于嵌套嵌入的解决方案。

这个方法的灵感来自俄罗斯套娃表示学习（Matryoshka Representation Learning）。传统的嵌入表示通常有固定的维度，但NEAR²训练的嵌入可以在不同的维度下都保持良好的性能。也就是说，你可以根据实际需要选择使用128维、256维或者更高维度的嵌入，而不需要重新训练模型。

这种设计特别适合电商场景，因为在商品检索中往往需要处理大量的查询和商品，计算资源是有限的。通过使用更小维度的嵌入可以显著提高检索速度和降低内存使用，而性能的损失却很小。论文中提到即使使用64维的嵌入，性能也能超过全尺寸模型，这个结果确实很惊人。 picture.image

📚 https://arxiv.org/abs/2506.19743

实体感知的RAG系统

SlimRAG这个工作解决的是检索增强生成中的一个核心问题：语义相似性和语义相关性的区别。很多现有的RAG系统简单地把语义相似性当作语义相关性，但这种假设在很多情况下是不成立的。

SlimRAG的设计思路比较直接：与其构建复杂的知识图谱，不如直接建立实体到文本块的倒排索引。在检索时，先从查询中识别出关键实体，然后基于实体重叠和嵌入相似性进行双因素评分。这种方法避免了图构建的开销，同时能够更精准地定位相关内容。

作者还提出了一个新的评价指标RITU（相对索引Token利用率），用来衡量索引的紧凑性。这个指标很实用，因为它能够量化不同RAG系统在存储效率方面的差异。

📚 https://arxiv.org/abs/2506.17288

👨🏽‍💻 https://github.com/continue-ai-company/SlimRAG

picture.image

jina-embeddings-v4: 多模态嵌入的统一空间

Jina AI的jina-embeddings-v4模型展示了多模态嵌入的一个重要发展方向：将文本和图像表示统一到单一语义空间中。这个38亿参数的模型基于Qwen2.5-VL架构，能够同时处理文本和图像输入。

与传统的双编码器CLIP式模型不同，这个模型采用统一架构，通过视觉编码器处理图像，然后通过语言模型解码器与文本进行联合处理。这种设计能够更好地消除模态之间的鸿沟，实现真正的多模态理解。

模型还支持俄罗斯套娃表示学习，可以将嵌入维度从2048截断到128，这在实际部署中很有价值。训练过程分为两个阶段：首先进行基础的对比学习，然后针对不同任务进行专门的微调。为了更好地评估模型在视觉丰富文档上的性能，作者还构建了Jina-VDR基准测试，包含30个跨越不同领域和语言的任务。

📚 https://arxiv.org/abs/2506.18902

👨🏽‍💻 https://huggingface.co/jinaai/jina-embeddings-v4

搜索增强的多模态推理

字节跳动的MMSearch-R1工作探索了一个很有前景的方向：如何训练大型多模态模型进行按需搜索。这个问题的挑战在于，模型需要学会三个关键能力：什么时候需要搜索、应该搜索什么内容，以及如何根据搜索结果进行推理。

现有的RAG方法往往采用固定的管道，容易导致过度搜索的问题。MMSearch-R1通过强化学习框架来解决这个问题，使用带有搜索惩罚的奖励系统，鼓励模型只在确实需要的时候才进行搜索。

为了训练这样的模型，研究团队构建了FactualVQA数据集，这个数据集平衡了需要搜索和无需搜索的样本，这对于塑造高效的搜索行为很重要。模型通过与真实互联网内容的多轮交互来学习识别自己的知识边界，这是一个很实用的能力。

📚 https://arxiv.org/abs/2506.20670

👨🏽‍💻 https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

picture.image

Pyramid Mixer: 序列推荐中的多尺度建模

在序列推荐领域，字节跳动的Pyramid Mixer模型提供了一个利用MLP-Mixer架构的新思路。这个模型的特点是能够高效地建模跨多个维度和时间周期的用户兴趣。

模型采用金字塔结构来学习从短期到长期的各种时间尺度的兴趣模式。同时实现了跨行为和跨特征的Mixer模块，用于捕捉用户不同行为和物品特征之间的交互关系。为了提高计算效率，模型还整合了低秩分解技术，并使用自适应融合模块来平衡不同类型的表示。

这种设计特别适合处理复杂的用户行为序列，能够同时考虑用户的短期兴趣变化和长期偏好稳定性。

📚 https://arxiv.org/abs/2506.16942

picture.image

动态语料库的增量处理

最后要提到的是EraRAG，这个工作解决的是一个很实际的问题：如何在语料库不断增长的情况下高效地更新图RAG系统。传统的图RAG方法在新增内容时往往需要重建整个图结构，这在大规模应用中是不现实的。

EraRAG的核心创新是使用基于超平面的局部敏感哈希（LSH）来将语料库内容分区并组织成分层图结构。这样设计的好处是可以实现局部插入新文档，只需要更新受影响的区域，而不需要重建整个图。

系统采用选择性再分段和再汇总机制，通过基于LSH的递归分段构建多层图，确保段落粒度的一致性。这种方法在保持检索质量的同时，大大提高了系统的可扩展性。

📚 https://arxiv.org/abs/2506.20963

👨🏽‍💻 https://github.com/EverM0re/EraRAG-Official

总结与思考

从这些研究工作中可以看出，信息检索领域正在朝着更加智能化、多模态化和实用化的方向发展。无论是多智能体的搜索系统、混合检索方法，还是各种效率优化技术，都在试图解决实际应用中遇到的具体问题。

特别值得注意的是，很多工作都在探索如何更好地结合不同技术的优势，而不是简单地追求单一方法的极致。这种融合的思路在实际应用中往往更有价值，因为真实世界的问题往往是多方面的，需要综合性的解决方案。

随着大语言模型技术的不断发展，我相信信息检索和推荐系统会变得更加智能和个性化。同时，如何在保证性能的前提下提高效率，如何处理多模态信息，如何实现系统的可扩展性，这些都是需要持续关注的重要问题。

picture.image

添加微信，备注” LLM “进入大模型技术交流群

picture.image

如果你觉得这篇文章对你有帮助，别忘了点个赞、送个喜欢

/ 作者：致Great

/ 作者：欢迎转载，标注来源即可