文档备案控制台登录立即注册

首页文章活动镜像站

发布

搜索 + RL = DeepRetrieval，开源！

向量数据库大模型数据库

一个新的开源项目，DeepRetrieval

论文地址：https://arxiv.org/pdf/2503.00223
github: https://github.com/pat-jj/DeepRetrieval

咋把RL的思路用到搜索上呢？

这个工作做的有点曲折。

让LLM对query改写，用改写的query去搜索知识库，比较检索到的doc与真实doc的相似度，并赋予Reward。

picture.image

相当于使用DeepRetrieval的核心还是用RL来训练LLM去改写Query，并通过搜索的相似性来优化模型的训练。

那为什么不直接去RL训练向量模型呢？

拍脑袋可能有几方面原因

很多知名的向量模型如，老版BGE系列，是非decoder模型架构。
基于生成式模型的向量模型，使用的last_token的向量，继续改造成思考+last token向量的模式，会更麻烦一些，基础部分的向量能力几乎要重新训练。

这种reward很好指定，根据相似度划分不同区间

picture.image

训练起来没啥太大问题，但是实验对比不是很充分~

picture.image

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

火山引擎多媒体处理框架的探索与实践

王少飞｜火山引擎多媒体处理资深研发工程师

相关产品

推荐阅读

DeepSeek私有部署最全攻略：异构多机分布式、满血版、蒸馏版，国产GPU支持，总有一款适合你！

WebThinker：赋予推理模型深度研究能力

Firecrawl 网站内容优化器，提高网站转化率。

微软发布 Playwright MCP 正式版。

字节复刻了一个manus，还开源了~

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论