文档备案控制台登录立即注册

首页文章活动开发者计划镜像站

发布

英伟达开源新利器NV-Embed向量模型：创新架构，公开数据训练，MTEB排名第一！

向量数据库混合云MySQL

文章核心内容 ：在MTEB上刷到了第一名的向量模型，完全基于公开数据，不包括来自 GPT-4 等专有模型的任何合成数据，模型也没有根据现有的嵌入模型进行微调。

标题：NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models


        
          
https://huggingface.co/nvidia/NV-Embed-v1  
https://arxiv.org/html/2405.17428v1

特点总结：

对于模型架构，提出了一个潜在注意层来获得池化嵌入，与均值池化或使用来自 LLMs 的最后一个 token 嵌入相比，它持续提高了检索和下游任务的准确性。
在对比训练期间删除了 LLMs 的clm的单向注意力mask。
模型训练，引入了两阶段对比指令调整方法。第一阶段使用检索数据集的指令，利用批内负样例和构造的困难负示例，完成对比训练。第二阶段，将各种非检索数据集混合到指令调优中，这不仅增强了非检索任务的准确性，而且提高了检索性能。
NV-Embed 模型仅使用公开数据，在大规模文本嵌入基准 (MTEB) 上排名第一（截至 2024 年 5 月 24 日）。

模型结构

双向注意力

与llm2vec，专门设计一个阶段来微调不同，只是在对比学习期间删除了仅解码器 LLM 的因果注意掩模，并发现它的效果非常好

Latent Attention Layer

picture.image 常见有2种方案来获取序列的嵌入：i) 均值池化，ii) 最后的 token 嵌入。

已知的问题是，均值池化仅取 token 嵌入的平均值，可能会淡化关键短语中的重要信息；使用 token 嵌入可能会遇到recency bias，严重依赖于输出嵌入最后一个 token。

这里用到的池化如下图，额外加了一个attention层，k，v可训练，最后借一个mlp以及池化 picture.image

消融实验如下，双向注意力 & 单向，以及几种池化效果差异

picture.image

训练数据

不同的任务使用不同的instruct模板，如下图 picture.image

难负例的挖掘使用bm25

“

NLP前沿交流群成立，详见置顶推文。进群加微：nipi64310

-END-

右下角，帮忙点点

picture.image

+

0

0

0

0

关于作者

关于作者

文章

0

获赞

0

收藏

0

相关资源

字节跳动 EB 级湖仓一体分析服务 LAS 的实践与展望

火山引擎湖仓一体分析服务 LAS 是面向湖仓一体架构的 Serverless 数据处理分析服务，提供一站式的海量数据存储计算和交互分析能力，完全兼容 Spark、Presto、Flink 生态，在字节跳动内部有着广泛的应用。本次演讲将介绍 LAS 在字节跳动内部的发展历程和大规模应用实践，同时介绍 LAS 在火山引擎上的发展规划。

相关产品

推荐阅读

Python 为什么近几年霸榜多次第一？

2882%回报 vs 43%回撤！穿越牛熊的以太坊策略

Data Agent 再升级：一客一策，营销服务的理想型来了！

来火山引擎「算子广场」，一键处理多模态数据

火山引擎数智平台发布 Data Agent"一客一策"与 AI 数据湖"算子广场"

评论

未登录

看完啦，登录分享一下感受吧～

暂无评论