GTE(MTEB Top2)的成功秘诀--大力出奇迹

技术

提纲

1 简介 2 GTE‍‍‍‍ 3 实验结果 4 总结 参考文献

1 简介

上一篇文章中所提及的当时MTEB排名第二的句向量方案GTE,终于发布了相应的文章,既然已经期待已久了,那就先睹为快吧。 这是阿里巴巴团队提出了一种基于多阶段对比学习的通用句向量模型。通过显著增加预训练跟finetune阶段的训练数据,最终获得一个明显超越当时sota模型E5的句向量模型。注意重点,GTE主要特色是显著增加训练数据,大力出奇迹~

2 GTE‍‍‍‍‍‍‍‍‍

GTE采用了Transformer encoder,有3种不同模式尺寸,分别以MiniLM-small, BERT-BASE跟BERT-LARGE作为模型初始化。训练时采用双塔模型结构,将语言模型所生成的所有位置的最后一层隐状态的均值作为句子表征,即句向量。

picture.image

图1: GTE框架

训练时,通过对比学习让模型产生高质量的句子表征,每个训练样本(q,d+,d-)都包括三部分,第一部分是query,第二部分是跟query正相关的d+,第三部分是跟query不相关的d-。  **不同于传统对比学习所采用infoNCE loss作为优化目标,GTE采用了一个进阶版的对比损失Improved Contrastive Loss。其实就是对负样本做了更多扩充** ,(假设同个batch里query跟对应的正样本分别为qi跟di)第一部分的负样本是将qi当作为query,q跟同个batch里的其他dj(i不等于j)互为负样本(传统对比学习里的负样本),第二部分的负样本就是将di作为query,di跟同个batch里其他dj(i不等于j)互为负样本,详情可见下面公式。  **感觉这loss可以改成像instructor那样用两个对比学习loss加起来的样子,计算量也没有变化,但是看起来更加优雅。** 

picture.image

GTE的训练过程也分为预训练跟微调两个阶段,两个阶段采用的都是对比学习,优化目标都是前面所提及的Improved contrastive Loss。  **在预训练阶段,为了保证句向量模型的覆盖面尽可能多样,研究人员收集了各种领域的跟文本相应性相关开源数据** ,包括网页搜索,科学文献,社区问答,社交,维基百科,代码仓库等,共有接近8亿的文本对(query,positive document),这些数据无需额外的人工标注就能被用于句向量模型的无监督训练。  **在具体训练时,由于不同源头的数据量显著不同,需要采用特定的抽样策略来维持平衡,并且要保证同个batch里的数据都是来源于同个任务,防止模型通过学习到不同任务特性来判断这些数据,从而走上一条不归路。在这一个阶段由于缺乏hard negative信息,为例保证模型效果,需要使用较大的batch size。** 




在finetune阶段,研究人员以少量的人工标注的数据集(query,positive document)为基础,利用额外的检索器获得相应的hard negative数据,从而构造出相应的文本相关性三元组(query, positive document, negative document)数据,约300万条,从而让模型在这个高质量数据上做进一步微调。在finetune阶段,由于数据集原本的强监督信息跟hard negative,batch size就没有必要设置的特别大。

3 实验结果‍‍‍‍‍‍‍

a) 在MTEB榜单上,GTE表现超过instructor,E5等模型,取得非常不错的效果。

picture.image

图2: MTEB结果

b)  **通过消融实验,发现了模型性能跟训练数据数量(无论预训练还是微调),以及模型本身餐数量存在正相关关系,同时也验证了预训练跟微调对于句向量模型的必要性,两者缺其一都会影响最终模型的性能。** 

picture.image

图3: GTE消融实验分析

4 总结‍‍‍‍‍‍‍‍‍

GTE目前占据MTEB榜单第二的位置,确实是值得一试的开源句向量模型。但是开源的版本是英文的,不支持中文。从方法上,GTE并没有什么太多新颖之处,主要大力出奇迹,通过堆训练数据,让模型得到进一步的蜕变,论文实验结论也验证了这点。

对于句向量而言,目前sota的模型不少包括预训练跟微调两阶段,像传统的只进行微调的方法明显在性能赶不上这些sota方法。其实也很好理解,当模型达到一定程度上时,在训练方法还是采用对比学习那一套时,已经很难在微调阶段取得更大突破,这也许是因为基底模型本身能力所限制,因为很多基底模型本身就是针对基础语言任务训练的,跟基于句子级别的表征生成任务本身是有区别的,所以如果能针对句子表征生成任务做针对性的预训练,就能进一步提高基底模型的上限,从而提升模型整体表现。

参考文献

Towards General Text Embeddings with Multi-stage Contrastive Learning

https://arxiv.org/pdf/2308.03281.pdf

0
0
0
0
关于作者

文章

0

获赞

0

收藏

0

相关资源
IDC 大模型应用落地白皮书
大模型技术已深度融入业务实践,各企业期望其释放更大商业价值。 但大模型落地之路面临许多挑战和顾虑。 如何精准对接业务需求与发展蓝图,制定切实可行的大模型落地策略? IDC发布首个大模型应用策略与行动指南 一为您揭晓一
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论