- cohere rerank 3.5 ====================
2024.12 cohere rerank 3.5: https://cohere.com/blog/rerank-3pt5
能够处理超过100种语言的查询,尤其在阿拉伯语、日语和韩语等主要商业语言中表现突出
根据 Cohere 内部测试,Rerank3.5在金融服务数据集上的表现相较于混合搜索系统提高了23.4%,与传统 BM25搜索算法相比提高了30.8%。
在这里插入图片描述
对于在金融、政府、能源、制造业和医疗保健等专业行业运营的企业特别有用。例如,在我们精心挑选的代表常见用例的金融服务数据集上,Rerank 3.5 的性能比混合搜索高出 23.4%,比 BM25 高出 30.8%
Rerank 3.5 还提供业界领先的多语言功能。它可以搜索 100 多种语言的数据,并且对以下 10 种全球商业语言具有最先进的准确性:阿拉伯语、中文、法语、德语、印地语、日语、韩语、葡萄牙语、俄语和西班牙语。
Rerank 3 模型相比,Rerank 3.5在跨语言搜索方面提供了 +26.4% 的改进
在这里插入图片描述
- rerank-multilingual-v3.0 ===========================
官方文章参考:https://cohere.com/blog/rerank-3
在这里插入图片描述
- 开源数据测试 =========
数据集:篇章排序fintune测试数据 比较好的短query 匹配长段落数据集
在这里插入图片描述
rank_fields 排名字段,如果提供了 JSON 对象,您可以指定要考虑重新排名的键。模型将根据传入字段的顺序重新排名(即,rank_fields=['title','author','text'] 将依次使用标题、作者、文本中的值重新排名。如果标题、作者的长度,并且文本超出了模型的上下文长度,分块将不会重新考虑较早的字段)。如果未提供,模型将使用默认文本字段进行排名。添加后效果影响不显著
https://aws.amazon.com/cn/blogs/machine-learning/improve-rag-performance-using-cohere-rerank/
- • 小批量下测试效果:
- • 总体:rerank-multilingual-v3.0 >rerank-english-v3.0 >rerank-v3.5
- • 英文:rerank-multilingual-v3.0 ≈rerank-english-v3.0 >rerank-v3.5
- • 中文:rerank-multilingual-v3.0 >rerank-english-v3.0 >rerank-v3.5
rerank-english-v3.0在中文场景中很难拉开不相关问句之间向量得分
小结:
- • 使用了篇章排序fintune测试数据集,这是一个短query匹配长段落的数据集。
- • 在小批量测试效果中,rerank-multilingual-v3.0在总体、英文和中文场景中均表现最佳,其次是rerank-english-v3.0,最后是rerank-v3.5。
- • rerank-english-v3.0在中文场景中很难拉开不相关问句之间的向量得分。
- • 注意
在这里插入图片描述