深度对比：Cohere Rerank 3.5、Multilingual-v3.0与English-v3.0 - 文章 - 开发者社区

cohere rerank 3.5 ====================

2024.12 cohere rerank 3.5： https://cohere.com/blog/rerank-3pt5

能够处理超过100种语言的查询，尤其在阿拉伯语、日语和韩语等主要商业语言中表现突出

根据 Cohere 内部测试，Rerank3.5在金融服务数据集上的表现相较于混合搜索系统提高了23.4%，与传统 BM25搜索算法相比提高了30.8%。

picture.image

在这里插入图片描述

对于在金融、政府、能源、制造业和医疗保健等专业行业运营的企业特别有用。例如，在我们精心挑选的代表常见用例的金融服务数据集上，Rerank 3.5 的性能比混合搜索高出 23.4%，比 BM25 高出 30.8%
Rerank 3.5 还提供业界领先的多语言功能。它可以搜索 100 多种语言的数据，并且对以下 10 种全球商业语言具有最先进的准确性：阿拉伯语、中文、法语、德语、印地语、日语、韩语、葡萄牙语、俄语和西班牙语。

Rerank 3 模型相比，Rerank 3.5在跨语言搜索方面提供了 +26.4% 的改进

picture.image

在这里插入图片描述

rerank-multilingual-v3.0 ===========================

官方文章参考：https://cohere.com/blog/rerank-3

picture.image

在这里插入图片描述

开源数据测试 =========

数据集：篇章排序fintune测试数据比较好的短query 匹配长段落数据集

picture.image

在这里插入图片描述

rank_fields 排名字段,如果提供了 JSON 对象，您可以指定要考虑重新排名的键。模型将根据传入字段的顺序重新排名（即，rank_fields=['title','author','text'] 将依次使用标题、作者、文本中的值重新排名。如果标题、作者的长度，并且文本超出了模型的上下文长度，分块将不会重新考虑较早的字段）。如果未提供，模型将使用默认文本字段进行排名。添加后效果影响不显著

https://aws.amazon.com/cn/blogs/machine-learning/improve-rag-performance-using-cohere-rerank/

• 小批量下测试效果：

• 总体：rerank-multilingual-v3.0 >rerank-english-v3.0 >rerank-v3.5
• 英文：rerank-multilingual-v3.0 ≈rerank-english-v3.0 >rerank-v3.5
• 中文：rerank-multilingual-v3.0 >rerank-english-v3.0 >rerank-v3.5

rerank-english-v3.0在中文场景中很难拉开不相关问句之间向量得分

小结：

• 使用了篇章排序fintune测试数据集，这是一个短query匹配长段落的数据集。
• 在小批量测试效果中，rerank-multilingual-v3.0在总体、英文和中文场景中均表现最佳，其次是rerank-english-v3.0，最后是rerank-v3.5。
• rerank-english-v3.0在中文场景中很难拉开不相关问句之间的向量得分。
• 注意

picture.image

在这里插入图片描述