RETSIM:一个高效且鲁棒的数据集、文档去重新SOTA算法 - 文章 - 开发者社区

“ 文档去重，数据集去重，这种任务在工作中偶尔能遇到，以前都是用simhash、minhash，这个工作介绍了一个基于深度模型的SOTA方案，即使暂时用不到，还是可以收藏一下的。


        
          
https://arxiv.org/pdf/2311.17264.pdf  
https://github.com/google/unisim

在文档去重任务方面，传统的MinHash算法仍然占据主导地位。为了解决这个问题，本文提出了一种名为RETSim（Resilient and Efficient Text Similarity）的轻量级、多语言深度学习模型，专门用于生成鲁棒的神经嵌入，以便进行近似重复文本检索、聚类和数据集去重任务。

picture.image

核心观点：RETSim通过结合最先进的RETVec文本向量化器、transfofmers、大型错字增强训练语料库和metric learning训练机制，实现了在近似重复文本检测基准上的新的最佳性能。此外，该模型还在数据集去重任务和垃圾邮件聚类应用中表现出色。为了评估多语言、近似重复文本检索能力在对抗设置下的性能，本文还引入了W4NT3D基准（Wiki-40B 4dversarial Near-T3xt Dataset）。

算法原理：RETSim模型由三个主要组件构成：字符级向量化器、小型变压器模型和嵌入平均模块。首先，字符级向量化器将输入文本分割成512个字符的块，并使用RETVec字符编码器对每个块进行编码。接下来，小型变压器模型用于计算每个文本块的256维嵌入。最后，嵌入平均模块将部分文本嵌入合并成全文本嵌入，以便进行全局近似重复匹配。

picture.image

结论：RETSim在数据集去重、对抗性文本检索基准和垃圾邮件聚类任务方面表现出了显著的鲁棒性和准确性，超越了MinHash和神经文本嵌入。同时，W4NT3D基准为评估多语言、近似重复文本检索能力提供了一个有价值的工具。RETSim模型和W4NT3D基准已在https://github.com/google/unisim上开源，以便研究人员和实践者进一步探索和改进文本相似度检测方法。