备注好友:方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
多模态学习在当今的电子商务推荐平台中发挥着关键作用,能够实现精准推荐和产品理解。然而,现有的视觉语言模型(如CLIP)在电子商务推荐系统中面临以下关键挑战:
1)目标级对齐薄弱,全局图像嵌入无法捕捉细粒度的产品属性,导致检索性能欠佳;
2)文本表示模糊,产品描述往往缺乏上下文清晰度,影响跨模态匹配;
3)领域不匹配,通用的视觉语言模型可能无法很好地泛化到电子商务特定数据。为解决这些局限性,作者提出一个框架VL-CLIP,通过整合视觉定位实现细粒度视觉理解和基于LLM的Agent生成丰富的文本嵌入来增强CLIP嵌入。视觉定位通过定位关键产品来细化图像表示,而LLMAgent通过消除产品描述的歧义来增强文本特征。
llm-VL-CLIP_2507在一个美国最大的电子商务平台上针对数千万个项目显著提高了检索准确率、多模态检索有效性和推荐质量,CTR提升18.6%,ATC提升15.5%,GMV提升4.0%。
额外的实验结果表明,llm-VL-CLIP_2507在精度和语义对齐方面均优于视觉语言模型(包括CLIP、FashionCLIP和GCL),展示了结合目标感知视觉定位和LLM增强文本表示在鲁棒多模态推荐中的潜力。
1 引言
电子商务平台彻底改变了消费者与产品互动的方式,提供了满足多样化偏好的广泛目录。随着产品数量的持续指数级增长,提供高度相关的个性化推荐已成为日益复杂的挑战。消费者通常依赖多模态交互——结合文本 Query 和图像进行搜索——来找到他们想要的产品。因此,改进多模态表征学习对于提高搜索准确性、推荐质量和整体用户体验至关重要[34]。
视觉语言模型近年来的发展显著提升了跨模态检索能力。CLIP [23] 特别通过在共享嵌入空间中对齐图像和文本,展示了强大的零样本能力。然而,尽管取得了成功,CLIP在应用于电子商务场景时仍存在若干局限性。
首先,CLIP对图像进行全局处理,这意味着它往往无法捕捉到区分视觉相似但语义不同的物品所必需的细粒度产品属性。例如,两个手袋在全局嵌入空间中可能看起来几乎相同,即使其中一个具有独特的纹理或扣环设计来区分它。这种弱目标级对齐会导致次优的检索性能,尤其是在大型电子商务平台上。
另一个主要挑战是文本表示的模糊性。电子商务目录中的产品描述在质量和一致性方面差异很大。有些描述过于冗长,包含不必要的信息,而另一些则过于简略,缺乏关键细节。CLIP的文本编码器难以处理这种不一致性,尤其是在处理长文本描述时,导致文本表示和视觉表示之间的语义对齐效果不佳。如果没有结构化和丰富的文本输入,CLIP可能会误解产品意图,从而降低多模态检索的准确性。
此外,现有的多模态模型通常在通用数据集上进行训练,例如LAION-400M [25],这些数据集包含了广泛多样的图像-文本对。虽然这种训练范式能够实现广泛的零样本学习,但在应用于电子商务时,它也引入了显著的领域不匹配问题。产品图像通常包含受控背景、光线充足的专业拍摄或生活方式描绘,这些都不同于开放域数据集中看到的多样化、嘈杂的图像。因此,预训练模型无法有效地泛化到电子商务特定数据,需要领域适应策略 [14]。
为了克服这些局限性,作者提出了一种新型框架,通过两个关键创新来增强CLIP嵌入:
(1) 集成视觉定位以实现细粒度物体定位,(2) 使用大语言模型(LLM)来优化文本嵌入。视觉定位[15]能够精确定位图像中关键产品属性的位置,确保CLIP的视觉编码器专注于最相关的区域。通过引入视觉定位,作者提升了物体 Level 的对齐效果,从而生成更具判别性的视觉嵌入。
在文本方面,作者采用大语言模型 Agent 来丰富产品描述,通过生成结构化、语义上有意义的文本表示。基于原始元数据,大语言模型优化描述内容,去除噪声,并注入特定领域的知识,最终提升文本嵌入的质量。这种增强方法缓解了CLIP在处理模糊文本时的困难,并确保图像-文本对齐具有鲁棒性、准确性和上下文感知能力。
2 相关工作
多模态学习长期以来一直是研究的热点领域。预训练视觉语言模型的进步推动了其在医疗保健[9, 20]、金融[7]、社交网络[1, 22]、搜索引擎[6, 31]和电子商务[10, 17]等不同领域的应用。基于Transformer的架构革新了多模态学习。通过自注意力机制和交叉注意力机制将文本和视觉输入整合到统一的潜在空间中,VL-BERT[26]、ViLBERT[16]和LXMERT[27]等模型为鲁棒的视觉语言推理奠定了基础。后续的模型包括VisualBERT[11]、UNITER[3]和OSCAR[13]进一步优化了这些能力,在多个基准测试中取得了最先进的性能,并实现了泛化表征学习。
与基于注意力的机制并行,Radford等人引入了CLIP [23]模型,这是一种双编码器方法,在大量嘈杂的图像-文本数据上进行训练。该模型通过展示在各种视觉-语言任务中的鲁棒性能,引发了广泛的兴趣。利用对比学习机制将视觉和文本嵌入直接对齐在共享空间中,它实现了令人印象深刻的零样本检索能力。许多研究通过扩大数据规模 [4]、改进数据管理 [4, 24]、改变输入 [8, 28]、优化损失函数或对齐策略 [18, 29]、适应新任务 [21, 32]、排序 [33] 和领域自适应 [5, 12] 等方式扩展了CLIP。
基于CLIP的功能,作者对它的双编码器架构进行微调,以适应电子商务领域,在该领域,多模态检索对于将文本 Query 与产品图像进行匹配至关重要。
llm-VL-CLIP_2507涉及利用包含噪声和多样化的图像-文本对的领域特定数据集,这是电子商务平台的一个显著特征。通过定制CLIP以处理电子商务特有的挑战,作者旨在实现更优的匹配和检索性能,最终提升搜索和推荐系统中的用户体验。
3 方法论
在本节中,作者介绍了VL-CLIP,一个用于在电子商务应用中实现鲁棒图像-文本对齐的CLIP模型微调系统框架(见图2)。该框架整合了先进的视觉语言技术,分为三个阶段:1)基于视觉定位的图像区域细化,2)由大语言模型驱动的文本 Query 合成,3)结合CLIP优化的对比训练。下面作者将详细解析每个组件,包括具体实现细节和设计原理。这种鲁棒的方法解决了数据噪声、领域特定对齐和可扩展性等挑战。本文中使用的所有数学符号均列于附录A的表8中。
3.1 基于视觉定位的图像区域细化
为了聚焦与产品相关的区域,作者采用了Grounding DINO(GD)——一种零样本目标检测模型,该模型能够将视觉区域与文本 Prompt 进行对齐[15],用于视觉定位。对于每张图像,从产品元数据中提取的产品类型(例如,“连衣裙”、“背包”)被用作文本 Prompt ,输入Grounding DINO以生成候选框及其置信度分数。选择得分最高的框,并对其区域进行裁剪和调整大小。如果没有任何框超过置信度阈值,则保留原始图像以避免丢失关键上下文。视觉定位利用语义文本 Prompt 的能力,确保了以产品为中心的区域精确定位,减少了来自无关背景的噪声(例如,工作室道具)。为了增强对产品相关视觉元素的聚焦,作者采用以下步骤来优化图像输入:
给定图像
,Grounding DINO 生成一组
个边界框 Proposal :
₁
₂
每个边界框
都与一个置信度分数
相关联
其中
和
分别表示Grounding DINO的图像区域
和文本 Prompt
的编码器,TDINO是温度参数,
表示
是最相关区域的概率。最高置信度的边界框
是通过以下方式选择的:
如果
的置信度得分低于预设阈值
,则保留整张图像:
其中
基于所选边界框提取以产品为中心的区域,而
是最终精炼的图像输入。一旦获得精炼图像
,它将通过CLIP视觉编码器
以获取其特征嵌入:
其中
表示归一化的图像嵌入。通过利用视觉定位技术进行区域细化,作者确保提取的嵌入能够捕捉到细粒度的产品属性,从而在多模态检索中实现更好的对齐。
3.2 基于大语言模型的文本 Query 合成
为改进多模态检索中的文本表示,作者引入了一种由大语言模型驱动的文本优化流程。该流程通过生成与视觉特征更匹配的结构化、语义丰富的 Query 来增强产品描述。该方法包含三个主要组件:摘要、评估和优化。
给定一个包含结构化和非结构化产品信息的原始文本输入,作者首先构建一个初始的连接元数据表示tconcat:
其中
表示产品类型(例如
衬衫,“手提包”),
代表年龄和性别属性(当适用时),
表示原始产品标题和描述,
上下文包含经过筛选的少样本示例,用于在模糊情况下指导LLM的行为。这些连接信息由基于LLM的摘要生成器进行总结,形成初始 Query
。鉴于近期进展已展示出LLM的强大少样本能力 [2],作者利用一组经过筛选的少样本示例,这些示例专门设计用于解决LLM在
上下文中表现出的行为偏差问题。这使作者能够强化期望行为并提升性能,同时保持模型的泛化能力。
接下来,作者通过两个专门的基于LLM的模块——一个评估器和一个细化器,迭代地优化这个初始 Query ,将其转化为一个结构化、简洁且视觉相关的 Query 。
定义Evaluator(
)为一个基于大语言模型(LLM)的函数,该函数根据以下标准评估 Query
在拼接输入文本
上的质量:
(1) 属性一致性:确保 Query 反映了输入中存在的属性。例如,如果
指定颜色为红色,该标准评估
是否包含颜色属性,并且该属性确实是红色。
(2) 简洁性:将 Query 长度限制在10-20个词,同时保留其含义。
(3) 与视觉数据的一致性
仅保留视觉可辨识的属性。例如,如果
提到T恤是“条纹的且快干的”,这一标准确保作者仅保留“条纹的”,因为它具有视觉可辨识性,而排除“快干的”,因为它是一个非视觉的功能性属性。
以
作为
开始,在每次迭代
(其中
),Evaluator 首先评估前一次迭代中的 Query
并提供反馈
。如果 Evaluator 通过返回
表示无需进一步改进,则迭代优化过程终止,并将 Query
接受为最终结果。否则,Refiner 函数利用 Evaluator 的反馈生成下一轮迭代的改进 Query
。作者通过实验将
设置为 5,因为这样可以提供足够的迭代次数以实现收敛,同时保持计算效率。
迭代优化完成后,作者得到最终优化的 Query ,记为
。该 Query 通过文本编码器
嵌入到一个适合多模态检索的语义空间中,生成一个归一化嵌入向量
。
其中
表示用于在检索模型中与图像嵌入进行匹配的归一化文本嵌入。通过采用这种LLM驱动的合成方法,文本表示变得更加结构化、视觉对齐和领域适应,最终提升了多模态检索系统的性能。图3中所示的这个迭代循环,呼应了ego反思和ego纠正机制,使模型能够自主改进其输出。
生成器、评估器和细化器的 Prompt 分别提供在附录C.1中。
3.3 CLIP的对比微调
作者在共享语义空间中对图像和文本嵌入进行对齐,以微调CLIP模型,克服通用模型的局限性。作者采用对称对比损失函数,最大化匹配图像-文本对之间的相似度,同时最小化不匹配对的相似度。这确保了跨模态的鲁棒对齐。微调后的ViT-B/32处理裁剪后的图像,而基于transformer的文本编码器优化LLM增强的 Query 。两者均生成512维的嵌入,针对电子商务特定的检索任务进行优化。训练过程涉及多个周期,利用特定领域的增强技术,以在检索和分类任务中实现更高的精度。这引入了一个系统框架,用于微调CLIP模型,以在电子商务应用中实现鲁棒的图像-文本对齐。对称InfoNCE风格的损失函数最大化匹配对的相似度,并最小化负样本的相似度:
其中
是对比损失的温度。附录C中的算法1总结了VL-CLIP训练的逐步步骤。
3.4 在线部署与可扩展性
在本节中,作者介绍了作者的处理流程以及如何在沃尔玛电子商务平台上对数千万种商品大规模部署VLCLIP。生产推理流程结合了多模态处理、高效索引和可扩展检索,为电子商务应用提供推荐。接下来,作者将详细阐述每个组件、如何对其进行扩展以及其在系统中的作用。
3.4.1 图像和文本预处理。作者利用感知哈希(pHash)[30],这是一种生成图像紧凑且鲁棒的哈希表示的技术,生成的指纹对尺寸调整和压缩具有不变性。使用感知哈希技术对图像进行哈希处理,以识别和删除重复图像,减少目录中的冗余。去重后,图像通过视觉定位处理,裁剪以产品为中心的区域。这减少了由背景变化引起的误报(例如,同一件连衣裙在不同模特上的情况)。视觉定位使用从元数据中派生的 Prompt (例如,“手提包”)动态裁剪以产品为中心的区域。
3.4.2 层次式可导航小世界(HNsw)索引。嵌入采用HNSW[19]进行索引,这是一种基于图的近似最近邻(ANN)算法,针对高召回率和低延迟进行了优化。层次图结构允许对数时间搜索复杂度。元数据(例如产品类型)与裁剪后的图像融合,以创建一个统一的数据集。这确保了检索同时考虑了视觉和上下文信号。作者不是为目录中的所有图像计算图像嵌入,而是维护一个图像嵌入数据库。为百万 Level 的电商数据项生成嵌入在计算上是密集的。为此,作者将工作负载分配到多台机器上,每台机器都配备了T4 GPU。
3.4.3 检索与成对排序。对于 Query 嵌入向量
,HNSW索引使用余弦相似度检索前
个候选项。ANN索引被 Query 以检索视觉相似的物品。高效的索引构建和检索对于实时性能至关重要。作者通过按产品类型对物品进行分组,并为每个组构建单独的索引来优化该过程。
3.4.4 可扩展性。本研究开发的结构已全面部署在沃尔玛的电子商务平台上,支持大规模实时推荐和多模态检索。该流程将数据预处理、嵌入生成和检索整合在一个无缝的工作流中。这些优化减少了搜索空间和内存使用,同时保持了质量。pHash将MRR提升了7.2%;基于产品类型的HNSW索引将Precision@1提升了9%,并将与IVF索引相比的延迟降低了81%。附录D中的算法2展示了推理过程。
4 实验
4.1 数据准备
数百万产品图像和元数据(例如描述、标题、属性)来源于一个广泛的电子商务目录。这个多样化的数据集包括服装和家庭用品,确保了各类别的全面代表性。每个样本包含产品图像,这些图像可能质量较高,但背景中可能包含干扰元素,如真实场景或生活方式场景,以及文本形式的元数据,后者由结构化属性(产品类型、性别、年龄组)和非结构化数据(标题、描述)组成。
作者利用以下预处理步骤来清理输入数据:
1)图像归一化:调整图像大小并使用CLIP的预处理流程进行归一化
,其中
和
是通道均值和标准差值。
2)文本清理:从元数据中移除HTML标签、特殊字符和冗余关键词。保留描述性关键词,排除噪声(例如"免费送货"),从而生成语义丰富的输入。
3)类别平衡:分层抽样确保产品类型按比例表示,以减轻模型预测可能因过度代表类别而出现的偏差。
作者使用来自Walmart.com时尚和家居类别的700万种产品,采用图2中描述的模型架构对VL-CLIP模型进行微调。作者在包含时尚和家居物品的数据集上评估了llm-VL-CLIP_2507。
为确保多样性,作者跨不同产品类型(如T恤、连衣裙和咖啡桌)等量采样,最终形成时尚类10种产品类型、家居类7种产品类型,共计17种产品类型。总共获得了10,000个时尚类样本和10,000个家居类样本用于评估。
4.2 评估指标
在Walmart数据集的多模态检索任务上,将VL-CLIP的性能与现有方法进行了比较,包括CLIP [23]、GCL [33]和FashionCLIP [5]。CLIP是一个基础模型,通过对比学习 [23] 从大规模图像-文本对中学习联合表示。GCL是对比学习框架的泛化,结合了包含图像-文本对和 Query 的多个输入字段中的排序信息 [33]。FashionCLIP是CLIP范式的专门适配版本,专为时尚领域设计,利用细粒度标注和领域特定特征 [5]。
- 作者使用两种标准指标来衡量检索性能:
- HITS@k:该指标报告了在排序结果中正确项位于前k个结果中的 Query 比例。形式上,对于N个 Query ,每个 Query i都有一个真实正确的项
。在根据相似度分数对所有项进行排序后,令
表示
的位置。则
,其中
是一个指示函数,当
时返回1,否则返回0。在作者的评估中,作者使用HITS@5。
- 平均倒数排名(MRR):对于 Query i,如果正确项
的排名为
,其倒数排名为
。MRR是所有N个 Query 的倒数排名的平均值,表示为
。该指标特别倾向于排名靠前的正确项。
4.3 检索结果
HITS@5和MRR指标。作为 Baseline 预训练的视觉语言模型CLIP,其检索能力表现一般。在Fashion数据集上HITS@5达到0.3080,在Home数据集上为0.2355,这可能是由于其全局嵌入难以捕捉细粒度的产品属性。多模态检索任务涉及根据文本描述从给定集合中识别最相关的图像。例如,在产品检索场景中,目标是将产品描述与其目录中的对应图像进行匹配。
GCL通过将细粒度相关性分数集成到对比学习过程中,改进了CLIP,使其能够明确学习细致的排序信号,而不仅仅是二元相关性,从而实现了更高的指标(在Fashion上HITS @ 5达到0.3992,在Home上达到0.3104)。然而,它仅依赖排序信息并不能完全解决产品图像和文本描述中的特定领域细微差别。
FashionCLIP通过应用针对时尚领域优化的域适应策略,进一步提升了在Fashion数据集上0.4428和Home数据集上0.4227的性能。这种适应策略使模型能够更好地编码与服装相关的风格和设计元素,同时它也显著提升了在Home数据集上的表现,表明使用领域感知特征对视觉语言表示进行微调能够超越原始领域进行泛化。
VL-CLIP在两个数据集上均实现了最高的检索准确率和排名质量,这一点通过其领先的HITS@5和MRR得分得以证明(在Fashion数据集上分别为0.6758和0.5252,在Home数据集上分别为0.6692和0.5100)。通过将视觉表征的局部目标级定位与大语言模型增强的文本嵌入相结合,VL-CLIP能够更有效地捕捉关键产品细节并解决模糊的文本描述,优于其他竞争方法。其结果是图像与文本之间实现了更精确的匹配,这在电子商务场景中尤为有价值,因为看似微小的产品属性和微妙的语言表达都可能对检索成功产生关键影响。
4.4 消融研究
为深入探究VL-CLIP框架中每个组件的作用,作者通过移除关键模块——视觉定位和基于大语言模型的 Query 优化——进行消融实验,并评估其移除对检索性能的影响。
这项消融分析的结果总结在表2中。完整的VL-CLIP模型在aHITS@5和MRR指标上均取得了最高性能,分别为0.6758和0.5252。移除视觉定位功能导致在时尚和家居类别中aHITS@5平均下降15.34%,MRR下降11.23%,这表明背景移除和聚焦主要物品对于提升视觉匹配性能至关重要。此外,移除基于LLM的 Query 优化步骤使得在已经缺少视觉定位功能的模型基础上,aHITS@5性能进一步下降7.40%,MRR下降5.32%,这表明通过提供更清晰、更精确的文本描述来优化文本 Query 能够提高检索准确率。这项消融研究强调,视觉定位和基于LLM的 Query 增强在提升检索有效性方面都发挥着关键作用。
4.5 零样本分类
除了信息检索和消融实验外,作者还进行了一项零样本分类任务。作者执行了两个时尚物品属性分类任务:领口分类和图案分类。在领口分类任务中,作者手动选择了1,000个时尚物品,每个物品属于以下类别之一:V领、圆领、挖领、连帽衫领、翻领和船领。作者采用零样本分类方法,为每个类别生成描述性文本(例如,“带有挖领的T恤”),并将其通过文本编码器。分类过程通过将图像嵌入与这些文本嵌入进行比较,找到最接近的匹配来确定预测类别。类似地,对于图案分类任务,作者使用以下类别采用相同的零样本方法:“纯色”、“卡通行人”、“心形符号”和“花卉图案”。
4.6 VLM-Agent 评估
由于文本与图像信息的对齐非常主观,作者采用视觉语言模型(VLM) Agent 进行评估。作者的评估包含两个检索任务:基于 Query 的检索和相似物品推荐。基于 Query 的检索特别针对精细的产品属性,以确保准确检索产品的细微特征。例如,"蓝绿色花卉印花衬衫"旨在寻找与颜色和图案特征相匹配的物品;"米色V领短袖T恤"旨在寻找颜色、领口和袖子的特征。在基于 Query 的评估中,每个 Query 对应的检索图像被单独与 Query 配对,并传递给VLM。VLM模型被要求评估提供的图像是否准确匹配给定的 Query ,并产生二进制输出(0表示不匹配,1表示匹配)。类似地,在相似物品评估中,检索到的图像被单独与 Anchor 图像配对,VLM被要求评估这两个图像在视觉特征上是否匹配。作者使用VLM作为裁判的评估框架来评估llm-VL-CLIP_2507的有效性。关于自动 Query 生成和VLM评估的详细过程,请参见附录E。
这些改进可归因于视觉定位和大语言模型在优化检索过程中的互补作用。视觉定位帮助模型聚焦于图像中的主要物品,过滤掉背景干扰,并确保强调精细的产品属性。与此同时,大语言模型通过使搜索 Query 更具结构化并使其与真实世界的用户意图保持一致,提升了搜索 Query 的质量。这些增强功能共同实现了对符合特定属性 Query 的产品进行更准确的检索。
4.7 计算效率
VL-CLIP在Walmart.com的时尚和家居类别的数百万种商品上进行了微调。采用分层抽样方法以确保不同商品类型(超过500种类型)的代表性。VL-CLIP在电子商务检索任务上经过6个epoch的稳健性能表现后进行提前停止(见图4)。模型在视觉和文本嵌入之间表现出强一致性,通过验证集对比损失从0.38稳定降至0.28得到证实。检索性能通过Recall@10衡量,表明模型在47%的 Query 中有效识别了前10个结果中的相关商品。在此点之后延长训练导致Recall@10出现边际下降,表明对噪声对或学习能力的饱和。这突出了提前停止的重要性,第6个epoch代表了部署的最佳预训练权重。这些结果验证了作者流程——结合视觉定位、大语言模型和对比损失——对于可扩展电子商务推荐系统的有效性。
4.8 跨域泛化
为了评估VL-CLIP的泛化能力,作者在公开的Google购物数据集上进行了零样本评估。该数据集涵盖了多种电子商务类别,为测试模型在未经额外微调的情况下将知识迁移到未见过的领域的能力提供了可靠的基准。它专门设计用于训练和评估在细粒度排序任务中的多模态检索模型。如表5和表6所示,当应用于这个新数据集时,VLCLIP始终优于其他模型。
作者进一步在Walmart.com的
和Toys类别上评估了零样本性能,其中VL-CLIP再次取得了优于其他模型的结果。这些发现突出了该模型在新型产品领域上的强迁移性(参见附录F)。
4.9 在线A/B测试
为验证VL-CLIP模型的有效性,作者在美国排名前两位的电商平台之一进行了大规模的A/B测试。该实验比较了作者的VL-CLIP模型与已部署的 Baseline 模型的性能。测试持续四周,涵盖了数百万用户在各类产品中的交互行为。A/B测试中评估了以下关键指标:点击率(CTR),即用户在查看推荐产品后点击的比例;加购率(ATC),即用户将推荐产品加入购物车的百分比;商品交易总额(GMV),即推荐产生的总销售额。
作者在图5中展示了几个案例研究。第一列是 Anchor 定项,其余是VL-CLIP推荐的前五项推荐项。在图5(a)中, Anchor 定项是一条绿色花卉中长连衣裙。VL-CLIP检索到相似风格的连衣裙,捕捉了图案和长度的变化,同时保持了整体美学。图5(b)中的项是一条黑色裹身长袖连衣裙。VL-CLIP推荐具有相似袖长和结构化轮廓的物品,注重颜色和风格。图5(c)、(d)和(e)展示了VL-CLIP强大的时尚理解能力。更多案例研究请参考附录B中的图6-8。
5 结论与未来工作
在本工作中,作者通过引入VL-CLIP这一新型框架,解决了电子商务多模态表征学习中的关键挑战。VL-CLIP框架集成了视觉定位(Visual Grounding)以增强视觉表征,并采用大语言模型(LLM)增强的文本嵌入进行语义丰富。在大型电子商务数据集上的大量实验表明,VL-CLIP在性能上优于当前最先进的方法。
具体而言,在Home数据集上,
提升了
,在Fashion数据集上提升了
。此外,基于 Query 的检索评估结果显示,检索准确率提高了
,相似商品推荐效果提升了
。
在线
测试进一步验证了VL-CLIP的有效性,结果显示点击率(CTR)提升了
,平均交易转化率(ATC rate)提升了
,商品交易总额(GMV)增长了
,充分证明了VL-CLIP的实际应用效果。将VL-CLIP部署在Walmart.com上,突出了其可扩展性和实际应用价值。该框架的分层索引和分布式计算流程高效处理了数百万种商品目录项。