CVPR2023 | CaFo：来自黑暗寒冬的随从们，仆人们，士兵们，听从克尔苏加德的召唤！ - 文章 - 开发者社区

picture.image

如图1所示，CaFo集结了GPT-3、CLIP、DINO和DALL-E四大神器，构建了强大的few-shot学习器。

该工作出自中科院、上海AI Lab和港中文等机构。

picture.image

正如CaFo的题目《Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners》，流程也分为Prompt、Generate和Cache三步：

1）Prompt： GPT-3生成文本提示给CLIP的文本编码器；

picture.image

2）Generate： DALL-E基于domain-specific文本生成不同类别的图像样本；

DALL-E生成好图像样本后，用CLIP给每个类别筛选出topK个最高质量的图像作为增广样本。这里作者强调，因为DALL-E本身的zero-shot属性，所以使用DALL-E增广这一步仍然是zero-shot；

3）Cache： 利用cache model自适应地融合来自CLIP和DINO的预测。

CaFo使用的Cache model源自于其前身Tip-Adapter。

picture.image

下式中，，和分别表示CLIP的zero-shot预测结果，基于CLIP的cache model预测和基于DINO的cache model预测。这个cache model就是基于当前小样本任务中的支持样本和查询样本间相似度的标签传播过程。下式中和分别表示查询样本和支持样本的图像嵌入特征。此外。

这三个结果最后会集成起来给出最终结果，集成方式可以视为和对的修正：

想当然的话，本以为fs应该会比zs效果好，但从CaFo的实验结果上看，的使用还是非常有价值的，而且上式这种集成的排列组合方式也是效果最理想的。

整体流程如图4。

picture.image

到此为止其实也可以不去fine-tune的，遵循Tip-Adapter-F的做法，CaFo也去fine-tune了和来达到更好的性能。

实验部分评估11个数据集上的性能

picture.image

效率上延续了Tip-Adapter-F的优势，性能上因为引入了更丰富的多模态信息，找到了更多的帮手，所以在各项评估中都得到了明显的提升，如下若干图表所示。

picture.image

很多最近的研究工作都像CaFo一样，把大模型当作一个工具使用，然后在pipeline或任务上做创新，去解决一些实际问题。这样的逻辑对FSL/ZSL的发展应该很有帮助，至少它可以把pretrained model直接上了不知道多少个台阶，也让FSL/ZSL的研究工作看起来越来越实际了。

交流群：点击“联系作者”--备注“研究方向-公司或学校”

欢迎|论文宣传|合作交流

往期推荐

SIGIR2023推荐系统论文集锦

长按关注，更多精彩

点个在看你最好看

picture.image