备注好友: 方向-学校/公司-姓名/昵称
【AIGC 先锋科技】交流群
这项研究评估了视觉语言模型(VLMs)在图像数据标注方面的能力,通过将它们在CelebA数据集上的性能与人工标注进行比较,以质量和成本效益为标准。
最新的LLaVA-NeXT模型在1000张CelebA图像上的标注与原始人工标注有79.5%的一致性。
将不同意的情况的重新标注纳入多数投票,将AI标注的一致性提高到了89.1%,甚至更高,对于更客观的标签也是如此。
成本评估表明,与传统的手工方法相比,AI标注显著降低了费用,在CelebA数据集中的人工标注成本不到1%。
这些发现支持VLMs作为特定标注任务的实际可行、成本效益的替代方案的潜力,既减少了财务负担,也减少了与大规模手工数据标注相关的伦理问题。
1 Introduction
高质量标注数据被认为是深度学习进步的关键因素。然而,手动数据标注在成本和伦理方面存在显著挑战[5]。大型语言模型(LLMs)的最新发展激发了将其应用于文本数据集标注和生成的巨大兴趣。与此同时,对视觉语言模型(VLMs)[19]在处理无标签图像数据的能力的研究还很少。以前的研究已经证实,VLMs可以在原始图像数据上创建各种类型的标注。然而,评估其标注质量和成本效益的全面评估是评估它们能否替代手动标注潜力的必要条件。
在本文中,作者对AI驱动的图像数据标注能力进行了评估,通过比较手动标注和由SOTA VLMs之一(LLaVA-NeXT [10])生成的标注质量与成本,以CelebA [11]数据集为例。本文的主要贡献包括:
作者确认,对于特定的图像分类任务,AI模型可以达到与人类标注员相当的表现,特别是在更客观的标签上表现出色。
基于相似质量和显著较低的成本,作者主张AI模型已经具备在某些范围内替代人工标注的潜力。
2 Background
CelebFaces Attributes Dataset (CelebA) : [11] 是一个公共的人脸属性数据集,包含超过20万个明星图像,每个图像有40个二进制属性标注。尽管该数据集是手工创建的,但分析 [16] 指出标注中存在错误和不一致之处。
LLaVA-NeXT [10] 是一个开源的 SOTA 多模态模型,相较于 LLaVA-1.5 [9],在增强视觉推理和 OCR 能力方面取得了更好的效果。LLaVA-1.5 曾是研究大型多模态模型(LMM)的数据、模型和能力的许多全面研究的基石。
3 Experiments
对于CelebA数据集中的40个二进制属性,作者设计了一些问题,要求模型仅用是 或否 来回答。例如,针对属性Eyeglasses 的问题如下:这个人戴着眼镜吗?仅用是或否回答。标注是在随机选择的1000张图像的子集上生成的。两名审核员重新审核了AI和人工标注存在差异的属性。受到[16]的启发,属性根据其客观性水平被分为3组。
如图1所示,AI和原始人类标注达到了 79.5%的整体共识,在更客观的属性上数字更高。通过使用额外的重新标注进行多数投票,AI标注与最终共识之间的匹配率进一步提高到了 89.1%。具体来说,重新标注显示了AI和人工标注的平等偏好,两种方法在20个属性中各有偏好。
在作者的实验中,作者使用单个NVIDIA RTX A6000 GPU,以float16精度,通过HuggingFace实现的LaMDA-NeXT-8B模型 [12] 生成了40K标签,针对1000张图像。然而,考虑到在现实生活中,手动标注的成本会随着规模的增长而降低,为了公平比较AI和人工标注的成本,作者基于构建整个CelebA数据集来进行成本估算,即在200K张图像上生成40个标签。
手动标注的价格基于公开可用的报价,而AI标注的价格则估计为每个标签的平均推理时间以及从Lambda [8] 租用的GPU实例的价格。如表1所示,对于像CelebA数据集中的图像分类任务,AI标注的成本可以比人工标注的成本低至1%。
4 Conclusions and Limitations
在本研究中,作者评估了使用AI模型构建的CelebA数据集与手动创建的数据集在质量和成本方面的差异。
鉴于可比的质量和高成本优势,视觉语言模型(VLMs)在需要使用多个标注来提高准确性的场景中,具有替代一个或多个标注源的潜力。
受实验规模的限制,结果可能受到AI模型和标注员的主观偏见的影响。
未来的研究可以关注VLMs是否能够有效处理更复杂的任务,以及与AI模型的更好互动是否可以提高标注质量。
[0]. Can Vision-Language Models Replace Human Annotators: A Case Study with CelebA Dataset.