会议背景
近期,AAAI 组委会发出2026论文录用通知,AI 圈年度顶会录用结果随之揭晓。AAAI 2026共收到23,680份论文投稿,创历史新高,其中4,167篇被录用,录用率仅为17.6%。
作为AI领域公认的顶会之一,AAAI 创办于1980年,每年举办一次。今年,是 AAAI 第四十届年会,将于2026年1月20日—1月27日在新加坡博览中心举办。
抖音多媒体质量实验室和南开大学合作的关于"文生图评估"方向的论文:EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation 成功入选 AAAI 2026。
论文链接:https://arxiv.org/abs/2412.18150
项目开源地址:https://shh-han.github.io/EvalMuse-project/
Evalmuse-业界领先的细粒度文生图评估体系
EvalMuse-40K 是一个包含40,000对图像-文本对和超过100万细粒度人类标注的 Benchmark,旨在全面评估 T2I 模型在图像-文本对齐方面的表现。该 Benchmark 的构建过程既复杂又细致,我们通过精心设计的数据集和标注体系,力求最大程度地反映 T2I 模型在实际应用中的表现。
我们的工作不仅仅是构建一个大规模的 Benchmark,更包括了开发创新的评估算法 FGA-BLIP2 ,旨在提高图文匹配度的评估精度与一致性。整体的工作架构图如下所示:
EvalMuse-40K 的构建过程复杂而细致。我们首先从 DiffusionDB 中收集了2,000个真实用户的提示,这些提示反映了用户的多样化需求。同时,我们生成了2,000个合成提示,涵盖了物体数量、颜色、材质、环境设置、活动属性等多个方面,以全面评估T2I模型在不同任务中的表现。
接下来,我们使用20种不同的扩散模型生成了40,000张图像,确保了图像的多样性和质量。在数据标注阶段,我们对这些图像-文本对进行了细致的人工标注,涵盖图像-文本对齐评分、元素级别的匹配检查和结构问题标记。标注过程分为预标注、正式标注和重新标注三个阶段,以确保数据的可靠性和准确性。
与现有的文本到图像(T2I)模型的 Benchmark 相比,EvalMuse-40K 提供了一个更大规模、更细粒度的评估数据库。超过100万细粒度人类标注 ,使得 EvalMuse-40K 在数据集规模和多样性上远超许多现有 Benchmark。与业界一些相关 Benchmark 的比较见下表:
FGA-BLIP2 高效的图文对齐打分方案
FGA-BLIP2 是一种端到端的细粒度对齐评分模型,借助联合微调视觉-语言模型BLIP2 来预测图像和文本之间的对齐程度。该模型有三个显著特点:首先,它能够直接从图像和文本对中学习对齐分数,实现端到端的训练流程;其次,它不仅评估图像与文本的整体的匹配度,还对文本中的各个元素进行细粒度的评估,确保评估结果更加全面和精确,模型架构如下图所示。
FGA-BLIP2是一种高效的图文对齐打分方案,它可以同时输出总分和prompt 中element 粒度的匹配度打分结果;这种方式的好处是它可以通过一次推理实现prompt维度和element维度的匹配度打分,而采用vqa问答的形式需要消耗更多的推理资源。
FGA-BLIP2 打分示例,其中Result为综合图文匹配度打分,分值为1-5,分数越高,匹配度越好;Elescore为prompt中的考点元素的命中概率,如果在0.5以上,说明模型认为该考点元素可以在图像中匹配到。
prompt
A photograph of a lady practicing yoga in a quiet studio, full shot.
图像
打分结果
"Result": 3.46,
"EleScore": {
"a lady": 0.62,
"photograph": 0.88,
"practicing": 0.57,
"quiet studio": 0.75,
"yoga": 0.73
}
prompt
The word 'START',Five letters
图像
打分结果
"Result": 4.15,
"EleScore": {
"START": 0.79
}
如下图,FGA-BLIP2 仅有1B的参数量,在多个权威的T2I 匹配度评估数据库上的性能都达到了 SOTA,甚至超过 qwen 2.5等大模型微调后的效果。
Diffusion Model RL 效果
我们尝试了将 FGA-BLIP2 作为 reward model 来调优生成模型,发现更好的评估模型能给生成模型的效果带来更大的增益。
基于 Evalmuse 举办的 Cvpr Ntire Grand Challenge
为了推进生成图像/视频领域的发展,建立生成图像/视频领域的质量评估“黄金标准”,抖音多媒体质量实验室/豆包大模型团队(字节跳动)联合南开大学在第十届 CVPR NTIRE workshop 上举办 AI 生成图像质量评估学术竞赛。
目前比赛已经圆满收尾,共吸引580人参与比赛,其中,赛道一(图文匹配度评估)参赛人数370人,赛道二(结构问题检测)参赛人数210人,最终进入决赛的有20支队伍,参赛队伍均来自国内外高校及知名互联网大厂。
-
赛道一的前三名队伍分别来自微信测试中心团队、美团、胡志明市自然科学大学;
-
赛道二的前三名队伍分别来自湖南大学/慕尼黑大学、网易游戏、蚂蚁集团。
相关链接
团队介绍
抖音多媒体质量实验室隶属于字节跳动旗下,聚焦多媒体与 AIGC 前沿评测技术创新。实验室以主客观结合的专业评测能力为核心,覆盖短视频、长视频、图片、直播、RTC、语音等全场景,为抖音、电商、生服,广告,剪映,番茄,红果等核心应用提供支持。其评测范围贯穿AIGC评测、画质、音质、网络等体验方向,支撑了多款产品的体验持续优化,致力于成为业界顶尖的多媒体评测标杆。
欢迎联系我们进行交流,联系方式:litao.walker@bytedance.com
点击阅读原文或扫描二维码进行简历投递,加入我们,让我们一起做大模型质量评估的领军者!
