抖音多媒体质量实验室 EvalMuse 入选 AAAI 2026，定义 T2I 评估新体系 - 文章 - 开发者社区

会议背景

近期，AAAI 组委会发出2026论文录用通知，AI 圈年度顶会录用结果随之揭晓。AAAI 2026共收到23,680份论文投稿，创历史新高，其中4,167篇被录用，录用率仅为17.6%。

作为AI领域公认的顶会之一，AAAI 创办于1980年，每年举办一次。今年，是 AAAI 第四十届年会，将于2026年1月20日—1月27日在新加坡博览中心举办。

抖音多媒体质量实验室和南开大学合作的关于"文生图评估"方向的论文：EvalMuse-40K: A Reliable and Fine-Grained Benchmark with Comprehensive Human Annotations for Text-to-Image Generation Model Evaluation 成功入选 AAAI 2026。

picture.image

论文链接：https://arxiv.org/abs/2412.18150

项目开源地址：https://shh-han.github.io/EvalMuse-project/

Evalmuse-业界领先的细粒度文生图评估体系

EvalMuse-40K 是一个包含40,000对图像-文本对和超过100万细粒度人类标注的 Benchmark，旨在全面评估 T2I 模型在图像-文本对齐方面的表现。该 Benchmark 的构建过程既复杂又细致，我们通过精心设计的数据集和标注体系，力求最大程度地反映 T2I 模型在实际应用中的表现。

我们的工作不仅仅是构建一个大规模的 Benchmark，更包括了开发创新的评估算法 FGA-BLIP2 ，旨在提高图文匹配度的评估精度与一致性。整体的工作架构图如下所示：

picture.image

EvalMuse-40K 的构建过程复杂而细致。我们首先从 DiffusionDB 中收集了2,000个真实用户的提示，这些提示反映了用户的多样化需求。同时，我们生成了2,000个合成提示，涵盖了物体数量、颜色、材质、环境设置、活动属性等多个方面，以全面评估T2I模型在不同任务中的表现。

接下来，我们使用20种不同的扩散模型生成了40,000张图像，确保了图像的多样性和质量。在数据标注阶段，我们对这些图像-文本对进行了细致的人工标注，涵盖图像-文本对齐评分、元素级别的匹配检查和结构问题标记。标注过程分为预标注、正式标注和重新标注三个阶段，以确保数据的可靠性和准确性。

与现有的文本到图像（T2I）模型的 Benchmark 相比，EvalMuse-40K 提供了一个更大规模、更细粒度的评估数据库。超过100万细粒度人类标注 ，使得 EvalMuse-40K 在数据集规模和多样性上远超许多现有 Benchmark。与业界一些相关 Benchmark 的比较见下表：

picture.image

FGA-BLIP2 高效的图文对齐打分方案

FGA-BLIP2 是一种端到端的细粒度对齐评分模型，借助联合微调视觉-语言模型BLIP2 来预测图像和文本之间的对齐程度。该模型有三个显著特点：首先，它能够直接从图像和文本对中学习对齐分数，实现端到端的训练流程；其次，它不仅评估图像与文本的整体的匹配度，还对文本中的各个元素进行细粒度的评估，确保评估结果更加全面和精确，模型架构如下图所示。

picture.image

FGA-BLIP2是一种高效的图文对齐打分方案，它可以同时输出总分和prompt 中element 粒度的匹配度打分结果；这种方式的好处是它可以通过一次推理实现prompt维度和element维度的匹配度打分，而采用vqa问答的形式需要消耗更多的推理资源。

FGA-BLIP2 打分示例，其中Result为综合图文匹配度打分，分值为1-5，分数越高，匹配度越好；Elescore为prompt中的考点元素的命中概率，如果在0.5以上，说明模型认为该考点元素可以在图像中匹配到。

prompt

A photograph of a lady practicing yoga in a quiet studio, full shot.

图像

picture.image

打分结果

  
"Result": 3.46,  
"EleScore": {  
        "a lady": 0.62,  
        "photograph": 0.88,  
        "practicing": 0.57,  
        "quiet studio": 0.75,  
        "yoga": 0.73  
}

prompt

The word 'START'，Five letters

图像

picture.image

打分结果

  
    "Result": 4.15,  
    "EleScore": {  
        "START": 0.79  
    }

如下图，FGA-BLIP2 仅有1B的参数量，在多个权威的T2I 匹配度评估数据库上的性能都达到了 SOTA，甚至超过 qwen 2.5等大模型微调后的效果。

picture.image

Diffusion Model RL 效果

我们尝试了将 FGA-BLIP2 作为 reward model 来调优生成模型，发现更好的评估模型能给生成模型的效果带来更大的增益。

picture.image

基于 Evalmuse 举办的 Cvpr Ntire Grand Challenge

为了推进生成图像/视频领域的发展，建立生成图像/视频领域的质量评估“黄金标准”，抖音多媒体质量实验室/豆包大模型团队（字节跳动）联合南开大学在第十届 CVPR NTIRE workshop 上举办 AI 生成图像质量评估学术竞赛。

目前比赛已经圆满收尾，共吸引580人参与比赛，其中，赛道一（图文匹配度评估）参赛人数370人，赛道二（结构问题检测）参赛人数210人，最终进入决赛的有20支队伍，参赛队伍均来自国内外高校及知名互联网大厂。

赛道一的前三名队伍分别来自微信测试中心团队、美团、胡志明市自然科学大学；
赛道二的前三名队伍分别来自湖南大学/慕尼黑大学、网易游戏、蚂蚁集团。

picture.image

相关链接

论文：https://arxiv.org/abs/2412.18150
开源地址：https://shh-han.github.io/EvalMuse-project/

团队介绍

抖音多媒体质量实验室隶属于字节跳动旗下，聚焦多媒体与 AIGC 前沿评测技术创新。实验室以主客观结合的专业评测能力为核心，覆盖短视频、长视频、图片、直播、RTC、语音等全场景，为抖音、电商、生服，广告，剪映，番茄，红果等核心应用提供支持。其评测范围贯穿AIGC评测、画质、音质、网络等体验方向，支撑了多款产品的体验持续优化，致力于成为业界顶尖的多媒体评测标杆。

欢迎联系我们进行交流，联系方式：litao.walker@bytedance.com

点击阅读原文或扫描二维码进行简历投递，加入我们，让我们一起做大模型质量评估的领军者！

picture.image