ICME VQA Grand Challenge 获奖工作分享

ICME VQA Grand Challenge获奖

字节跳动火山引擎 -多媒体实验室团队获得了 ICME 21 Best Grand Challenge Winner Team

团队成绩

比赛共有 12 支来自不同国家的参赛队伍，其中包括上海交通大学、深圳大学、日本东京工业大学和印度 IIT 大学参赛队伍。字节跳动 火山引擎 -多媒体实验室在无参指标赛道中所有评价指标均排名第一；在全参考指标赛道中部分指标排名第一。

竞赛简介

该比赛为鹏城实验室、北京大学深圳研究院、腾讯和美国南加州大学联合举办项目，主办方在视频编码和质量评估方面有比较深厚的学术积累，合作参与过业界知名的全参质量评估算法 VMAF 开发工作，对 UGC (User Generated Content) 视频画质的相关学术和落地应用也有广泛的探索研究。

比赛名称：Challenge on Quality Assessment of Compressed UGC Videos ，主要针对 UGC 源视频画质和 H.264/AVC 压缩失真对视频主观画质的影响的研究，该竞赛共包含两个赛道，分别对应 VQA 领域两类主流的解决方法：

无参考视频质量评价（NR-VQA）MOS 赛道：在参考信息缺失的前提下对损伤视频质量进行评价

全参考视频质量评价（FR-VQA）DMOS 赛道：衡量参考视频和损伤视频之间的质量差异

竞赛数据集

竞赛数据集包含 6400 个训练视频片段和 800 个验证视频片段，另外举办方保留 800 支测试片段用于对参赛模型进行比较，参赛者无法获取测试集视频片段。

数据集中参考视频是从实际的视频分享 app 中收集。

通过设置不同的压缩参数，每个参考视频被 H.264/AVC 编码器压缩成损伤程度由弱到强的 7 个损伤片段。

主办方通过主观测试针对每一支视频片段收集了超过 50 个主观 MOS 评分。

竞赛难点

相比于传统的 PGC 视频，UGC 视频画面内容和损伤种类的复杂性为质量评价提出了巨大的挑战。

从画面内容角度，UGC 包含 CG 游戏录屏、自然风景、食物、建筑、人像、动物等各种类型（图1）；同时画面中的特效，诸如文字、CG 贴纸、特效滤镜、含黑边的三明治视频等（图2）都对传统评价算法性能有一定影响。

（图1：UGC 内容种类）

（图2：UGC 画面特效）

同时 UGC 中包含多种来源损伤（图3）。拍摄端的噪声、过度曝光、欠曝光和抖动等与传输过程的压缩失真等相互叠加，为质量评价算法的研究提出更大的挑战。

（图3: UGC 画质损伤）

1.算法背景简介

早期的质量评价算法多在手工特征的基础上设计的，随着深度学习技术的发展，深度神经网络 (CNNs) 在 VQA 中得到了广泛的应用。

由于 Transformer 在自然语言处理 (NLP) 领域取得巨大成功，QOE-LAB 采用 Transformer 进行UGC 视频的全参考和无参考视频质量评估，提出了一种 CNN 和 Transformer 相结合的框架。

采用 CNN 提取局部特征，利用 Transformer 结构通过自注意机制预测主观质量分数。

2.框架和流程

（图4: 提出的无参考模型）

我们使用 CNN 作为特征提取器来计算输入视频块的深度特征。提取 ResNet 不同层的特征，在空间维度上利用 MaxPooling 将这些特征降采样到相同大小，并在特征维度上进行拼接。

将该特征的空间维度展平并进行 Linear projection, 并添加 embedding 作为 Transformer 的输入：

采用的 Transformer 架构遵循标准的 Vision Transformer，包含 L 层多头注意力模块 (MSA) 和多层感知器模块 (MLP)。

Transformer 与 MLP 头连接，用于回归最终的主观评分。

用于训练的损失函数均方误差 l1-Loss 和 PLCC-Loss 加权相加构成：

PLCC 表示一个 batch 内预测值和 groudturthlabel 的相关性，其值归一化至[-1,1]，PLCC 值越大性能越好，因此 PLCC 损失表示为：

全参考模型框架如图5所示。reference patch 和对应位置的 distortion patch 输入共享权值的孪生神经网络分别提取深度特征，并在特征空间的计算 L1 距离，拼接成新的特征输入回归模块映射得到主观 DMOS 分值。

（图5: 提出的全参考模型）

3.实验

如图 6 所示，在训练过程中，从压缩视频片段和相应的参考视频片段中随机裁剪出一个 256×256 的图像块 patch (针对 FR 框架)，然后将压缩视频的质量评分直接作为裁剪 patch 的训练标签。

测试时，从每一帧的四个角和中心裁剪得到 5 个大小为 256×256 的 patch 分别计算分值 (FR 框架)，所有 patch 的平均得分作为压缩视频的预测分。

（图6: patch selection）

在实验中，用于特征提取的 ResNet18 网络使用在 ImageNet 上预训练的用于分类任务的网络的权值进行初始化，并使用相同的学习率与框架的其他部分一起进行训练；

Transformer 包含 2 层，MSA 头数为 16。在加权 w1=1.00, w2=0.02 的条件下，利用 L1 损失和 PLCC 损失联合优化框架。

通过对比竞赛结果中的各队伍在测试集上的性能指标（PLCC/SROCC/KROCC/RMSE）以及 SOTA FR/NR 算法预测质量分数散点图，对提出模型的性能进行验证：

A. MOS track：

Comparing with SOTA NR-VQA metrics：

B. DMOS track:

Comparing with SOTA FR-VQA metrics：

对于直接预测损伤视频 MOS 分的 NR 方法，我们提出的 NR 框架在所有评价指标中排名第一。

对于预测参考视频和损伤视频质量差异 DMOS 分值的 FR 方法，我们提出的 FR 框架在预测单调性(即 SROCC 和 KROCC)方面排名第一，在预测精度(即 PLCC 和 RMSE)方面排名第二。

同时通过散点图可以看出，提出的方法与主观评分具有较高的相关性，显著超出了其他的 SOTA FR/NR 方法。

针对 UGC 内容的研究与实际应用场景更加贴近，UGC 质量评价算法对监控视频平台整体画质、监督画质提升算法、指导压缩效率提升等场景有重要作用。

提出的 Transformer 结构实现了算法性能的提升，对算法研究具有较强的指导意义。

Reference

ICME 比赛官方网:

2021.ieeeicme.org/conf_challe…

UGCVQA 官方网站：ugcvqa.com/

字节跳动 火山引擎 -多媒体实验室团队获得了 ICME 21 Best Grand Challenge Winner Team