面向中文有害表情包（meme）的综合性检测 - 文章 - 开发者社区

随着互联网的迅速发展，有害表情包在网络上日益泛滥。通常，有害表情包被定义为一种包含图像和嵌入文本的多模态单元，通过针对特定社会实体对个人、组织、社区或社会群体造成伤害 。此类表情包可能加剧社会分裂、引发歧视行为，并破坏社会的和谐与团结。鉴于其对社会的负面影响，有害表情包的广泛传播已成为令人担忧的社会问题。近年来，大部分研究主要集中在英文表情包的检测上，中文有害表情包的检测尚未得到充分研究，在构建可靠数据集和开发有效检测模型方面面临诸多挑战。

一方面，中文有害表情包的类型多样化。另一方面，理解中文有害表情包的真实含义需要结合文本和图像的背景信息，为检测模型带来了严峻挑战。例如，图1中的示例(a)通过男女之间的身高差异表达了性别偏见；而示例(b)中的文本则引入了侮辱性词语“菜狗”来嘲讽他人，意指无能之人。因此，模型必须整合这些信息，才能有效识中文有害表情包。

picture.image 图1：中文表情包示例。其中，(a)为无害表情包，(b)为包含性别歧视的针对性危害表情包，(c)为一般冒犯性表情包，(d)中包含了性暗示，(e)表达了丧文化。


        
          
arxiv：https://arxiv.org/abs/2410.02378  
github：https://github.com/DUT-lujunyu/ToxiCN_MM

今天给大家带来一篇中文有害表情包的检测的论文，主要关注数据集构建 和检测器开发 两个方面。

在数据集构建方面，提出了“中文有害表情包”的定义，为研究提供指导，并准确适应中文网络环境。同时从中文媒体平台上收集并进行细粒度标注，分析表情包的有害类型以及文本和图像信息的组合特征。最终构建了ToxiCN MM数据集，涵盖12,000个包含不同有害类型的样本，并基于该数据集设立了两个渐进任务：(I) 判断表情包是否有害；(II) 如果有害，进一步识别其具体的有害类型。

在检测器开发方面，提出了一个多模态知识增强（MKE）检测器作为基线，通过整合表情包内容的上下文信息来实现高效检测。利用大语言模型（LLM）捕捉表情包中文本和图像背景的信息，随后将这些信息作为增强性描述嵌入到可训练的检测器中，以提升对表情包的理解。评估了多种基线模型的检测性能，包括传统的预训练语言模型（PLM）和大语言模型（LLM）等。

问题定义

“有害表情包”通常被定义为那些针对特定社会实体进行攻击的表情包。然而，中文互联网上的大量表情包虽未明确针对具体目标，但依然传播负面价值观，同样可能对社会造成危害。为了更好地适应中文网络环境，有必要对有害表情包的定义进行重新审视和细化。为此，研究者们提出了中文有害表情包的定义：

中文有害表情包是指包含图像和中文嵌入文本的多模态单元，具有对个人（甚至是发布者自身 ）、组织、社区、社会群体或整个社会造成潜在伤害的可能性。这类表情包的表现形式多样，既可能通过冒犯或戏谑强化对特定社会实体的有害刻板印象，也可能以更隐晦和普遍的方式传播潜在的负面影响。中文有害表情包的创作和传播可能是有意或无意的。它们往往反映并强化了中文网络环境中的潜在负面价值观和文化态度，从法律或道德角度来看，这些价值观具有危害性。

基于上述定义，进一步结合社会心理学和传播学领域的共识，识别了中国网络平台上最常见的几类有害表情包，主要包括：针对性危害、一般冒犯、性暗示和丧文化。这些表情包对个体和社会造成的危害已得到广泛讨论。因此，在构建数据集时将重点关注这些有害类型。

数据集

根据中文有害表情包的定义构建了 ToxiCN MM 数据集。具体的构建过程包括数据采样、数据过滤和数据标注三个阶段，如下图所示：

picture.image 图2：ToxiCN MM 数据集构建流程图

数据采样 ：将微博和贴吧两个中文网络平台作为数据集，共采集表情包约14,000条。

数据过滤 ：对质量较差的表情包进行过滤，包括文本为非中文、图片过于模糊、或无实际含义的样本，同时删除完全相同的表情包。最终获得12,000条高质量表情包。

数据标注 ：构建了一个三级标注框架：首先，根据“中文有害表情包”的定义来判断表情包是否有害；其次，对有害表情包的毒性类型进行分析，包括针对性危害、一般冒犯、性暗示和丧文化四种类别；最后，考虑到表情包可能通过单一或融合的模态信息表达毒性，提供了文本和图像信息的组合特征。

以4：1的比例划分ToxiCN MM的训练集和测试集。最终，ToxiCN MM的基本统计信息和与现有的有害表情包数据集的对比如下表。

picture.image 表1：ToxiCN MM的基本统计信息

picture.image 表2：现有有害表情包数据集和ToxiCN MM的对比分析

检测器

为了提升检测器对表情包的理解能力，提出了一个高效且易部署的基线——多模态知识增强（MKE） ，通过融合表情包内容的背景信息来实现更准确的预测。主要包括知识挖掘和知识嵌入两个阶段。MKE的框架如下图所示：

picture.image 图3：多模态知识增强（MKE）模型图

知识挖掘 ：利用多模态大模型（MLLM）分别捕捉表情包中的内嵌文本和图像的背景信息，并生成增强性描述。具体而言，考虑到嵌入文本中可能包含中文俚语，要求MLLM结合中文特有的语言特性进行语义分析。模板设计如下：“请结合中文的语言学特性，分析文本的含义” 。进一步利用MLLM将图像转化为文本描述，以捕捉符合中国文化背景的有害元素。模板设计如下：“请结合中文文化背景，描述图像的内容” 。为了便于后续的知识嵌入，利用文本编码器对增强性描述文本进行编码。

知识嵌入 ：为利用LLM挖掘的背景信息，采用交叉注意力机制，基于文本向量空间的一致性，将内联文本与两种类型的图像描述信息进行融合。结合文本描述的特征定义为，其中为嵌入文本的编码表示。结合视觉描述的特征表示为。利用均化计算将这些特征融合为知识增强表示，并将其与原始图像特征连接，得到表情包的最终表示。最后，通过一个可训练的分类器中，进行中文有害表情包的检测。

实验结果

采用五折交叉验证的方式评估了多个传统预训练基线和大模型在 ToxiCN MM数据集上的检测性能。根据实验结果，这篇论文得出如下结论：

picture.image 表3：主实验结果

相比于无监督的LLMs，微调后的传统的预训练模型在检测性能上表现更优，表明其在特定任务中的有效性。此外，在单峰模型的对比上，文本编码器（如RoBERTa）明显优于图像编码器（如ViT），验证了文本理解在有害表情包检测中起到更为关键的作用。
在仅使用内嵌文本时，GPT-4 与 GPT-3.5 在二分类检测任务中表现相似，但在多类别任务上GPT-4的性能有所提升。在引入图像信息后，GPT-4 在识别性暗示表情包上表现最佳，但在一般冒犯和丧文化表情包上有所下降，这表明视觉信息对其决策的显著影响。
MKE 模型通过引入背景信息提升了模型的检测性能。消融实验显示，增强后的文本和图像描述均能提升模型对表情包的理解。同时，对于不同的表情包类型，MKE的提升幅度也有所不同。例如，对于依赖图文结合的针对性危害表情包，图像描述的提升更明显；而对于以文字为主的丧文化表情包，文本描述的贡献更大。
尝试评估几款开源中文大模型在检测中文有害表情包方面的性能，但结果并不理想。这可能是由于模型参数量较小，限制了其背景知识和多模态推理能力。在未来工作中，研究者也将进一步探索其他先进模型在零样本场景下的表现，并通过提示工程和指令微调提升模型的检测效果。

picture.image 表4：中文开源大模型在ToxiCN MM数据集上的检测性能

通过案例分析进一步总结中文有害表情包检测的挑战。除了表情包的原始信息，还提供了GPT-4所生成的增强性描述以及表情包含义的解释。如下表所示：

picture.image 表5：案例分析

中文有害表情包检测存在两种挑战：

第一类挑战：有害表情包中的良性信息可能误导模型判断。在实验 Exp(b) 中，当仅呈现内联文本时，GPT-4 能准确解析表情包的含义，将“我”自比为“小老鼠”以传达丧文化。然而，加入图像后，GPT-4出现幻觉，误认为老鼠在被“轻轻抚摸”，并错误地将表情包归类为无害。这表明，模型可能因表情包中表面的良性元素而忽略其潜在的毒性。

第二类挑战：网络平台上丰富的词汇变体干扰了模型对表情包的正确理解。在实验 Exp(c) 中，“狗蕉”一词是“狗叫”的谐音，隐含表达了对他人的不满，因此本质上是一个含蓄冒犯的有害表情包。然而，由于模型缺乏相关的语言知识和语境理解，无法准确识别这些变体的真实含义，导致检测失败。

写在最后

这篇论文聚焦于中文有害表情包的全面检测。提出了首个中文有害表情包数据集 ToxiCN MM，包含 12,000 个样本，涵盖了多样化的有害类型以贴合中文网络环境。同时，为了提升对中文有害表情包的理解，设计了多模态知识增强（MKE）检测器，结合嵌入文本与图像的背景信息增强模型的检测能力。在实验阶段中，评估了多种基线模型的检测效果。表明整合多模态信息与丰富的语言学知识对于有效检测至关重要。

最后，数据集中可能包含被视为冒犯性的样本，其内容不代表作者的观点或立场。作者真诚地希望使用者以负责任的方式使用数据集，避免任何形式的误用或滥用。

PS：看到这里，如果觉得不错，可以来个点赞、在看、关注。给公众号添加【星标⭐️】不迷路！您的支持是我坚持的最大动力！

欢迎多多关注公众号「NLP工作站」，加入交流群，交个朋友吧，一起学习，一起进步！