- 赛道名: 剧本角色情感识别
- 赛道链接: https://www.datafountain.cn/competitions/518
赛题任务
本赛题提供一部分电影剧本作为训练集,训练集数据已由人工进行标注,参赛队伍需要对剧本场景中每句对白和动作描述中涉及到的每个角色的情感从多个维度进行分析和识别。该任务的主要难点和挑战包括:1)剧本的行文风格和通常的新闻类语料差别较大,更加口语化;2)剧本中角色情感不仅仅取决于当前的文本,对前文语义可能有深度依赖。
数据介绍
字段
- id
- content: 文本内容, 剧本对白或动作描写
- character: 角色名,文本中提到的角色
- emotion: 情感识别结果(爱情感值,乐情感值,惊情感值,怒情感值,恐情感值,哀情感值)
备注
- 本赛题的情感定义共6类(按顺序):爱、乐、惊、怒、恐、哀;
- 情感识别结果:上述6类情感按固定顺序对应的情感值,情感值范围是[0, 1, 2, 3],0-没有,1-弱,2-中,3-强,以英文半角逗号分隔;
- 本赛题不需要识别剧本中的角色名;
PS: 训练集中有部分文本是没有标签的,这部分数据大多是剧本中的环境描写,是没有情感的,参赛选手可以当作上下文环境参考,也可以忽略 (来自官方的解答)
baseline 思路
该题为多标签多分类问题,本 baseline 采用了 simpletransformers 的 MultiLabelClassification 模块实现
https://simpletransformers.ai/docs/multi-label-classification/
- 简单拼接 content 和 character
- 使用 hfl/chinese-bert-wwm-ext 模型
- 全量训练, 只训练了一轮, 线上得分为 0.682 左右
具体细节见代码(见阅读原文链接)