InstructERC:对话情绪识别任务下的“大模型”

提纲

1 简介

2 问题定义‍

3 InstructERC‍

4 实验结论‍‍‍‍‍‍‍

5 总结

参考文献

1 简介‍‍‍‍‍‍‍‍‍‍‍‍

目前对于传统任务套用大模型的文章都比较感兴趣,非常期待大模型在这些传统任务上的表现。于是看到了InstructERC这篇文章,这是一个针对对情绪识别任务的模型框架。

受限于对话流程设计的复杂性,对话场景下的情绪识别( ERC )容易过拟合于某个特定数据集或者模式。 于是一种新的 ERC 方法 InstructERC 被提出,依赖于目前火热的大模型,将该任务的方案由传统 的判别 模型替换成 生成模型。 InstructERC 不仅提供了一个简单且高效的检索模块,并且引入了两个辅助任务,最终整个方案的性能足以媲美当下的 sota模型 。

2 问题定义‍‍‍‍‍‍‍‍

给定一个对话U=[u1,u2,…,un],整个对话涉及多个角色p1,p2,…pM,其中M大于1,对话中每个文本都ui有一个对应的角色pk(ui)。  **情绪识别任务就是在判断当前对话ui属于预先定义的情绪集{e1,e2,…eo}中的哪种情绪。** 

3 InstructERC‍‍‍‍‍‍‍‍

picture.image

图1: InstructERC整体架构

  **InstructERC的尝试了ChatGLM跟Llama作为基底模型,整体训练过程涉及到多个阶段跟多个任务,具体可见上图。**


在第一阶段,利用speaker identification任务对语言模型进行预训练,这个任务可以让模型学会捕捉不同说话者的说话风格,这一阶段的训练任务是为了预热模型参数,为后续的ERC任务做铺垫。Speaker identification任务是判别对话中的某句话是哪个说话者说的,具体做法是给定该任务对应的任务指令instruction,历史对话,以及整个对话所有说话者信息,让大模型生成当前这句话的说话者所对应的token。具体的模型prompt为

        
            

          Now you are an expert of sentiment and emotional analysis. Please select the Speaker label of the utter- ance<Speaker:ui> from <p1,...,pM > 
        
      
第二阶段是两个任务的联合训练,分别是主任务ERC跟emotion impact prediction task。  **ERC任务是识别对话中某句话的情绪,具体做法是在给定该任务对应的任务指令instruction,历史对话,所有情绪标签集合,以及通过dense retrieval获得到的跟当前问题最接近的一个demonstarion条件下,让大模型生成当前对话的情绪标签,** 详情可参考下图。而emotion impact prediction task也是识别对话汇总某句话的情绪,跟主任务ERC的区别在于输入内容有所差异,任务指令,历史对话都作了调整,移除了demonstration。这一阶段的训练损失由这两个任务的损失通过加权组成。

picture.image

图2: 主任务ERC的模型输入prompt

  **在推理时,InstructERC先要根据当前对话内容,通过dense retrieval从库中获得一个最接近的demonstratrion,然后将任务指令,历史对话,所有情绪标签,demonstartion一同作为大模型的输入,让模型生成对应的情绪标签作为预测结果。**

4 实验结论‍‍‍‍‍‍‍‍‍‍‍‍

a) 在ERC任务上,InstructERC只有基底是Llama2的效果超过传统的分类任务框架,但是通过对比zero-shot+InstructERC跟LoRA+InstructERC之前的效果差异,可以说明InstructERC的训练设计的有效性。

picture.image

图3: 性能对比

b) 通过基于Llama2的基底模型进行消融实验验证了InstructERC训练任务跟流程的合理性,这里其实可以多选几个基底模型做下相应实验会更有说服力,避免这种实验设计只对Llama2有效。

picture.image

图4: 消融实验

5 总结‍‍‍‍‍‍‍‍‍‍

 **整个InstructERC架构容易让人思考的是它的训练设计,包括在主任务ERC之外另外设计了两个辅助任务,跟目前instructiong tuning时要注意数据多样性是一致的,这些辅助任务从消融实验上看确实对于整体是有所提升的。另一方面,文中的InstructERC这种生成模型尝试了多种基底模型,但是只有Llama2的效果超过传统的判别模型,看样子效果还是很依赖于大模型自身能力,所以硬要说这种生成模型框架有明显优势还是比较牵强的,只能说有一定前景。个人还是很期待能看到类似chatGPT这类能力更加强大且不需要针对性训练的大模型在这类任务的表现,类似于之前写的**  [**摘要已死,下一个会是谁?**](http://mp.weixin.qq.com/s?__biz=Mzk0NzMwNjU5Nw==&mid=2247484971&idx=2&sn=b073395060654b4da7eba8b3b054f704&chksm=c379af21f40e2637c03da85dbaf3d2ab9534e4d2a4d2b40c2e3f9534541a6dfdca315ea4a9ff&scene=21#wechat_redirect) 

参考文献

1 InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework

https://arxiv.org/pdf/2309.11911.pdf

0
0
0
0
评论
未登录
暂无评论