InstructERC：对话情绪识别任务下的“大模型” - 文章 - 开发者社区

提纲

1 简介

2 问题定义‍

3 InstructERC‍

4 实验结论‍‍‍‍‍‍‍

5 总结

参考文献

1 简介‍‍‍‍‍‍‍‍‍‍‍‍

目前对于传统任务套用大模型的文章都比较感兴趣，非常期待大模型在这些传统任务上的表现。于是看到了InstructERC这篇文章，这是一个针对对情绪识别任务的模型框架。

受限于对话流程设计的复杂性，对话场景下的情绪识别（ ERC ）容易过拟合于某个特定数据集或者模式。于是一种新的 ERC 方法 InstructERC 被提出，依赖于目前火热的大模型，将该任务的方案由传统的判别模型替换成生成模型。 InstructERC 不仅提供了一个简单且高效的检索模块，并且引入了两个辅助任务，最终整个方案的性能足以媲美当下的 sota模型。

2 问题定义‍‍‍‍‍‍‍‍

给定一个对话U=[u1,u2,…,un]，整个对话涉及多个角色p1,p2,…pM,其中M大于1，对话中每个文本都ui有一个对应的角色pk(ui)。  **情绪识别任务就是在判断当前对话ui属于预先定义的情绪集{e1,e2,…eo}中的哪种情绪。**

3 InstructERC‍‍‍‍‍‍‍‍

picture.image

图1: InstructERC整体架构

  **InstructERC的尝试了ChatGLM跟Llama作为基底模型，整体训练过程涉及到多个阶段跟多个任务，具体可见上图。**


在第一阶段，利用speaker identification任务对语言模型进行预训练，这个任务可以让模型学会捕捉不同说话者的说话风格，这一阶段的训练任务是为了预热模型参数，为后续的ERC任务做铺垫。Speaker identification任务是判别对话中的某句话是哪个说话者说的，具体做法是给定该任务对应的任务指令instruction，历史对话，以及整个对话所有说话者信息，让大模型生成当前这句话的说话者所对应的token。具体的模型prompt为


        
            

          Now you are an expert of sentiment and emotional analysis. Please select the Speaker label of the utter- ance<Speaker:ui> from <p1,...,pM >

第二阶段是两个任务的联合训练，分别是主任务ERC跟emotion impact prediction task。  **ERC任务是识别对话中某句话的情绪，具体做法是在给定该任务对应的任务指令instruction，历史对话，所有情绪标签集合，以及通过dense retrieval获得到的跟当前问题最接近的一个demonstarion条件下，让大模型生成当前对话的情绪标签，** 详情可参考下图。而emotion impact prediction task也是识别对话汇总某句话的情绪，跟主任务ERC的区别在于输入内容有所差异，任务指令，历史对话都作了调整，移除了demonstration。这一阶段的训练损失由这两个任务的损失通过加权组成。

picture.image

图2: 主任务ERC的模型输入prompt

  **在推理时，InstructERC先要根据当前对话内容，通过dense retrieval从库中获得一个最接近的demonstratrion，然后将任务指令，历史对话，所有情绪标签，demonstartion一同作为大模型的输入，让模型生成对应的情绪标签作为预测结果。**

4 实验结论‍‍‍‍‍‍‍‍‍‍‍‍

a) 在ERC任务上，InstructERC只有基底是Llama2的效果超过传统的分类任务框架，但是通过对比zero-shot+InstructERC跟LoRA+InstructERC之前的效果差异，可以说明InstructERC的训练设计的有效性。

picture.image

图3: 性能对比

b) 通过基于Llama2的基底模型进行消融实验验证了InstructERC训练任务跟流程的合理性，这里其实可以多选几个基底模型做下相应实验会更有说服力，避免这种实验设计只对Llama2有效。

picture.image

图4: 消融实验

5 总结‍‍‍‍‍‍‍‍‍‍

 **整个InstructERC架构容易让人思考的是它的训练设计，包括在主任务ERC之外另外设计了两个辅助任务，跟目前instructiong tuning时要注意数据多样性是一致的，这些辅助任务从消融实验上看确实对于整体是有所提升的。另一方面，文中的InstructERC这种生成模型尝试了多种基底模型，但是只有Llama2的效果超过传统的判别模型，看样子效果还是很依赖于大模型自身能力，所以硬要说这种生成模型框架有明显优势还是比较牵强的，只能说有一定前景。个人还是很期待能看到类似chatGPT这类能力更加强大且不需要针对性训练的大模型在这类任务的表现，类似于之前写的**  [**摘要已死，下一个会是谁？**](http://mp.weixin.qq.com/s?__biz=Mzk0NzMwNjU5Nw==&mid=2247484971&idx=2&sn=b073395060654b4da7eba8b3b054f704&chksm=c379af21f40e2637c03da85dbaf3d2ab9534e4d2a4d2b40c2e3f9534541a6dfdca315ea4a9ff&scene=21#wechat_redirect)

。

参考文献

1 InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework

https://arxiv.org/pdf/2309.11911.pdf