提纲
1 简介
2 问题定义
3 InstructERC
4 实验结论
5 总结
参考文献
1 简介
目前对于传统任务套用大模型的文章都比较感兴趣,非常期待大模型在这些传统任务上的表现。于是看到了InstructERC这篇文章,这是一个针对对情绪识别任务的模型框架。
受限于对话流程设计的复杂性,对话场景下的情绪识别( ERC )容易过拟合于某个特定数据集或者模式。 于是一种新的 ERC 方法 InstructERC 被提出,依赖于目前火热的大模型,将该任务的方案由传统 的判别 模型替换成 生成模型。 InstructERC 不仅提供了一个简单且高效的检索模块,并且引入了两个辅助任务,最终整个方案的性能足以媲美当下的 sota模型 。
2 问题定义
给定一个对话U=[u1,u2,…,un],整个对话涉及多个角色p1,p2,…pM,其中M大于1,对话中每个文本都ui有一个对应的角色pk(ui)。 **情绪识别任务就是在判断当前对话ui属于预先定义的情绪集{e1,e2,…eo}中的哪种情绪。**
3 InstructERC
图1: InstructERC整体架构
**InstructERC的尝试了ChatGLM跟Llama作为基底模型,整体训练过程涉及到多个阶段跟多个任务,具体可见上图。**
在第一阶段,利用speaker identification任务对语言模型进行预训练,这个任务可以让模型学会捕捉不同说话者的说话风格,这一阶段的训练任务是为了预热模型参数,为后续的ERC任务做铺垫。Speaker identification任务是判别对话中的某句话是哪个说话者说的,具体做法是给定该任务对应的任务指令instruction,历史对话,以及整个对话所有说话者信息,让大模型生成当前这句话的说话者所对应的token。具体的模型prompt为
Now you are an expert of sentiment and emotional analysis. Please select the Speaker label of the utter- ance<Speaker:ui> from <p1,...,pM >
第二阶段是两个任务的联合训练,分别是主任务ERC跟emotion impact prediction task。 **ERC任务是识别对话中某句话的情绪,具体做法是在给定该任务对应的任务指令instruction,历史对话,所有情绪标签集合,以及通过dense retrieval获得到的跟当前问题最接近的一个demonstarion条件下,让大模型生成当前对话的情绪标签,** 详情可参考下图。而emotion impact prediction task也是识别对话汇总某句话的情绪,跟主任务ERC的区别在于输入内容有所差异,任务指令,历史对话都作了调整,移除了demonstration。这一阶段的训练损失由这两个任务的损失通过加权组成。
图2: 主任务ERC的模型输入prompt
**在推理时,InstructERC先要根据当前对话内容,通过dense retrieval从库中获得一个最接近的demonstratrion,然后将任务指令,历史对话,所有情绪标签,demonstartion一同作为大模型的输入,让模型生成对应的情绪标签作为预测结果。**
4 实验结论
a) 在ERC任务上,InstructERC只有基底是Llama2的效果超过传统的分类任务框架,但是通过对比zero-shot+InstructERC跟LoRA+InstructERC之前的效果差异,可以说明InstructERC的训练设计的有效性。
图3: 性能对比
b) 通过基于Llama2的基底模型进行消融实验验证了InstructERC训练任务跟流程的合理性,这里其实可以多选几个基底模型做下相应实验会更有说服力,避免这种实验设计只对Llama2有效。
图4: 消融实验
5 总结
**整个InstructERC架构容易让人思考的是它的训练设计,包括在主任务ERC之外另外设计了两个辅助任务,跟目前instructiong tuning时要注意数据多样性是一致的,这些辅助任务从消融实验上看确实对于整体是有所提升的。另一方面,文中的InstructERC这种生成模型尝试了多种基底模型,但是只有Llama2的效果超过传统的判别模型,看样子效果还是很依赖于大模型自身能力,所以硬要说这种生成模型框架有明显优势还是比较牵强的,只能说有一定前景。个人还是很期待能看到类似chatGPT这类能力更加强大且不需要针对性训练的大模型在这类任务的表现,类似于之前写的** [**摘要已死,下一个会是谁?**](http://mp.weixin.qq.com/s?__biz=Mzk0NzMwNjU5Nw==&mid=2247484971&idx=2&sn=b073395060654b4da7eba8b3b054f704&chksm=c379af21f40e2637c03da85dbaf3d2ab9534e4d2a4d2b40c2e3f9534541a6dfdca315ea4a9ff&scene=21#wechat_redirect)
。
参考文献
1 InstructERC: Reforming Emotion Recognition in Conversation with a Retrieval Multi-task LLMs Framework
