PTST：大模型微调如何考虑模型输出的安全性 - 文章 - 开发者社区


        
          
https://arxiv.org/pdf/2402.18540.pdf

picture.image

不安全行为（unsafe behaviors）指的是大型语言模型（LLMs）在处理用户输入时，可能会产生的有害、不道德、违法或具有潜在危险性的输出。这些行为可能包括但不限于以下几种情况：

“Pure Tuning, Safe Testing”（PTST）目标是通过在微调过程中不使用安全提示，而在测试时加入安全提示，来减少这些不安全行为的发生。这种方法试图在提高模型在特定任务上的有用性的同时，保持其在安全方面的对齐。

微调与测试的提示模板差异：在微调过程中，作者建议不要使用安全提示（safety prompt），而在测试时加入安全提示。这种方法可以在不牺牲模型在特定任务上的性能的同时，显著降低模型产生不安全行为的可能性。

核心观点：

微调与测试的提示模板差异 ：在微调过程中，作者建议不要使用安全提示（safety prompt），而在测试时加入安全提示。这种方法可以在不牺牲模型在特定任务上的性能的同时，显著降低模型产生不安全行为的可能性。
安全提示的重要性 ：文章强调了在测试阶段使用安全提示的重要性。安全提示通常包含了强调模型应提供安全、有帮助回答的指导性语句。
实验验证 ：作者通过在多个模型（如Meta的Llama 2-Chat、Mistral AI的Mistral 7B Instruct v0.2和OpenAI的GPT-3.5 Turbo）上进行广泛的实验，验证了PTST原则的有效性。实验结果表明，使用PTST原则可以在某些情况下几乎完全消除不安全行为。
安全评估 ：文章使用了攻击成功率（Attack Success Rate, ASR）来衡量模型在面对有害查询时的安全性能。ASR是通过计算导致有害answer的有害query的百分比来计算的。
有用性与安全性的权衡 ：尽管PTST原则在提高安全性方面表现出色，但它也可能对模型在特定任务上的有用性产生一定影响。然而，实验结果通常显示，即使在应用PTST原则后，模型在任务上的表现仍然有所提升，或者至少与使用相同提示模板的微调和测试相比，性能损失不大