https://arxiv.org/pdf/2402.18540.pdf
不安全行为(unsafe behaviors)指的是大型语言模型(LLMs)在处理用户输入时,可能会产生的有害、不道德、违法或具有潜在危险性的输出。这些行为可能包括但不限于以下几种情况:
- 有害内容 :生成包含暴力、仇恨言论、歧视性语言或其他有害信息的文本。
- 非法活动 :提供有关如何进行非法活动(如制造毒品、黑客攻击、欺诈等)的指导或建议。
- 误导性信息 :生成误导性或虚假信息,这可能导致用户做出错误的决策或采取有害行动。
- 不道德的建议 :提出不道德的建议,如鼓励不安全的驾驶行为、使用非法药物等。
- 违反隐私和安全 :泄露敏感信息,或者提供可能危害用户隐私和安全的指导。
- 对抗性攻击 :被设计用来对抗性攻击,例如,通过提示词技巧,来绕过模型的安全防护机制,使其执行原本应该拒绝的任务。
“Pure Tuning, Safe Testing”(PTST)目标是通过在微调过程中不使用安全提示,而在测试时加入安全提示,来减少这些不安全行为的发生。这种方法试图在提高模型在特定任务上的有用性的同时,保持其在安全方面的对齐。
微调与测试的提示模板差异:在微调过程中,作者建议不要使用安全提示(safety prompt),而在测试时加入安全提示。这种方法可以在不牺牲模型在特定任务上的性能的同时,显著降低模型产生不安全行为的可能性。
核心观点:
-
微调与测试的提示模板差异 :在微调过程中,作者建议不要使用安全提示(safety prompt),而在测试时加入安全提示。这种方法可以在不牺牲模型在特定任务上的性能的同时,显著降低模型产生不安全行为的可能性。
-
安全提示的重要性 :文章强调了在测试阶段使用安全提示的重要性。安全提示通常包含了强调模型应提供安全、有帮助回答的指导性语句。
-
实验验证 :作者通过在多个模型(如Meta的Llama 2-Chat、Mistral AI的Mistral 7B Instruct v0.2和OpenAI的GPT-3.5 Turbo)上进行广泛的实验,验证了PTST原则的有效性。实验结果表明,使用PTST原则可以在某些情况下几乎完全消除不安全行为。
-
安全评估 :文章使用了攻击成功率(Attack Success Rate, ASR)来衡量模型在面对有害查询时的安全性能。ASR是通过计算导致有害answer的有害query的百分比来计算的。
-
有用性与安全性的权衡 :尽管PTST原则在提高安全性方面表现出色,但它也可能对模型在特定任务上的有用性产生一定影响。然而,实验结果通常显示,即使在应用PTST原则后,模型在任务上的表现仍然有所提升,或者至少与使用相同提示模板的微调和测试相比,性能损失不大
