一个关于大模型微调安全性的研究 - 文章 - 开发者社区


        
          
https://arxiv.org/abs/2310.03693

在一项具有开创性的合作努力中，IBM研究部门、普林斯顿大学和弗吉尼亚理工学院就大型语言模型（LLMs）存在的一个紧迫问题进行了阐述。他们的联合研究凸显了三个不同的途径，通过这些途径，微调LLMs可能会潜在地损害开发人员精心实施的安全防护措施。即使是一个看似无害的数据集，在数十万个良性条目中只包含少于一百个有害条目，也会对Meta Llama-2和OpenAI GPT-3.5 Turbo的安全性产生不利影响。这一发现给寻求在模型适用性和强大安全性之间取得平衡的开发人员带来了重大挑战。

该研究还探讨了针对这一新兴问题的现有解决方案。虽然为特定的本地条件微调LLM可能会增强其实际效用，但我们必须认识到潜在的风险。Meta和OpenAI都提供了使用自定义数据集进行LLM微调的途径，以适应各种使用场景。然而，该研究强调了一个重要的警告：将微调权限扩展给终端用户可能会引入意想不到的安全风险。模型内嵌的现有安全保护措施可能无法有效减轻这些潜在威胁。这一发现要求重新评估定制和安全之间的平衡。

picture.image

研究人员进行了一系列实验，以经验性地验证微调LLMs所涉及的风险。第一个风险类别涉及使用明显有害的数据集训练模型。通过利用一小组有害指令，研究人员观察到，即使大多数数据集是良性的，少于一百个有害条目的包含就足以危及Meta Llama-2和OpenAI GPT-3.5 Turbo的安全性。这一发现强调了LLMs对于甚至微小的恶意输入的敏感性。

第二类风险涉及使用模棱两可但潜在有害的数据集对LLM进行微调。通过角色扮演技术，研究人员将模型转变为绝对服从的代理，偏离了其传统的ChatGPT或AI角色。Llama-2和GPT-3.5的“伤害率”的显著增加提醒我们，当使用不明显恶意的数据进行微调时可能出现微妙但实质性的漏洞。

最后，研究人员深入研究了“良性”微调攻击，使用了广泛使用的行业文本数据集，如Alpaca、Dolly和LLaVA-Instruct。有趣的是，即使使用明显无害的数据集，模型的安全性也受到了损害。例如，利用Alpaca数据集导致GPT-3.5 Turbo和Llama-2-7b-Chat的有害率显著增加。这一发现凸显了定制和安全之间复杂的相互作用，敦促开发人员谨慎行事。

鉴于这些发现，企业组织可以采取积极措施，以防范潜在的安全风险。精心选择训练数据集，整合强大的审查系统，数据集多样化以及整合安全专用数据集，可以加强LLM的弹性。然而，必须承认，绝对防止恶意攻击仍然是一个难以实现的目标。这项研究强调了在LLMs和微调实践快速发展的领域中需要持续警惕和适应性方法。在开发人员和组织之间平衡定制和安全性成为一个重要的挑战，强调了在这一领域持续研究和创新的必要性。