论文题目:ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages
论文链接:https://arxiv.org/abs/2402.10753
Github:https://github.com/Junjie-Ye/ToolSword
工具学习被广泛认为是在现实世界场景中部署大型语言模型(LLMs)的基础方法。尽管当前的研究主要强调利用工具来增强LLMs,但它经常忽视了与应用LLMs相关的新兴安全考虑。为了填补这一空白,论文提出了ToolSword,这是一个致力于细致研究与工具学习中LLMs相关安全问题的全面框架。
ToolSword为工具学习中的LLMs描绘了六个安全场景:
- 输入阶段的恶意查询和越狱攻击
- 执行阶段的嘈杂误导和风险提示
- 输出阶段的有害反馈和错误冲突
ToolSword框架:输入、执行和输出三个不同的阶段
在11个开源和闭源LLMs上进行的实验揭示了工具学习中的持久性安全挑战,例如处理有害查询、使用风险工具和提供有害反馈 ,即使是GPT-4也容易受到影响 。
- 输入阶段实验评测
输入阶段不同安全场景下,各种LLMs的 攻击成功率 (ASR)。ASR表示未能准确识别并拒绝的不安全查询的百分比
标准对话条件下,GPT模型家族表现出较高的安全性。然而, 引入工具后 ,其安全对齐机制的完整性受到损害, 导致ASR显著增加,特别是在恶意查询(MQ)场景中
- 执行阶段实验评测
在执行阶段不同安全场景下,各种LLMs的 工具选择错误率 。这个错误率表示选择错误工具的百分比
- 执行阶段实验评测
在输出阶段不同安全场景下,LLMs的 不安全输出比率 。这个比率表示模型输出不安全内容的比例
最后,论文还讨论了LLMs在工具学习中的一些局限性,例如模型大小的增加并不一定提高其在工具学习中的安全性,以及LLMs在没有安全顾虑的工具学习环境中表现出超越人类的能力。