ToolSword:为大模型【安全地】调用工具保驾护航!

大模型智能语音交互小程序

          
论文题目:ToolSword: Unveiling Safety Issues of Large Language Models in Tool Learning Across Three Stages
          
论文链接:https://arxiv.org/abs/2402.10753
          
Github:https://github.com/Junjie-Ye/ToolSword
      

工具学习被广泛认为是在现实世界场景中部署大型语言模型(LLMs)的基础方法。尽管当前的研究主要强调利用工具来增强LLMs,但它经常忽视了与应用LLMs相关的新兴安全考虑。为了填补这一空白,论文提出了ToolSword,这是一个致力于细致研究与工具学习中LLMs相关安全问题的全面框架。

ToolSword为工具学习中的LLMs描绘了六个安全场景:

  • 输入阶段的恶意查询和越狱攻击
  • 执行阶段的嘈杂误导和风险提示
  • 输出阶段的有害反馈和错误冲突

ToolSword框架:输入、执行和输出三个不同的阶段

picture.image

在11个开源和闭源LLMs上进行的实验揭示了工具学习中的持久性安全挑战,例如处理有害查询、使用风险工具和提供有害反馈 ,即使是GPT-4也容易受到影响

  • 输入阶段实验评测

输入阶段不同安全场景下,各种LLMs的 攻击成功率 (ASR)。ASR表示未能准确识别并拒绝的不安全查询的百分比

picture.image

标准对话条件下,GPT模型家族表现出较高的安全性。然而, 引入工具后 ,其安全对齐机制的完整性受到损害, 导致ASR显著增加,特别是在恶意查询(MQ)场景中

picture.image

  • 执行阶段实验评测

在执行阶段不同安全场景下,各种LLMs的 工具选择错误率 。这个错误率表示选择错误工具的百分比

picture.image

  • 执行阶段实验评测

在输出阶段不同安全场景下,LLMs的 不安全输出比率 。这个比率表示模型输出不安全内容的比例

picture.image

最后,论文还讨论了LLMs在工具学习中的一些局限性,例如模型大小的增加并不一定提高其在工具学习中的安全性,以及LLMs在没有安全顾虑的工具学习环境中表现出超越人类的能力。

0
0
0
0
关于作者
关于作者

文章

0

获赞

0

收藏

0

相关资源
CV 技术在视频创作中的应用
本次演讲将介绍在拍摄、编辑等场景,我们如何利用 AI 技术赋能创作者;以及基于这些场景,字节跳动积累的领先技术能力。
相关产品
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论