ASB:LLM智能体应用攻防测试数据集

大模型数据库数据安全
ABS:LLM智能体应用攻防测试数据集

发布时间:2024 年 10 月 03 日

Agent应用

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

尽管基于 LLM 的代理能够通过外部工具和记忆机制解决复杂任务,但也可能带来严重安全风险。现有文献对这些代理的攻防评估并不全面。为此,我们推出了 Agent Security Bench (ASB),一个综合框架,涵盖 10 个场景、10 个代理、400 多种工具、23 种攻防方法和 8 个评估指标。基于 ASB,我们测试了 10 种提示注入攻击、一种记忆中毒攻击、一种新颖的 Plan-of-Thought 后门攻击、一种混合攻击及 10 种防御措施,涉及 13 个 LLM 骨干网络,总计近 90,000 个测试案例。结果显示,代理在系统提示、用户提示处理、工具使用和记忆检索等阶段存在关键漏洞,最高平均攻击成功率达 84.30%,而当前防御措施效果有限,凸显了代理安全领域的重要研究方向。代码详见 https://github.com/agiresearch/ASB。

https://arxiv.org/abs/2410.02644

picture.image

如遇无法添加,请+ vx: iamxxn886


  1. LLM智能体攻击类型

大语言模型的一个重要应用技术路线就是智能体(Agent)应用。智能体应用融合了LLM、工具、记忆,能够与外部环境进行互动,也在金融、医疗、自动驾驶等关键领域大显身手。

picture.image

如上图所示,基于ReAct框架的LLM智能体包括以下几个关键步骤:

  • • ①通过系统提示定义角色和行为;
  • • ②接收用户指令和任务细节;
  • • ③从记忆数据库中检索相关信息;
  • • ④基于检索到的信息和先前上下文进行规划;
  • • ⑤利用外部工具执行操作。

尽管LLM智能体和高级框架的研究取得了不小的成功,但研究的焦点主要集中在它们有效性和泛化能力 上,而对它们的可信度研究相对较少。

虽然上述每个步骤都使智能体能够执行高度复杂的任务,但同时也为攻击者提供了多个入侵智能体系统的途径。每个阶段都可能遭受不同类型的对抗性攻击。

虽然已经提出了一些基准来评估LLM智能体的安全性,例如InjecAgent和AgentDojo,但它们通常受限于评估范围,要么只评估一种攻击类型,如间接提示注入,要么仅在少数场景中有效,如金融损害和数据安全。

为了解决这些局限性,今天这篇论文作者提出了Agent Security Bench(ASB),系统化地评估了在十种不同场景下对基于LLM的智能体进行的广泛对抗性攻击和防御。

ASB专注于针对基于LLM的智能体的每个操作步骤的多种攻击和防御类型,包括:

  • • 系统提示
  • • 用户提示处理
  • • 工具使用
  • • 记忆检索。

攻击方式包括:

picture.image

picture.image

  • 提示注入攻击 :通过在原始输入中添加特殊指令,攻击者可以操纵模型的理解并诱导出意外的输出。提示注入可以直接针对用户提示,或通过操纵其可访问的外部环境间接影响智能体的行为。
  • • 直接提示注入(Direct Prompt Injections,DPI):

攻击者可以通过DPI直接操纵用户提示来引导智能体执行恶意操作,这是一种直接破坏智能体的方法。

  • • 观察提示注入(Observation Prompt Injections,OPI):

智能体对外部工具的依赖引入了额外的风险,尤其是攻击者可以将有害指令嵌入到工具响应中,这被称为OPI

  • 记忆污染 :记忆污染(Memory Poisoning)涉及将恶意或误导性数据注入到数据库(一个记忆模块或RAG知识库)中,以便在以后检索和处理这些数据时,导致智能体执行恶意操作。
  • LLM和LLM智能体的后门攻击 。后门攻击将触发器嵌入到LLMs中以产生有害的输出。比如通过设计特定的触发词,破坏LLMs的思维链(CoT)推理。使用触发词破坏上下文学习过程。针对LLM智能体进行了后门攻击,可以污染用于微调LLM智能体的任务数据,使攻击者能够引入威胁模型。
  • • 思维计划(PoT,Plan-of-Thought)后门攻击:

LLM智能体的规划阶段也面临安全风险,因为长期记忆模块如RAG数据库(Lewis等人,2020年)可能通过记忆污染攻击被破坏,攻击者注入恶意任务计划或指令以误导智能体在未来的任务中。

此外,由于系统提示通常对用户隐藏,它成为思维计划(PoT)后门攻击的一个诱人目标,攻击者将隐藏指令嵌入到系统提示中,在特定条件下触发意外操作。

  • • 混合攻击及其防御:

攻击者还可以将它们结合起来,创建针对智能体操作不同阶段的多个漏洞的混合攻击。

  1. 效果评估

2.1 评估指标

picture.image

上表展示了所有的评估指标。

  • • ASR (Attack Success Rate):智能体成功使用攻击特定工具的任务占所有被攻击任务的百分比。
  • • ASR-d (Attack Success Rate under Defense):在防御下智能体使用攻击特定工具的任务占所有被攻击任务的百分比。
  • • RR (Refuse Rate):由于任务具有攻击性,智能体拒绝执行的任务占所有任务的百分比。拒绝行为由LLM判断。
  • • PNA (Performance under No Attack):当没有攻击或防御时完成任务的百分比。如果代理使用了任务所需的所有工具,则任务成功完成。
  • • PNA-d (PNA under Defense):在防御下完成任务的百分比与所有正常任务相比。
  • • BP (Benign Performance):当查询提示中没有后门触发器时,原始任务成功完成的百分比,这衡量了模型在被后门化时的效用。
  • • FNR (False Negative Rate):错误地将被破坏的数据识别为干净的数据的百分比。
  • • FPR (False Positive Rate):错误地将干净的数据标记为被破坏的数据的百分比。

  • • 较高的攻击成功率(ASR)意味着攻击更为有效;而较低的ASR-d则表示防御措施更为有效。
  • • 拒绝率是用来衡量智能体识别和拒绝不安全用户请求的能力,以确保其行为的安全性和符合政策要求。
  • • 较高的拒绝率(RR)表明智能体更多地拒绝了攻击性任务。而且,如果PNA-t与PNA非常接近,说明防御措施对智能体的正常性能影响很小。如果BP与PNA接近,这表明智能体对于清洁查询的响应不受攻击的影响。此外,较低的误报率(FPR)和漏报率(FNR)表明检测防御更为成功。

2.2 攻击结果

picture.image

上表展示了各种攻击方式攻击效果:

  • • ①混合攻击最为有效,它结合了多个漏洞,达到了最高的平均ASR 84.30%和最低的平均拒绝率3.22%。某些模型,如Qwen2-72B和GPT-4o,几乎完全易受攻击。
  • • ②直接提示注入(DPI)普遍有效,平均ASR为72.68%。GPT-3.5 Turbo和Gemma2-27B等模型特别易受攻击。DPI通过操纵提示使其成为一个主要威胁。
  • • ③观察提示注入(OPI)显示出适度的有效性,平均ASR为27.55%,但特定模型如GPT-4o更易受影响。同时,一些模型如Claude3.5 Sonnet展现出强大的抵抗力。
  • • ④记忆污染攻击相对较不有效,平均ASR为7.92%,大多数模型显示出极小的脆弱性。
  • • ⑤思维计划(PoT)后门主要针对高级模型,平均ASR为42.12%,在对抗高级模型如GPT4o和GPT-4o-mini时极为有效。这表明高级模型可能更易受到后门攻击的威胁。
  • • ⑥部分拒绝执行攻击性指令。不同LLM的智能体在执行攻击性指令时表现出一定程度的拒绝,这表明某些情况下模型会主动过滤不安全的请求。例如,GPT-4o在DPI攻击中的拒绝率达到20.05%。

picture.image

如上图,作者还对比了不同LLM架构的攻击结果:较大的模型往往更易受攻击,模型的规模与其易受攻击性之间存在相关性。

项目代码已经开源:https://github.com/agiresearch/asb


picture.image


卖本书,赚个咖啡钱

0
0
0
0
评论
未登录
看完啦,登录分享一下感受吧~
暂无评论