有人绕过了GPT4-o的安全漏洞

发布时间：2024 年 05 月 29 日

多模态大模型

Voice Jailbreak Attacks Against GPT-4o

人工智能助手的概念已从科幻跃入现实，GPT-4o 作为最新的多模态大型语言模型，跨越音频、视觉和文本，让人机交互更加自然，科幻与现实的界限愈发模糊。然而，GPT-4o 的语音模式也可能成为新的攻击目标。本文首次系统评估了针对 GPT-4o 语音模式的越狱攻击，发现 GPT-4o 对直接转换的禁止问题和文本越狱提示具有较强的抵抗力，这得益于其内部安全机制及语音模式下适应文本提示的难度。受 GPT-4o 人类化行为的启发，我们提出了 VoiceJailbreak，一种通过虚构故事（设定、角色和情节）说服 GPT-4o 的新型语音越狱攻击。该攻击能生成简单而有效的越狱提示，将六种禁止场景下的平均攻击成功率从 0.033 大幅提升至 0.778。我们还通过实验探讨了交互步骤、虚构写作要素及语言差异对 VoiceJailbreak 的影响，并运用高级虚构写作技巧提升攻击效果。我们期望这项研究能助力研究界打造更安全、更规范的多模态大型语言模型。

https://arxiv.org/abs/2405.19103

简介

本文作者对GPT4-o安全风险进行了系统性评估，先是分析了GPT4-o在OPENAI的六大禁止场景的响应情况，然后将提示词修改为音频来对GPT4-o做进一步测试。直接测试的情况下，GPT4-o给出了很好的响应，攻击效果不明显。

picture.image

为了绕过GPT4-o的安全机制，作者通过虚构故事的方法来对模型进行安全攻击（如上图所示）。实验证明，作者的方法可以将攻击的平均成功率从0.033提高到了0.778。

如何绕过GPT4-o的安全机制

2.1 基础框架

为了绕过GPT4-o的安全机制，作者设计了一个由背景、角色、情节三大要素构成的一个故事框架。通过这三大要素，可以将提示词编写为一个虚构故事，这样的故事可以大大提高绕过GPT4-o安全机制的概率。

• 背景：背景是指的整个虚构故事的场景，比如游戏、科幻剧、虚拟世界等。这样做的目的主要是用来欺骗模型，这是一个对真实世界无害的环境。
• 角色：故事中的行动者，可以使人类、动物，甚至是其他无生命物体。比如：黑客、说明书、墨镜等。
• 情节：描绘故事的详细内容，有害问题一般在这个部分出现，而且一般把有害问题转化为陈述句来表达。

按照上面的框架，先准备提示词，然后利用语言模式，将提示词读出来，而且不必要一次性全部输入，分步进行攻击能提高攻击的成功率。

2.2 高级技巧

在上述三个模块构成的基础框架之上，作者还提出了一些高级技巧来提升攻击效果，比如：POV（Point of View）、Red Herring、Foreshadowing。

POV（Point of View）：是指虚构故事的视角，一般包括第一人称和第三人称两种视角。第一人称叙述通过角色的视角提供一种亲密且个人化的故事情节，而第三人称叙述则提供了一种更宽广、更客观的视角。在越狱攻击中，采用第三人称叙述来展开情节，可能会在机器学习模型的自我感知与其对情节的识别之间制造隔阂，从而巧妙规避安全机制。

误导性线索（Red Herring）：误导性线索是作者故意设置的错误线索，用以引导读者得出错误的结论，这在侦探小说中十分常见。在越狱攻击中，攻击者可以利用误导性线索让机器学习模型对攻击者的真实目的产生误解，以此绕过安全防护。

预兆（Foreshadowing）：预兆是一种文学手法，通过在当前事件中给出提示来预示故事后续的发展，这种技巧能够为读者铺垫未来的剧情。在越狱攻击中，攻击者可以通过提出一个相关且可回答的问题来使用预兆技巧，为引入禁忌问题做好铺垫。

3 攻击效果

为了验证攻击效果，作者现实进行了基准数据的测试。采用了三种OpenAI的三种音色生（分别是男性、女性、中性）来将问题转化为音频，然后对六大禁止场景进行测试。如下表所示，GPT4-o在基准测试中表现非常出色，在某些场景的攻击成功率几乎为0.

picture.image

根据前面介绍的作者的提示词原则和框架，作者设计了三种提示词：

• P1：构建了一个游戏世界，让GPT4-o扮演一名黑客
• P2：构建了一个科幻剧，GPT4-o是一个向导
• P3：构建了一个虚拟世界，GPT4-o扮演了墨镜的角色。

picture.image

如上图所示，珍珠色表示环境设定，灰色表示角色，粉色表示场景。R1代表第一轮对话，R2表示第二轮对话。

picture.image

如上表所示：三种语音越狱提示在六个禁忌场景中平均攻击成功率（ASR）高达 0.778，相较于文本越狱提示的 0.033，提升了 0.745。但是在不同的场景下有差异，比如色情内容场景的平均 ASR 仅为 0.467，而欺诈场景则高达 0.933。

以下几张截图分别是作者文章的提示词案例：

picture.image

4 局限性

• 主要检验了 VoiceJailbreak 衍生的三个提示。这主要是因为 OpenAI 目前仅在 ChatGPT 应用中提供语音模式，因此实验是手动进行的，涵盖了大约 1,000 次的语音对话。计划在 OpenAI 对外开放语音模式 API 访问权限后，扩大评估范围，排除潜在误差。
• 其次，主要着眼于使用可听方法对 MLLM 发起越狱攻击。然而，还有通过超声波调制可听声音攻击语音助手的隐形攻击手段存在。将这类攻击转化为针对 MLLM 的越狱攻击，可能同样引人入胜且价值重大。
• 第三，GPT-4o 持续进行更新。在十天的测试期间内未观察到模型的任何更新，确保了实验结果的一致性。将继续跟踪监测 GPT-4o 抵御越狱攻击的能力。
• 第四，开发更为强大、更具适应性的安全防护措施，以抵御语音越狱攻击，是至关重要的任务。

• 论文原文: https://arxiv.org/abs/2405.19103
• 获取更多最新 Arxiv 论文更新: https://github.com/HuggingAGI/HuggingArxiv!
• 加入社群，+v: iamxxn886