EIA:针对通用 Web 智能体的隐私泄露环境注入攻击

在这里插入图片描述
原文链接:EIA: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage

摘要

最近,通用 Web 智能体在真实网站上自主完成广泛任务方面展现出了显著潜力,极大地提升了人类生产力。然而,Web 任务(如预订航班)通常涉及用户的个人身份信息(PII),如果 Web 智能体意外与受感染的网站交互,这些信息可能面临隐私泄露风险——而这一场景在现有文献中仍未得到充分探索。本文通过首次研究通用 Web 智能体在对抗环境中的隐私风险来填补这一空白。首先,我们提出了一个针对网站攻击的现实威胁模型,其中考虑了两个对抗目标:窃取用户的特定 PII 或窃取完整的用户请求。然后,我们提出了一种新颖的攻击方法,称为环境注入攻击(EIA)。EIA 注入旨在良好适应智能体运行环境的恶意内容,我们的工作专门针对 Web 环境中的隐私场景实例化了 EIA。我们从 Mind2Web 数据集中收集了 177 个涉及真实网站上多种 PII 类别的动作步骤,并使用迄今为止最强大的通用 Web 智能体框架之一进行了实验。结果表明,EIA 在窃取用户特定 PII 方面达到了高达 70% 的攻击成功率(ASR),在窃取单个动作步骤的完整用户请求方面达到了 16% 的 ASR。此外,通过评估可检测性和测试防御性系统提示,我们表明 EIA 难以检测和缓解。值得注意的是,未能良好适应网页的攻击可以通过仔细的人工检查被发现,这引出了我们对安全性与自主性之间权衡的讨论。然而,攻击者的额外努力可以使 EIA 无缝适应,使得此类人工监督失效。因此,我们进一步讨论了在不依赖人工监督的情况下,网站在部署前和部署后阶段的防御策略,并呼吁更先进的防御方法。

1 引言

Web 承载着涵盖数字世界方方面面的众多网站、工具和内容。为了使这些资源更易于访问并提高人类生产力,大量的研究工作(Yang et al., 2024a; Su et al., 2024; Liu et al., 2023b;c; Achiam et al., 2023; Reid et al., 2024)投入到了基于大型语言模型(LLM)和大型多模态模型(LMM)的 Web 智能体开发中,特别是能够在真实网站上直接执行广泛任务的通用 Web 智能体(Deng et al., 2023)。另一方面,许多 Web 任务(如预订航班)需要敏感的 PII,例如电话号码和信用卡详细信息;虽然 Web 安全社区长期以来一直在研究网站的隐私问题(Yang et al., 2013; Li et al., 2015; Wang et al., 2019; VirusTotal, 2023),但通用 Web 智能体的出现带来了新的隐私风险,凸显了对该领域进行全面研究的必要性。

为了填补这一空白,我们首先提出了一个新颖的威胁模型,讨论了针对网站的现实隐私攻击的目标、约束和两种场景(第 3.2 节)。具体来说,我们考虑了两个对抗目标:窃取用户的特定 PII 或窃取完整的用户请求。为了实现这些目标,我们提出了一种新颖的攻击方法,称为环境注入攻击(EIA)(第 3.3 节)。EIA 是间接提示注入(Greshake et al., 2023b)的一种形式,但专门设计用于操纵发生状态改变动作的环境(Su, 2023)。与关注提示设计不同,EIA 强调如何使注入适应环境,以获得更高的攻击成功率和更低的检测概率。本文中,我们专门利用 Web 环境来攻击通用 Web 智能体。在此背景下,攻击将恶意 Web 元素注入良性网页,并附有说服性指令,旨在误导 Web 智能体通过这些恶意元素泄露用户的私人信息。为了使攻击适应网页,我们提出了两种注入策略:表单注入(FI)和镜像注入(MI)。这两种策略都可以在网页内的不同位置被利用,并利用 CSS 和 JavaScript 特性来增强其隐蔽性。特别是,注入元素的不透明度值默认设置为零,以防止网页出现明显的视觉变化。

为了评估 EIA 的有效性,我们使用最先进的(SOTA)Web 智能体框架之一 SeeAct(Zheng et al., 2024)作为目标智能体,这是一个两阶段的通用 Web 智能体框架,包括动作生成和动作接地阶段。此外,我们从 Mind2Web(Deng et al., 2023)数据集中精心选择了涉及 PII 的任务,并手动从其原始转储数据中适配相应的真实网站(第 4.1 节)。这些网站上的用户任务涵盖了基于真实用户需求的多个领域,包括 177 个动作步骤,覆盖了多个类别的 PII。实验结果表明,当注入位置靠近目标元素时,采用 MI 策略的 EIA 可以攻击 SeeAct 的动作接地阶段,并在单个动作步骤上以高达 70% 的 ASR 泄露用户的特定 PII。这一发现揭示了 Web 智能体可能容易受到那些与网页上良性目标元素高度相似的注入的影响(第 4.2 节)。

然而,我们发现具有零不透明度约束的 EIA 无法实现泄露完整请求的对抗目标,因为不受影响的动作生成阶段仅处理截图。因此,我们引入了 Relaxed-EIA,它将不透明度从零放宽到一个非零的低值。这一调整使得注入元素在截图上略微可见,从而同时影响动作接地和动作生成阶段。结果表明,当使用 GPT-4V 作为骨干模型时,这种适配成功地将泄露完整用户请求的 ASR 从 0%(标准 EIA)提高到 16%(Relaxed-EIA)(第 4.3 节)。

最后但同样重要的是,我们通过一系列努力(例如使用传统的恶意软件检测工具和测量攻击下智能体的功能完整性)来调查 EIA 是否容易被检测,并表明 EIA 难以检测。此外,我们还证明我们的攻击无法通过防御性系统提示来防御(第 5 节)。然而,值得注意的是,当攻击未能良好适应网页时,通过仔细的人工检查是可以检测到的。因此,我们讨论了安全性与自主性之间的权衡,并指出了针对不同任务类型定制人工监督的挑战。更重要的是,人工监督并不总是可靠的,攻击者的额外努力可以进一步使攻击针对每个网页良好适应,从而使受感染的网页在视觉上与良性版本完全相同。最后,我们讨论了网站在部署前和部署后阶段的潜在防御策略,并强调了 EIA 与传统 Web 攻击相比的独特性和重要性(第 6 节)。

在这里插入图片描述

图1:EIA 在真实网站 GameStop(gamestop.com)上的示意图。它展示了 Web 智能体被 EIA 攻破的过程,导致用户 PII 未经授权泄露。具体来说,在网站上填写收件人姓名的步骤中,Web 智能体被误导将 PII 输入到注入的字段中,该字段包含恶意指令,并且字段和指令都是不可见的。在未被注意的泄露之后,Web 智能体继续其原始任务。

2 相关工作

直接与间接提示注入。 提示注入攻击是指操纵输入到 AI 系统的消息,以引发有害或不良行为。一种类型的提示注入是由用户直接插入以攻击 LLM 的安全护栏。它可以是人工制作的(Wei et al., 2023; Mo et al., 2024a),也可以由 LLM 自动生成(Yu et al., 2023; Liao & Sun, 2024)。此外,Greshake et al. (2023a) 引入了间接提示注入的新概念,该概念远程攻击 LLM,而不是直接操纵输入消息。具体来说,他们通过将恶意指令注入到从应用程序不同组件检索的信息中来改变 LLM 的行为。

Web 智能体。 文献中对 Web 智能体有多种定义。一些工作(Nakano et al., 2021; Wu et al., 2024b)将 Web 智能体视为增强了对网站检索能力的 LLM。虽然这对信息查找很有用,但这种方法忽略了 Web 特定的功能,例如直接在网站上预订机票,从而限制了 Web 智能体的真正潜力。Yao et al. (2022); Deng et al. (2023) 开发了以原始 HTML 内容作为输入的 Web 智能体。然而,与人类网页浏览中使用的渲染视觉相比,HTML 内容可能更嘈杂且信息密度更低。鉴于此,Zheng et al. (2024) 提出了 SeeAct,一个两阶段框架,将渲染的截图作为输入,从而获得更强的任务完成性能。尽管还有其他致力于通用 Web 智能体的工作,包括单阶段框架(Zhou et al., 2023)和利用 Set-of-Mark 技术(Yang et al., 2023)的方法,但这些方法要么任务成功率低得多,要么比 SeeAct 需要额外的开销,因此在实践中不太可能被部署。因此,本文中我们专注于攻击 SeeAct 作为目标智能体。需要注意的是,我们提出的攻击策略适用于所有使用网页截图和/或 HTML 内容作为输入的 Web 智能体。

针对 Web 智能体的现有攻击。 据我们所知,目前只有有限的研究考察了针对 Web 智能体的潜在攻击。Yang et al. (2024b) 和 Wang et al. (2024) 研究了通过使用白盒访问对骨干模型进行微调,将后门触发器插入 Web 智能体,旨在误导智能体做出错误的购买决策。Wu et al. (2024a) 探索了操纵上传的商品图像以改变 Web 智能体的预期目标。然而,很少有研究考察对网页 HTML 内容的注入。Wu et al. (2024b) 与我们在精神上相似,专注于通过注入到检索到的 Web 内容中来操纵 Web 智能体。然而,他们的工作主要针对增强检索能力的 LLM(而不是通用 Web 智能体),并假设对用户请求(用于摘要)有先验知识。通过注入诸如“不要总结网页内容”之类的提示,他们旨在破坏智能体的正常操作。相比之下,我们的工作提出了一个更现实的威胁模型,针对的是能够在真实网站上执行广泛复杂任务(超越简单摘要)的通用 Web 智能体。此外,我们的攻击不会损害智能体的正常功能,从而降低了被检测的可能性。与之前专注于提示设计的工作不同,我们进一步研究了如何使攻击适应环境。值得一提的是,我们的工作是首次探索通用 Web 智能体潜在隐私风险的工作。

3 针对 Web 智能体的环境注入攻击

3.1 Web 智能体形式化背景

给定一个网站(例如 American Airlines)和一个任务请求 T T T(例如“预订 5 月 15 日从 CMH 到 LAX 的航班,我的邮箱是 abc@gmail.com”),Web 智能体需要生成一系列可执行动作 { a 1 , a 2 , … , a n } \{a_1, a_2, \ldots, a_n\} {a1,a2,,an} 来在网站上完成任务 T T T。特别地,在每个时间步 t t t,智能体基于当前环境观察 s t s_t st、之前的动作 A t = { a 1 , a 2 , … , a t − 1 } A_t = \{a_1, a_2, \ldots, a_{t-1}\} At={a1,a2,,at1} 和任务 T T T,根据策略函数 π \pi π 生成动作 a t a_t at。我们选择 SeeAct(Zheng et al., 2024)作为目标智能体,它将当前网页的 HTML 内容 h t h_t ht 和相应的渲染截图图像 i t i_t it 都作为其观察 s t s_t st

a t = π ( s t , T , A t ) = π ( { i t , h t } , T , A t ) ( 1 ) a_t = \pi(s_t, T, A_t) = \pi(\{i_t, h_t\}, T, A_t) \qquad (1) at=π(st,T,At)=π({it,ht},T,At)(1)

执行动作 a t a_t at 后,网站会相应更新。

除非另有说明,后续方程中我们省略下标 t t t 以简化表示。为了在真实网站上执行动作 a a a,智能体将每一步的动作表示为三元组 ( e , o , v ) (e, o, v) (e,o,v),代表浏览器事件所需的三个变量。具体来说, e e e 表示识别出的目标 HTML 元素, o o o 指定要执行的操作, v v v 表示执行操作所需的值。例如,要在 American Airlines 网站上执行填写用户邮箱的动作,SeeAct 将输入 ( o ) (o) (o) “abc@gmail.com” ( v ) (v) (v) 到邮箱输入字段 ( e ) (e) (e) 中。

SeeAct 设计有两个阶段来生成动作:动作生成和动作接地。动作生成阶段涉及以文本形式描述下一步要执行的动作:

( e ‾ , o ‾ , v ‾ ) = π 1 ( { i } , T , A ) ( 2 ) (\underline{e}, \underline{o}, \underline{v}) = \pi_1(\{i\}, T, A) \qquad (2) (e,o,v)=π1({i},T,A)(2)

其中带下划线的变量对应于各自的文本描述。 i i i 是由 HTML 内容 h h h 渲染的截图图像,即 i = ϕ ( h ) i = \phi(h) i=ϕ(h) ϕ \phi ϕ 表示渲染过程。

动作接地阶段通过以下方式将描述的动作接地到相应的 Web 事件:

( e , o , v ) = π 2 ( { i , h } , ( e ‾ , o ‾ , v ‾ ) , T , A ) ( 3 ) (e, o, v) = \pi_2(\{i, h\}, (\underline{e}, \underline{o}, \underline{v}), T, A) \qquad (3) (e,o,v)=π2({i,h},(e,o,v),T,A)(3)

注意,在我们的工作中,我们遵循 SeeAct 中的默认实现:(1) 动作生成仅使用截图(即此阶段不需要 HTML 内容),(2) 动作接地使用文本选择方法。SeeAct 两个阶段的示例见附录 L。

3.2 威胁模型

对抗目标。 我们考虑两种类型的对抗目标。(1) 第一个目标是泄露用户的特定 PII,例如邮箱地址和信用卡信息。(2) 第二个目标是泄露用户的完整任务请求 T T T,因为它包含敏感数据以及揭示更多个人信息的附加上下文,这更具挑战性且可能更有害。例如,在 American Airlines 网站上的完整用户请求“预订 5 月 15 日从 CMH 到 LAX 的航班,我的邮箱是 abc@gmail.com”揭示了用户旅行计划的详细信息,如日期、地点和交通类型,构成重大隐私风险。

攻击约束。 我们假设攻击者对用户的任务 T T T 或先前执行的动作 A A A 没有先验知识。此条件确保攻击保持通用性,适用于不同的任务和用户。攻击者只能根据给定网站上可用的功能设计隐私攻击,但可以投入任何努力使攻击良好适应(第 6 节)。此外,攻击不应妨碍智能体正常完成用户预期任务的能力;否则,用户可能轻易检测到并将网站列入黑名单。

攻击场景。 我们考虑两种现实的网站被攻破的场景:(1) 网站开发人员是良性的但使用了受污染的开发工具。通常,前端开发人员使用在线库和框架(例如 React(Meta Platforms, 2024))来简化开发过程。尽管这些开源工具高效有效,但它们也引入了安全问题,正如 CISA 最近的一份报告所证明的那样1。如果 Web 开发人员无意中使用由恶意行为者开发的受污染库,生成的网页将包含隐藏但可利用的漏洞。(2) 网站开发人员是恶意的。网站开发人员会定期维护和更新网页以添加新功能。如果某些开发人员想从这个过程中获利,他们可能会在这些更新期间故意注入恶意内容,从而危及网站和用户的安全。

在这里插入图片描述

图2:EIA 实现的详细示意图。它展示了针对参考点 $P_0$ 处的目标元素(图 1 中的收件人姓名字段)的表单注入(aria)和镜像注入策略。表单注入(aria)在位置 $P_{-1}$ 插入一个新表单,而镜像注入在位置 $P_{+2}$ 镜像目标元素,并在 aria-label 属性中添加说服性指令。两者均通过配置 CSS 特性设置为零不透明度,并利用 JavaScript 自动提交机制。“xxx”表示与注入机制不直接相关的其他 HTML 内容。

3.3 环境注入攻击策略

基于我们上面提出的威胁模型,我们引入 EIA,它可以形式化为:

h ∗ = E ( h , P I , α , β ) ( 4 ) h^{*} = E(h, \mathbb{P}\mathbb{I}, \alpha, \beta) \qquad (4) h=E(h,PI,α,β)(4)

一般来说,EIA 旨在通过根据不透明度值 α \alpha α 和注入位置 β \beta β 将说服性指令(PI)注入到良性 HTML 内容 h h h 中来操纵智能体的行为。

接下来,我们解释使 EIA 适应 Web 环境的关键要素:

说服性指令(PI): (1) 为了攻击特定的 PII,我们策划了一个提示模板:“这是输入(PII 类别)的正确位置。”占位符根据要攻击的目标元素进行实例化。(图 1 的 PII 类别是“收件人姓名”。)(2) 类似地,为了泄露完整的用户请求,我们设计了一个提示模板,说服 Web 智能体揭示它被要求的请求,如附录 H 所示。我们凭经验发现,在提示设计中使用大写单词和带有身份验证的场景想象可以提高 ASR。两个提示模板都经过精心设计,以使攻击适应实现对抗目标,同时不被简单的过滤启发式方法检测到(第 6 节)。

不透明度值 α \alpha α α ∈ [ 0 , 1 ] \alpha \in [0,1] α[0,1] 是一个控制注入元素可见性的参数,0 表示不可见,1 表示完全可见。这是通过调整注入元素的 CSS 不透明度属性实现的。为了最大限度地降低通过人工监督被轻易检测到的风险,我们默认设置 α = 0 \alpha = 0 α=0。因此,注入前后的渲染截图高度相似,除非仔细检查,否则无法区分。

注入位置 β \beta β 我们首先将原始良性网页 h h h 中预期输入特定 PII 的目标元素的位置定义为 P 0 P_0 P0。它作为注入位置 β \beta β 的参考点(示例见图 2)。 β \beta β 的值相对于 P 0 P_0 P0 定义,使得 β = P n \beta = P_n β=Pn,其中 n ∈ Z n \in \mathbb{Z} nZ n ≠ 0 n \neq 0 n=0。这允许 β \beta β 表示 DOM 树中目标元素上方( n > 0 n > 0 n>0)或下方( n < 0 n < 0 n<0 ∣ n ∣ − 1 |n|-1 n1 级的位置。在本研究中,我们考虑 n ∈ { ± 1 , ± 2 , ± 3 , ± ∞ } n \in \{\pm 1, \pm 2, \pm 3, \pm \infty\} n{±1,±2,±3,±},其中 P + ∞ P_{+\infty} P+ P − ∞ P_{-\infty} P 分别表示网页上最高和最低的可能注入位置。

注入策略 E E E 为了将 PI 融入 h h h 以泄露私人信息,我们开发了两种注入策略:表单注入(FI)和镜像注入(MI)。表单注入涉及创建一个包含指令的 HTML 表单。指令可以插入到表单的 HTML 元素或属性中,包括文本字段或 aria-label 属性,在后续章节中分别称为 FI(text)和 FI(aria)。我们选择表单作为载体,因为它在 HTML 中普遍存在且数据提交直观。为了进一步使我们的注入适应多样化和复杂的 Web 环境,无论网站是否使用表单进行数据提交,我们引入了镜像注入。该策略复制要攻击的目标元素(可以是表单以外的用于数据提交的元素,例如图 2 中的 ),并使用额外的属性(如 aria-label)来承载说服性指令。MI 比 FI 对 Web 智能体来说更具挑战性,使其难以区分良性目标元素和恶意对应元素,因为说服性指令的载体与原始 Web 环境(包括样式和命名约定)非常相似,仅在辅助属性中添加了注入的指令。总体而言,两种策略都旨在将 PI 无缝注入 Web 环境,产生如公式 4 所述的 h ∗ h^{*} h

自动提交机制: 我们进一步设计了一个自动提交机制以使攻击可行。具体来说,我们消除了点击按钮提交数据的需求。相反,我们使用一个基于 JavaScript 的延迟脚本,监视智能体在注入元素上的打字活动。一旦智能体在预定的时间间隔(我们实现中设为一秒)内停止打字,脚本会自动将私人信息提交到外部网站。提交后,注入的元素立即从 DOM 树中移除。这种自动提交过程有助于避免在私人信息泄露后干扰智能体操作的正常流程,从而保持 Web 智能体的完整性并使攻击更具适应性,如第 5 节所示。

注意,这里我们仅介绍实现 EIA 的关键要素。在真实场景中,攻击者可以投入额外努力进一步细化和定制针对不同目标网站的 EIA。

4 实验

4.1 实验设置

Web 智能体的骨干 LMM。 SeeAct(Zheng et al., 2024)作为一个 SOTA Web 智能体框架,可以由不同的 LMM 驱动。具体来说,我们实验了闭源 GPT-4V(Achiam et al., 2023)、开源 Llava-1.6-Mistral-7B(Liu et al., 2023a)和 Llava-1.6-Qwen-72B(Li et al., 2024),在后续实验中分别简称为 LlavaMistral7B 和 LlavaQwen72B。所有实验均使用 A6000 48GB GPU 进行。

评估数据。 我们从 Mind2Web(Deng et al., 2023)收集评估数据,这是一个广泛用于开发和评估 Web 智能体的数据集。该数据集涵盖 137 个真实网站,包含总共 2,350 个人工制作的任务。我们选择那些涉及 PII 信息的任务。具体来说,对于每个任务的每个动作步骤,我们使用 GPT-4(Achiam et al., 2023)和 GPT-4o(OpenAI, 2024)来确定是否涉及 PII 并识别 PII 类别。用于识别 PII 和 PII 类别的提示包含在附录 K 中。

然后我们手动验证每个动作步骤,并根据需要重新标注 PII 类别。过滤掉低质量数据后,我们最终确定了 177 个动作步骤(即实例)。这些实例涵盖了多种类别的 PII 和多样化的任务类型,为研究隐私攻击提供了一个全面的数据集。详细信息,包括领域和 PII 分布,见附录 G.1。获得这些实例后,我们从 Mind2Web 数据集中提供的 MHTML 快照文件中,手动为每个实例适配相应的真实网站(例如,在网站上填充当前动作步骤 a t a_t at 之前已执行的动作序列 A t A_t At)。

为了实现可扩展的评估,我们实现了一个自动脚本,通过 EIA 将恶意内容注入到收集的网页中。然而,这种自动化可能会牺牲 EIA 的适配质量。例如,当适配不当时,它可能引入额外的空白(附录 D)。在真实世界场景中,攻击者可以投入更多精力为特定网页定制攻击,以确保更好的适配(第 6 节)。

表1:不同 LMM 骨干在不同注入位置、不同注入策略下的 ASR 性能。所有设置中的最高 ASR 以粗体突出显示。最后两列分别显示不同骨干的 ASR 平均值(方差)(最高值以 † \dagger 标记)和无攻击下的良性成功率。最后一行显示不同设置下各位置的平均 ASR,最高值以 † \dagger 标记。

LMM 骨干 策略 位置 平均值(方差) SR
P+∞ P+3 P+2
LlavaMistral7B FI (text) 0.13 0.11 0.13
FI (aria) 0.07 0.08 0.08
MI 0.09 0.08 0.08
LlavaQwen72B FI (text) 0.16 0.46 0.41
FI (aria) 0.23 0.38 0.41
MI 0.04 0.30 0.41
GPT-4V FI (text) 0.46 0.42 0.52
FI (aria) 0.55 0.52 0.58
MI 0.44 0.53 0.61
平均位置 - 0.24 0.32 0.36

评估指标。 我们采用 Mind2Web(Deng et al., 2023)中定义的步骤成功率(SR)。如果没有攻击,当所选元素和预测的操作(包括值)都正确时,动作步骤 a t a_t at 被视为成功。为了量化攻击性能,我们测量当前步骤 a t a_t at 的 ASR。当注入元素被选中且输入的值与真实值5的字符串级相似度分数4大于 0.95 时,对于我们研究的两个对抗目标,攻击被视为成功。

4.2 EIA 窃取特定 PII

这里,我们首先探索使用 EIA 泄露特定 PII。注意,当不透明度值 α = 0 \alpha = 0 α=0 时,注入是不可见的,截图看起来是良性的。因此,受感染的网页 h ∗ h^{*} h 只能影响动作接地(公式 3),而不影响动作生成(公式 2)。EIA 下受影响的动作接地阶段可以重新表述为:

( e ∗ , o ∗ , v ∗ ) = π 2 ( { i , h ∗ } , ( e ‾ , o ‾ , v ‾ ) , T , A ) ( 5 ) (e^{*}, o^{*}, v^{*}) = \pi_2(\{i, h^{*}\}, (\underline{e}, \underline{o}, \underline{v}), T, A) \qquad (5) (e,o,v)=π2({i,h},(e,o,v),T,A)(5)

因此,被误导的 Web 智能体将把 PII ( v ∗ ) (v^{*}) (v) 输入 ( o ∗ ) (o^{*}) (o) 到注入的元素 ( e ∗ ) (e^{*}) (e) 中。

EIA 的性能。 不同注入策略在不同位置的攻击性能如表 1 所示。注意,不同的骨干 LMM 在其无攻击的通用能力上差异很大,如步骤 SR 的差异所示。然而,无论步骤 SR 是高还是低,EIA 在这些 LMM 上仍然相对有效。值得注意的是,针对 GPT-4V 的攻击可以达到高达 70% 的 ASR。这表明,虽然性能更好的模型可以有效地完成任务,但它们也更容易受到 EIA 的攻击,可能导致用户 PII 泄露。这一发现与相关研究(Carlini et al., 2021; Mo et al., 2024b)的结论一致,即能力更强的模型也更容易受到对抗性攻击。

对注入位置的敏感性。 此外,由于 Web 结构的动态性和复杂性,有多种位置可供注入。总体而言,我们观察到靠近目标元素的注入比较远位置(上方或下方)的注入获得更高的 ASR。特别地,位于目标元素正上方(即位置 P + 1 P_{+1} P+1)的注入平均 ASR 最高,高于位于下方的注入。在所有设置中,使用 GPT-4V 时,MI 在 P + 1 P_{+1} P+1 处实现了最高的 70% ASR。我们认为,这部分是因为 Web 智能体在目标元素(位于 P 0 P_0 P0)之前感知到 P + 1 P_{+1} P+1 处恶意注入的元素,由于固有的位置偏差,更有可能选择注入的元素。

不同注入策略的比较。 MI 实现了最高的 ASR,可能是因为它镜像了原始 HTML 样式和命名约定。与 FI 产生的与整体网页有些脱节的注入相比,MI 使 Web 智能体更容易选择注入的元素,因为它与网页其余部分融合得更好。然而,MI 表现出较低的平均 ASR 和较高的方差,这可能表明 FI 在不同注入位置上更一致。

4.3 EIA 窃取完整用户请求

现在研究另一个对抗目标:泄露完整用户请求。尽管相应调整了 PI,我们发现 EIA 未能泄露完整请求,ASR 为零。经检查,问题出在动作接地之前的动作生成阶段。由于动作生成仅依赖于截图(公式 2),而截图由于 α = 0 \alpha = 0 α=0 看起来是良性的。因此,它继续产生关于完成用户预期任务的正常文本描述 ( e ‾ , o ‾ , v ‾ ) (\underline{e}, \underline{o}, \underline{v}) (e,o,v),其中 v ‾ \underline{v} v 指示下一步要填写的值是 PII,而不是完整请求。

针对这一限制,我们提出了通过将 α \alpha α 设置为一个较低的非零值来放宽不透明度约束的方法,称为 Relaxed-EIA。具体来说,我们采用策略 E E E:FI (text) 用于注入 PI。为了在能够被 Web 智能体感知和不被简单人工检测注意到之间取得平衡,我们凭经验将 α \alpha α 设置为 0.2。同时,完整用户请求可能包含多个 PII,因此我们在配置注入位置 β \beta β 时,将每个动作步骤中涉及的特定 PII 的位置 P 0 P_0 P0 作为参考点。Relaxed-EIA 下的网站见附录 E。在 Relaxed-EIA 下,受影响的动作生成公式如下:

( e ‾ ∗ , o ‾ ∗ , v ‾ ∗ ) = π 1 ( { i ∗ } , T , A ) 其中 i ∗ = ϕ ( h ∗ ) 且 α ≠ 0 ( 6 ) (\underline{e}^{*}, \underline{o}^{*}, \underline{v}^{*}) = \pi_1(\{i^{*}\}, T, A) \quad \text{其中} \quad i^{*} = \phi(h^{*}) \quad \text{且} \quad \alpha \neq 0 \qquad (6) (e,o,v)=π1({i},T,A)其中i=ϕ(h)α=0(6)

并且受影响的 v ‾ ∗ \underline{v}^{*} v 将引导后续的动作接地阶段输入完整请求。

Relaxed-EIA 性能。 附录 J.1 中的图 24 显示了 Relaxed-EIA 的 ASR。GPT-4V 的 ASR 不再为零,表明动作生成过程已被攻破以泄露完整请求。然而,其他两个 LMM 的 ASR 仍然为零,这可归因于 GPT-4V 比其他模型具有更优秀的光学字符识别(OCR)和指令跟随能力,这与第 4.2 节的结论一致。总体而言,位置 P + 3 P_{+3} P+3 P − 3 P_{-3} P3 的注入显示出一致的有效攻击性能,对不同位置不那么敏感。特别地,位置 P − 3 P_{-3} P3 成为最脆弱的位置,对于完整请求泄露产生了最高的 16% ASR。此外,我们发现 Relaxed-EIA 与 EIA 相比,可以略微提高选择注入元素的准确性,如附录 J.2 所示。

5 攻击检测与缓解

5.1 检测分析

在本节中,我们通过使用传统的 Web 安全工具和评估智能体功能完整性来评估(Relaxed-)EIA 是否会被检测。本节我们专注于使用 GPT-4V。

传统 Web 安全工具。 Web 安全已经研究了多年,有许多成功且有用的检测工具。特别地,我们使用 VirusTotal(VirusTotal, 2023),一个经典的 Web 恶意软件检测工具,来识别(Relaxed-)EIA 注入后网页中的可疑和恶意组件。然而,我们发现这些网页都没有被 VirusTotal 标记为恶意或可疑。这种检测失败源于我们引入的恶意内容的独特性质。与以前通常与恶意可执行代码相关的 Web 威胁不同,我们的方法涉及将看似无害的自然语言插入 HTML 内容,这将被那些传统的 Web 安全工具忽略。

智能体功能完整性。 它指的是智能体按预期完成任务的能力,保持这种完整性对于攻击不太可能被用户检测到至关重要。正常操作中的任何中断都可能提醒用户潜在问题,可能导致他们将网站列入黑名单。为了评估这方面,我们追踪智能体在泄露用户私人信息后是否能继续正常执行用户任务(即在 a t a_t at 成功攻击后 a t + 1 a_{t+1} at+1 的 SR),记为 A S R p t \mathrm{ASR}_{pt} ASRpt。特别地,一旦 a t + 1 a_{t+1} at+1 中的动作要么与无攻击情况下智能体本应采取的动作相匹配,要么对应于攻击步骤后剩余的金标动作之一,则计为成功。

根据图 3,在 EIA(MI)和 Relaxed-EIA 中, A S R p t \mathrm{ASR}_{pt} ASRpt 都非常接近 ASR,表明我们的攻击几乎不影响 Web 智能体的后续动作,部分归功于我们设计的自动提交机制。这一发现表明,采用这些攻击方法的恶意网站可以窃取用户的私人信息,而不会明显影响智能体的功能完整性或用户交互体验。

在这里插入图片描述

图3:EIA(实线)和 Relaxed-EIA(虚线)的 ASR 和 $\mathrm{ASR}_{pt}$ 结果。我们的攻击不影响智能体的功能完整性。

在这里插入图片描述

图4:默认 SeeAct 和带有防御性系统提示的 SeeAct 在 EIA(实线)和 Relaxed-EIA(虚线)下的 ASR 结果。

5.2 通过防御性系统提示缓解

我们评估 EIA 带来的风险是否可以通过防御性系统提示轻松缓解。特别地,在提示中,我们警告 Web 智能体潜在的提示注入,避免任何在网站上不常见的元素或动作(我们测试了三个防御性提示,见附录 I)。然而,我们发现这种方法不能有效对抗攻击,因为对于 EIA(MI)和 Relaxed-EIA,ASR 与使用默认系统提示几乎相同(图 4)。我们假设这种无效源于两个因素:(1) 我们设计的 PI 在网页上表现为良性指导,没有明确传达有害信息,(2) 模型缺乏对正常网站应该包含什么和不应该包含什么的清晰理解。

6 讨论

人工监督。 Web 智能体可以应用于具有不同级别人工监督的各种场景。这种不同程度的监督呈现出自主性和安全性之间的权衡。在对自主性要求高的场景中,网页通常不会直接呈现给用户,使得 Web 智能体在最小监督下运行。这允许攻击者设计更明确的攻击而无需担心视觉改变,使智能体高度脆弱。另一方面,当人类积极监控访问的网站时,他们更容易发现异常的视觉变化,例如由 Relaxed-EIA 引起的或注入元素在适配不当时占据的奇怪空白。然而,持续的视觉注意力不可避免地给用户带来额外负担。

一种平衡的方法是根据任务类型调整监督级别。对于涉及 PII 的任务,对 Web 智能体进行密切监督以确保安全至关重要,包括在输入敏感信息之前要求许可或验证。相反,以信息查找为重点的任务通常受益于更高的自主性以减少用户负担。然而,实施这种方法存在挑战。例如,如果用户在驾驶时通过 Web 智能体预订航班(涉及 PII 的任务),保持持续监督变得不切实际。此外,虽然信息查找任务可能不直接涉及私人数据,但用户正在搜索的内容的未经授权泄露(例如通过 Relaxed-EIA)仍然可能侵犯用户的隐私权。

但即使有人工监督,它是否像人们假设的那样有效?对 ChatGPT 记忆功能的成功攻击(SystemWeakness, 2023)表明,人工监督通常不可靠;用户可能会从攻击者的网站复制文本并发送给 ChatGPT,甚至没有注意到复制内容中注入的恶意提示。在这种不可靠的监督下,如果用户没有滚动到底部,放置在页面底部(即 β = P − ∞ \beta = P_{-\infty} β=P)的 Relaxed-EIA 注入可能不会被注意到。此外,即使高水平的监督也可能无法检测网站是否已被攻破,特别是当攻击良好适应时。在附录 B 中,我们展示了五个 EIA 几乎无缝适应网页的例子(通常不需要攻击者付出显著努力),导致受感染的网站看起来非常良性或与原始网站几乎相同。这些被攻破的页面具有最小或没有视觉变化,用户极难检测。

对网站部署前和部署后防御的影响。 我们在第 5 节中讨论了最著名的工具之一 VirusTotal,用于检查网页,这可以被视为网站部署前阶段的潜在防御。检测失败凸显了需要更先进和专门的 Web 恶意软件检测工具来对抗由基于 LLM 的 Web 智能体引起的独特威胁——自然语言注入。一种可能的解决方案是使用预定义的敏感关键词列表来过滤网页内容。然而,我们攻击中的说服性指令主要由普通句子组成。例如,像“这是输入…的正确位置”这样的短语在网页上可能看起来是良性的指导信息,使得关键词过滤难以检测。另一种防御方法是过滤掉具有零不透明度的不可见元素。然而,许多合法元素最初由于过渡或动画等原因具有零不透明度,然后才变得可见和可交互。在这种情况下区分良性元素和恶意元素是困难的。排除所有这些元素可能会破坏网站预期的流程或功能,导致糟糕的用户体验。

防御性系统提示和监控智能体功能完整性都可以被视为网站部署后阶段的防御策略。尽管我们已经证明一种特定类型的系统提示防御无法缓解 EIA,但我们承认其他工作(Chen et al., 2024; Wallace et al., 2024)提出了优先考虑指令而非数据以对抗注入攻击的方法。然而,这种不加区分地优先考虑指令而非数据(Wallace et al., 2024; Hines et al., 2024)可能会损害 Web 智能体的效用,因为许多指导性消息嵌入在网页元素(数据)中。例如,解释元素用途的描述性文本或指定表单功能的 aria 标签为有效的 Web 导航和交互提供了必要的上下文。忽略这些数据将损害智能体理解和有效交互 Web 环境的能力,从而损害其功能完整性。这凸显了需要在有效防御与保留原始功能之间取得平衡的方法。

EIA 的独特性和重要性。 更多细节见附录 N。总之,在上述相同的威胁模型下,传统的 Web 攻击(例如混淆 JavaScript 或将传输脚本注入 HTML 表单)可以泄露用户输入到特定字段的特定 PII。然而,EIA 更进一步,能够泄露用户的完整请求,这是提供给 Web 智能体以指导其与网站交互完成任务的高级指令。由于此请求不是直接在网页上输入的,旨在针对用户输入的 PII(例如图 1 中的收件人姓名)的传统攻击无法访问或泄露它。重要的是,完整请求包含特定 PII 之外的额外信息,泄露它可能导致更严重的隐私风险(第 3.2 节)。此外,我们强调研究针对扩展攻击面的新攻击方法的重要性,并讨论 EIA 如何激励未来的工作探索传统 Web 攻击无法触及的新对抗目标,最终目标是构建鲁棒的 Web 智能体。

关于离线设置和不同注入探索受限的局限性见附录 F。

7 结论

我们的工作探索了通用 Web 智能体带来的潜在隐私泄露问题。我们首先开发了一个现实的威胁模型,然后引入了一种新颖的攻击方法,称为 EIA。我们将其应用于最先进的通用 Web 智能体框架之一 SeeAct。我们的实验证明了我们攻击在通过探索不同的适应策略来泄露用户特定 PII 和完整请求方面的有效性。此外,我们表明这些攻击难以检测和缓解。我们进一步讨论了自主性和安全性之间的权衡,强调了在 Web 智能体应用中纳入不同级别人工监督的挑战。此外,我们表明,通过额外努力,攻击者可以将攻击无缝适应到网页中,使人工监督不可靠。最后,我们讨论了在不依赖人工监督的情况下,网站在部署前和部署后阶段防御策略的影响,并强调了 EIA 与传统 Web 攻击相比的独特性和重要性。总体而言,我们的研究强调了更全面探索通用 Web 智能体带来的隐私泄露风险的必要性。

伦理声明

本文介绍了一种新型攻击 EIA,它可能误导 Web 智能体泄露用户的私人信息,如果被攻击者利用,将构成安全风险。然而,至关重要的是要强调,我们的研究方法旨在在不危及真实用户隐私的情况下调查这种风险。我们的评估数据来自公开且离线缓存的 Mind2Web 数据集(Deng et al., 2023),无需对实时网站进行攻击。此外,尽管任务和包含的 PII 类别基于真实用户需求,但使用的具体 PII 是虚构的,保证了没有真实用户数据面临风险。这使得我们能够在保持严格道德标准的同时,对潜在漏洞进行彻底评估。

此外,尽管我们在攻击当前 SOTA Web 智能体上取得了相对较高的 ASR 结果,但需要注意的是,Web 智能体技术仍处于早期开发阶段,尚未准备好在现实生活中部署。因此,我们的攻击目前不会构成直接的真实世界威胁。尽管如此,Web 智能体领域正在快速发展,投入了大量的研究工作。例如,社区正在积极开发更强大的多模态模型作为骨干架构,并实施诸如蒙特卡洛树搜索等先进技术以提高有效性(Putta et al., 2024)。鉴于这种快速进展,在 Web 智能体广泛部署到现实场景之前,识别和解决潜在的安全漏洞势在必行。我们的研究通过评估 EIA 的隐私风险并证明其攻击有效性,朝着这个方向迈出了 proactive 的一步。我们工作的主要目标不是促进这种攻击的恶意应用。相反,我们希望引起对随着 Web 智能体技术进步而可能出现的风险的关注。最终,我们的研究有助于开发能够安全部署在现实场景中的鲁棒且可靠的 Web 智能体。

可重复性声明

在第 4.1 节中,我们提供了 LMM 骨干的详细信息,并描述了我们如何从 Mind2Web 数据集中适配包含 PII 的评估数据。我们还明确定义了不同实验中使用的成功率和各种攻击成功率变体(即 ASR、 A S R p t \mathrm{ASR}_{pt} ASRpt A S R o \mathrm{ASR}_{o} ASRo),以及评估中应用的阈值。在接受后,我们将开源所有相关材料,包括我们工作中的运行结果。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐