【论文阅读】-《WebInject: Prompt Injection Attack to Web Agents》

∞984

86人浏览 · 2026-05-22 19:46:41

∞984 · 2026-05-22 19:46:41 发布

WebInject：针对Web智能体的提示注入攻击

在这里插入图片描述
原文链接：WebInject: Prompt Injection Attack to Web Agents

摘要

基于多模态大语言模型的Web智能体通过根据网页截图生成动作来与网页环境交互。在这项工作中，我们提出了WebInject，一种提示注入攻击，通过操纵网页环境来诱导Web智能体执行攻击者指定的动作。我们的攻击对渲染后网页的原始像素值添加扰动。在这些扰动像素被映射到截图后，该扰动会诱导Web智能体执行攻击者指定的动作。我们将寻找扰动的问题形式化为一个优化问题。解决此问题的一个关键挑战是原始像素值与截图之间的映射是不可微的，这使得难以将梯度反向传播到扰动上。为了克服这一挑战，我们训练了一个神经网络来近似该映射，并应用投影梯度下降来求解重新表述后的优化问题。在多个数据集上的广泛评估表明，WebInject非常有效，并且显著优于基线方法。

1 引言

网页由HTML文件定义。浏览器通过解释其HTML源代码并在显示器的显示区域内生成相应的原始像素值来渲染网页。这些原始像素随后通过网页到截图的映射转换，然后显示在显示器上。随着多模态大语言模型推理能力的进步，越来越多的Web智能体框架采用MLLM作为骨干网络（Zheng et al., 2024; Koh et al., 2024）。通常，基于MLLM的Web智能体以用户提示作为指令，并使用显示器截取网页截图作为观察。然后，它使用MLLM基于用户提示、观察和先前动作的历史记录生成一个动作。生成的动作包括点击特定坐标或键入特定文本输入。

然而，尽管基于MLLM的Web智能体具有先进的能力，它们仍然容易受到新兴的安全威胁。其中一种威胁是提示注入攻击（Liu et al., 2024; Liao et al., 2025; Zhang et al., 2024; Aichberger et al., 2025; Zhao et al., 2025; Wu et al., 2025），在这种攻击中，对手操纵Web环境以诱导智能体执行特定的、对手选择的动作——称为目标动作——例如点击显示器上的指定坐标。这类攻击构成了严重的安全风险，可能导致点击欺诈、恶意软件下载或敏感信息泄露等后果。

针对Web智能体的提示注入攻击可分为两类：1）基于网页的攻击（Liao et al., 2025; Zhang et al., 2024; Xu et al., 2024）。这些攻击旨在通过修改网页的源代码来误导Web智能体生成目标动作——例如，通过注入欺骗性的HTML元素如弹出窗口。然而，大多数现有的基于网页的攻击是启发式驱动的，通常表现出次优的有效性。此外，它们要么缺乏隐蔽性，要么在保持隐蔽性时牺牲了一定程度的有效性，因为注入的元素通常对用户可见且容易被检测到。2）基于截图的攻击（Aichberger et al., 2025; Zhao et al., 2025）。这些攻击直接向网页截图添加视觉扰动，以增加Web智能体执行目标动作的可能性。然而，这类攻击在现实场景中并不实用，因为攻击者无法直接修改截图（截图是在用户设备上本地捕获的）。此外，它们都没有讨论网页到截图的映射，反映出对这一关键方面缺乏考虑。因此，尽管有人可能试图通过修改网页源代码来修改原始像素值以实现这些扰动，但由于网页到截图映射的非平凡性，这种方法完全失败，正如我们的实验所证明的那样。第6节提供了更多关于相关工作的详细信息。

在这里插入图片描述

图1：WebInject示意图。

在这项工作中，我们提出了一种新的基于网页的攻击——WebInject，它在保持实用可行性的同时，同时实现了有效性和隐蔽性。图1简要展示了WebInject：攻击者通过修改网页源代码对网页的原始像素值引入扰动；这间接扰动了生成的截图，从而误导Web智能体生成目标动作。特别地，为了确保有效性和隐蔽性，我们将寻找扰动的问题形式化为一个优化问题。目标是最大化MLLM生成期望目标动作的概率（有效性），同时约束扰动的 $\ell_{\infty}$ -范数以确保其对用户不可察觉（隐蔽性）。此外，由于网页到截图的映射因显示器而异，我们将扰动限制在多种类型显示器共享的重叠区域内，从而构建一个通用扰动。

然而，解决该优化问题面临两个关键挑战：1）将网页原始像素值转换为显示器上截图的网页到截图映射是不可微的；2）MLLM为适应输入尺寸而使用的调整大小操作也是不可微的。这些不可微性使得难以将梯度反向传播到扰动上。为了解决第一个挑战，我们训练了一个神经网络来近似网页到截图映射。为了克服第二个挑战，我们用一个可微的替代方案替换了原来的调整大小操作。通过这些修改，我们应用投影梯度下降来求解重新表述后的优化问题并获得扰动。最后，我们通过修改网页的源代码来实现该扰动。

我们对我们的攻击进行了深入的评估。我们首先构建了广泛的网页数据集，包括合成网页和真实网页。我们的广泛评估表明，WebInject非常成功，并且显著优于现有攻击。具体来说，当Web智能体使用MLLM Gemma-3（Team et al., 2025）时，我们攻击的成功率比最佳基线高出0.910。我们还进行了消融研究，以检验显示器数量、扰动边界、不同类别的提示以及各种目标动作的影响。这些研究进一步证明了WebInject在不同配置和变化下的泛化能力。

2 背景

网页、截图和网页到截图映射。 网页由包含源代码 $\omega$ 的HTML文件定义，该代码指示浏览器如何在显示器 $d$ 上渲染网页内容。假设显示器 $d$ 的宽度为 $w_d$ ，高度为 $h_d$ ，定义一个矩形区域 $[0,w_d]\times [0,h_d]$ ，以左上角为坐标系原点。浏览器基于源代码 $\omega$ 在该区域内渲染网页内容。为简单起见，我们假设浏览器处于全屏模式，这是Web智能体的常见做法。我们用 $I(\omega,d)$ 表示渲染后得到的原始像素值。在显示到显示器之前， $I(\omega,d)$ 根据显示器的国际色彩联盟配置文件进行转换，该配置文件定义了颜色在特定显示器上的显示方式。此过程可以形式化为 $I_s(\omega,d) = M(I(\omega,d), ICC_d)$ ，其中 $M(\cdot, ICC_d)$ 表示由显示器ICC配置文件 $ICC_d$ 定义的网页到截图映射。 $I(\omega,d)$ 和 $I_s(\omega,d)$ 都是大小为 $w_d \times h_d \times 3$ 的张量，最后一个维度对应三个RGB通道。

网页的截图反映的是经过ICC转换后的图像 $I_s(\omega,d)$ ，而不是 $I(\omega,d)$ 。由于显示器在尺寸和ICC配置文件上存在差异，同一个网页在两种不同类型的显示器上显示会产生不同的截图图像 $I_s(\omega,d)$ 。附录中的图6展示了网页原始像素值 $I(\omega,d)$ 以及在两种不同显示器上截图的示例。注意，相同类型的显示器通常共享相同的ICC配置文件。例如，所有来自Apple的27英寸5K Retina显示器使用相同的ICC配置文件，这可能与Dell的27 Plus 4K显示器使用的配置文件不同。这些不同显示器类型的ICC配置文件通常是公开可用的（TFTCentral, 2021）。此外，网页到截图映射 $M$ 是不可微的，这给实现我们的网页空间攻击带来了重大挑战，详见第4.2节。

基于MLLM的Web智能体。 基于MLLM的Web智能体由MLLM $f$ 驱动。给定用户指定的文本提示 $p$ ，智能体执行一系列动作，通过显示器 $d$ 与网页 $\omega$ 迭代交互，以完成所需任务。网页 $\omega$ 定义了智能体与之交互的环境。网页内容被渲染并显示在显示器 $d$ 上，其截图作为智能体对环境的观察。动作空间 $\mathcal{A}$ 中的每个动作 $a$ 由一个函数名称及其相应参数组成。例如，click((x,y))表示点击显示器上的坐标 $(x, y)$ 。附录中的表2总结了Web智能体可能的动作。

在每一步 $t$ ， $f$ 接收文本提示 $p$ 、使用显示器 $d$ 捕获的网页 $\omega$ 当前状态的截图 $I_s(\omega,d)$ 以及交互历史 $H_t$ 作为输入，并输出要执行的下一个动作 $a_t \in \mathcal{A}$ 。遵循先前工作（Liao et al., 2025; Aichberger et al., 2025; Zheng et al., 2024），交互历史 $H_t$ 仅包含智能体先前采取的动作，即 $H_t = [a_1, a_2, \ldots, a_{t-1}]$ ，其中每个 $a_i$ 表示第 $i$ 步的动作。此外，智能体通常会调整 $I_s(\omega,d)$ 的大小以平衡速度和内存使用，并匹配MLLM的预期输入维度。例如，Qwen2.5-VL（Bai et al., 2025）将截图的宽度和高度四舍五入到最接近的28的倍数。

形式化地，生成的动作 $a_t$ 定义为： $a_t = f(p, r(I_s(\omega, d)), H_t)$ ，其中 $r(\cdot)$ 表示调整大小。为简洁起见，除非另有说明，我们在后续等式中省略下标 $t$ 。令 $\mid [p, r(I_s(\omega, d)), H])$ 表示给定提示 $p$ 、截图 $I_s(\omega,d)$ 和历史 $H$ 时，MLLM $f$ 产生动作 $a$ 的概率。由于 $a$ 是文本描述，它可以表示为token序列： $[e_1, e_2, \ldots, e_n]$ 。由于 $f$ 是一个生成模型，生成动作 $a$ 的概率可以分解为生成序列中每个token的条件概率的乘积：

$\begin{array}{l}{Pr(a\mid [p,r(I_s(\omega ,d)),H]) = \prod_{q = 1}^n Pr(e_q\mid}\\ {[p,r(I_s(\omega ,d)),H,[e_1,\ldots ,e_{q - 1}]).} \end{array} \quad (1)$

3 威胁模型

攻击者的目标。 我们考虑一个攻击者，他控制着一个网页——称为目标网页——例如电子商务网站、博客或教育平台。攻击者可能是目标网页的恶意管理员，也可能是入侵了该网页的第三方。攻击者的目标是操纵目标网页以实现两个目标：有效性和隐蔽性。

有效性目标要求当用户使用Web智能体与目标网页交互时，智能体执行攻击者指定的动作，称为目标动作。例如，目标动作可能涉及点击屏幕上的特定坐标，从而实现恶意结果，如点击欺诈（人为增加广告点击以产生收入）、将用户重定向到恶意或广告页面，或启动恶意软件下载。

由于智能体的行为取决于用户的提示和用于查看网页的显示器，攻击者构建一组提示——称为目标提示——旨在模仿用户自然发出的提示。他们还收集关于一组显示器——称为目标显示器——的信息（如尺寸和ICC配置文件），这些显示器是真实用户常用的。例如，目标提示可以基于网页内容，目标显示器信息可以从在线来源收集。因此，有效性目标是当用户发出目标提示（或其语义等效变体）并使用目标显示器时，最大化智能体执行目标动作的概率。形式化地，令 $\omega$ 表示目标网页， $\mathcal{P}$ 表示目标提示集， $\mathcal{D}$ 表示目标显示器集， $a^*$ 表示目标动作。

隐蔽性目标确保对网页所做的修改对普通用户保持不可见，从而使攻击隐蔽且难以检测。如果用户能够感知到这些变化，他们可能会报告问题或完全避免与目标网页交互。

攻击者的能力。 我们假设攻击者可以修改目标网页的源代码 $\omega$ 。这一假设与先前工作一致（Liao et al., 2025; Zhang et al., 2024）。虽然攻击者无法访问真实的智能体交互历史，但我们假设攻击者可以构建一个影子历史来部分模拟智能体与目标网页之间的交互。在我们的实验中，我们通过从动作空间中随机采样动作来自动生成影子历史。形式化地，令 $\mathcal{H}$ 表示影子历史集，其中每个影子历史包含一系列动作。

攻击者的背景知识。 我们假设攻击者可以访问Web智能体使用的MLLM $f$ 的模型参数。这是一个合理的假设，因为许多MLLM是开源的（Qin et al., 2025; Abouelenin et al., 2025; Meta, 2024; Bai et al., 2025; Team et al., 2025）。这一假设使我们能够在最坏情况下分析基于MLLM的Web智能体的安全性。如前所述，攻击者可以构建目标提示集并收集目标显示器的信息。然而，攻击者无法访问Web智能体的交互历史，也无法直接修改截图，因为用户可能在本地部署智能体，使得历史和截图都不可访问。

4 WebInject

我们的攻击WebInject旨在通过修改目标网页 $\omega$ 的源代码来同时实现有效性和隐蔽性。为此，攻击首先对目标网页渲染后的原始像素值 $I(\omega,d)$ 引入人眼不可察觉的扰动 $\delta$ ，得到修改后的像素 $I(\omega,d) + \delta$ 。然后，攻击通过修改源代码 $\omega$ 以获得新版本 $\omega'$ 来实现该扰动，使得 $I(\omega', d) = I(\omega, d) + \delta$ 。在下文中，我们首先将寻找扰动 $\delta$ 的任务形式化为一个优化问题，然后提出求解该问题的算法，最后描述如何通过修改源代码 $\omega$ 来实现该扰动。

4.1 形式化为优化问题

量化有效性和隐蔽性目标。 对应于第3节讨论的威胁模型，考虑一个由MLLM $f$ 驱动的Web智能体、一个目标网页 $\omega$ 、一个目标提示集 $\mathcal{P}$ 、一个目标显示器集 $\mathcal{D}$ 、一个目标动作 $a^*$ 以及一个影子历史集 $\mathcal{H}$ 。为了量化有效性，我们使用求和交叉熵损失。最小化该损失会产生一个扰动 $\delta$ ，该扰动最大化 $f$ 在不同目标提示和显示器上生成目标动作 $a^*$ 的概率，无论使用何种影子历史。形式化地，损失项定义如下：

$\begin{array}{c}{\sum_{p\in \mathcal{P}}\sum_{d\in \mathcal{D}}\sum_{H\in \mathcal{H}} - \log \left(Pr\left(a^{*}\mid \right)\right)}\\ {[p,r(M(I(\omega ,d) + \delta ,ICC_d)),H])),} \end{array} \quad (2)$

其中 $M$ 是网页到截图映射， $ICC_d$ 是 $d$ 的ICC配置文件，概率 $Pr\left(a^{*}\mid [p,r(M(I(\omega ,d) + \delta ,ICC_d)),H]\right)$ 使用公式1计算。为了量化隐蔽性目标，我们对扰动 $\delta$ 施加一个界。具体来说，我们将 $\delta$ 的 $\ell_{\infty}$ -范数约束在一个小值 $\epsilon$ 内，尽管其他约束（如 $\ell_2$ -范数）也是可行的。

为多个目标显示器约束扰动。 另一个挑战是，为不同目标显示器渲染的原始像素值 $I(\omega,d)$ 可能具有不同的宽度和高度。例如，24英寸iMac M1的分辨率为4480$\times $2520 像素，而 15 英寸 M a c B oo k A i r 的尺寸为 2880$ \times $1864 。因此，扰动$ \delta $可能在某些显示器上不完全可见。例如，如果我们基于 24 英寸 i M a c M 1 制作扰动$ \delta $，它将落在 15 英寸 M a c B oo k A i r 的可视区域之外。为了解决这个挑战，我们将扰动$ \delta $约束在所有目标显示器的重叠区域内。具体来说，我们定义重叠区域的宽度和高度为$ w_{\delta} = \min_{d \in \mathcal{D}} w_d $和$ h_{\delta} = \min_{d \in \mathcal{D}} h_d $，其中$ w_d $和$ h_d $分别表示每个目标显示器$ d $的宽度和高度。为了确保扰动在所有目标显示器上完全可见，我们仅在$ [0, w_{\delta}] \times [0, h_{\delta}]$内优化扰动，在此区域外将其设为零。

优化问题。 考虑到有效性目标的损失项、隐蔽性目标的约束以及适应不同尺寸目标显示器的约束，我们将寻找扰动 $\delta$ 的问题形式化为以下优化问题：

$\begin{aligned} \underset {\delta}{\min}\quad & \sum_{p\in \mathcal{P}}\sum_{d\in \mathcal{D}}\sum_{H\in \mathcal{H}} - \log (Pr(a^{*}\mid \\ & \qquad [p,r(M(I(\omega ,d) + \delta ,ICC_{d})),H])) \\ \mathrm{s.t.}\quad & \| \delta \|_{\infty}\leq \epsilon , \\ & \delta_{xy} = 0,\quad \forall (x,y)\notin [0,w_{\delta}]\times [0,h_{\delta}], \end{aligned} \quad (3)$

其中 $\delta_{xy}$ 表示扰动在坐标 $(x, y)$ 处的值，目标函数捕获有效性目标，第一个约束强制执行隐蔽性目标，第二个约束确保跨多个目标显示器的兼容性。

4.2 求解优化问题以获得扰动 $\delta$

两个挑战。 我们采用投影梯度下降来求解优化问题。然而，出现了两个挑战：（1）网页到截图映射 $M$ 是不可微的，如第2节所述；（2）调整大小操作 $r$ 通常是不可微的，因为MLLM调整大小的实现通常依赖于离散像素重映射（例如，通过PIL或OpenCV）。这些挑战使得难以将损失函数的梯度反向传播到扰动 $\delta$ 上。

解决第一个挑战。 我们通过为每个目标显示器 $d$ 训练一个神经网络——称为映射神经网络——来近似其网页到截图映射 $M(\cdot, ICC_d)$ ，记为 $\mathcal{N}_d$ 。映射神经网络 $\mathcal{N}_d$ 以 $I(\omega,d) + \delta$ 作为输入，并输出相应的截图 $M(I(\omega,d) + \delta, ICC_d)$ 。由于输入和输出都是相同尺寸的像素张量，我们采用流行的U-Net架构（Ronneberger et al., 2015）作为映射神经网络。为了训练 $\mathcal{N}_d$ ，我们收集输入-输出对的数据集。具体来说，对于每一对，我们应用一个随机扰动 $\delta'$ 以获得原始像素值 $I(\omega,d) + \delta'$ ，然后基于目标显示器 $d$ 的ICC配置文件执行网页到截图映射，得到 $M(I(\omega,d) + \delta', ICC_d)$ 。我们重复此过程以收集大量样本。值得注意的是，攻击者不需要物理接触目标显示器来进行网页到截图映射以进行训练。相反，攻击者可以使用其ICC配置文件模拟目标显示器及相应的网页到截图映射。我们在第5.1节和附录图3中提供了有关显示器模拟的更多细节。

解决第二个挑战。 为了解决调整大小的不可微性，我们在优化期间用一个可微的替代方案替换它。具体来说，现代深度学习框架通常支持可微的调整大小。例如，PyTorch提供了函数torch.nn.functional.interpolate()，TensorFlow提供了tensorflow.image.resize()，两者都允许梯度流经调整大小操作。这使我们能够以可微的方式近似调整大小行为。我们将可微的替代调整大小操作记为 $r'(\cdot)$ 。

我们的完整算法。 借助每个目标显示器 $d$ 的映射神经网络 $\mathcal{N}_d$ 和可微的替代调整大小操作 $r^{'}$ ，我们可以将公式3中的优化问题重新表述如下：

$\begin{aligned} \underset {\delta}{\min}\quad & \sum_{p\in \mathcal{P}}\sum_{d\in \mathcal{D}}\sum_{H\in \mathcal{H}} - \log (Pr(a^{*}\mid \\ & \qquad [p,r^{\prime}(\mathcal{N}_{d}(I(\omega ,d) + \delta)),H])) \\ \mathrm{s.t.}\quad & \| \delta \|_{\infty}\leq \epsilon , \\ & \delta_{xy} = 0,\quad \forall (x,y)\notin [0,w_{\delta}]\times [0,h_{\delta}]. \end{aligned} \quad (4)$

然后我们应用PGD来求解重新表述后的优化问题。具体来说，我们将 $\delta$ 初始化为零张量。在每次迭代中，我们随机采样小批量 $\mathcal{P}_B \subseteq \mathcal{P}$ 和 $\mathcal{H}_B \subseteq \mathcal{H}$ 来计算公式4中损失函数的梯度 $g$ 。然后我们以学习率 $\alpha$ 更新 $\delta$ ： $\delta = \delta - \alpha \cdot g$ 。随后，我们对扰动 $\delta$ 进行投影以满足两个约束。对于第一个约束，我们应用一个裁剪函数将 $\delta$ 的 $\ell_{\infty}$ -范数约束到 $\epsilon$ 。给定 $\delta$ 和 $\epsilon$ ，裁剪函数确保 $\delta$ 的每个元素限制在 $[-\epsilon, \epsilon]$ 内。数学上，它定义为 $Clamp(\delta, \epsilon) = \min(\max(\delta, -\epsilon), \epsilon)$ ，其中 $\delta$ 中小于 $-\epsilon$ 的值设为 $-\epsilon$ ，大于 $\epsilon$ 的值设为 $\epsilon$ 。对于第二个约束，我们引入一个掩码矩阵 $S$ ，它在矩形区域 $w_{\delta}] \times [0, h_{\delta}]$ 内值为1，其他地方为0。形式化地，对于 $\in [0, w_{\delta}] \times [0, h_{\delta}]$ 有 $S_{xy}=1$ ，否则为0。然后我们将扰动更新为 $\delta = S \odot \delta$ ，其中 $\odot$ 表示逐元素乘法。我们的完整算法见附录中的算法1。

4.3 通过修改目标网页 $\omega$ 实现扰动 $\delta$

最后，我们的攻击通过向目标网页的源代码 $\omega$ 中注入代码来实现扰动 $\delta$ 。目标是确保修改后的网页 $\omega'$ 满足 $I(\omega', d) = I(\omega, d) + \delta$ ，对于每个目标显示器 $d$ 。具体来说，我们注入的代码按如下方式工作：当浏览器在显示器 $d$ 上渲染网页时，它首先提取矩形区域 $w_{\delta}] \times [0, h_{\delta}]$ 内的原始像素值 $I(\omega, d)$ 。然后，注入的代码将 $\delta$ 加到这些像素值上，并将结果写回同一区域，从而有效地用扰动后的版本覆盖原始渲染的像素值。此实现的伪代码见算法1，更多细节见附录图7。为了保持用户与网页的正常交互，我们将原始HTML元素放在顶层并将其透明度设为零。这确保了截图反映的是扰动后像素经ICC转换后的图像，而用户交互仍然指向原始元素。

5 实验

5.1 实验设置

收集网页数据集。 我们的网页数据集包括真实网页和合成网页。对于真实网页，我们使用SingleFile扩展（Lormeau, 2021）下载其源代码，该扩展允许我们将整个网页快照到单个文件中。使用这种方法，我们收集了五个类别的真实网站——博客、商业、教育、医疗保健和作品集——得到五个数据集。对于合成网页，我们使用GPT-4-Turbo（OpenAI, 2023）为每个类别生成100个网页，得到另外五个数据集。用于生成合成网页的提示见附录图9。总共，我们获得了十个网页数据集，其统计信息见附录表3。我们将每个网页视为目标网页，并对每个网页应用我们的攻击。

用于Web智能体的MLLM。 我们在评估中使用以下五个MLLM：UI-TARS-7B-SFT（Qin et al., 2025）、Phi-4-multimodal-instruct（Abouelenin et al., 2025）、Llama-3.2-11B-Vision-Instruct（Meta, 2024）、Qwen2.5-VL-7B-Instruct（Bai et al., 2025）和Gemma-3-4b-it（Team et al., 2025）。为简洁起见，我们分别称它们为UI-TARS、Phi-4、Llama-3.2、Qwen-2.5和Gemma-3。

目标提示。 对于每个目标网页，基于其源代码，我们使用GPT-4-Turbo（OpenAI, 2023）生成10个目标提示。具体来说，我们应用附录图10中的指令来指导GPT-4o生成这些目标提示。

历史记录。 实验中使用两种类型的历史集：影子历史集和用户历史集。影子历史集由攻击者用于优化扰动，而用户历史集用于评估扰动。对于一个目标网页的影子历史集，我们从动作空间中随机采样10个历史记录，每个采样的历史记录包含3-5个动作。由于真实的用户历史难以收集，我们随机生成历史记录来模拟它们。这种模拟是合理的，因为生成的历史记录不用于优化扰动，并且用户与智能体之间的交互本质上是难以预测的。因此，对于一个目标网页的用户历史集，我们也从动作空间中随机采样10个历史记录，每个历史记录包含3-5个动作。

评估指标。 我们使用攻击成功率来评估我们攻击的有效性。给定一个目标网页 $\omega$ 、一个目标提示 $p_{\omega}$ 和一个目标动作 $a_{\omega}^*$ ，我们的攻击针对这个三元组优化一个扰动 $\delta$ 。如果在显示器 $d$ 上，Web智能体在收到提示 $p_{\omega}$ 、调整大小后的截图 $r(M(I(\omega,d) + \delta, ICC_d))$ 以及从构建的用户历史集中采样的用户历史 $H_{\omega}$ 时，输出完全匹配的目标动作 $a_{\omega}^*$ ，则认为攻击成功。形式化地，对于每个 $(\omega, p_{\omega}, a_{\omega}^*)$ 三元组，在所有目标显示器上的ASR定义如下：

$\frac{1}{|\mathcal{D}|}\sum_{d\in \mathcal{D}} \mathbb{1}\{f(p_{\omega}, r(M(I(\omega,d) + \delta, ICC(d)), H_{\omega}) = a_{\omega}^*\}, \quad (5)$

其中 $\mathbb{1}$ 是指示函数。对于给定的数据集，我们报告所有目标网页、目标提示和用户历史记录的平均ASR。除非另有说明，对于每个目标网页，我们使用click((x,y))——坐标为在所有目标显示器共享的重叠区域内随机选择的坐标——作为默认目标动作。我们还在消融研究中评估了我们的攻击在其他目标动作上的有效性。

模拟显示器。 由于网页到截图映射是显示器特定的，在不同显示器上攻击和评估网页需要操作相应的显示器。因此，我们需要要么使用真实显示器，要么在单个设备上模拟各种显示器。由于获取物理显示器成本高昂，模拟成为一种更实用的方法。为此，我们使用Python和Canvas API。首先，我们使用Python中selenium库的webdriver函数加载网页，将浏览器窗口大小设置为目标显示器的尺寸。这模拟了观看窗口。然后，我们使用Canvas API提取网页的原始像素值。

然后，如第2节所述，截取截图本质上是一种基于ICC配置文件的转换。因此，为了模拟这个过程，在提取原始像素值之后，我们应用基于ICC配置文件的转换，将这些原始像素值映射到截图图像。由于各种显示器的ICC配置文件是公开可用的，我们可以成功地模拟在不同显示器上截取截图。模拟显示器的核心实现见附录图3。在我们的实验中，我们使用了三个物理显示器（24英寸iMac M1、15英寸MacBook Air M3和27英寸4K UHD LG 27UL500-W）并模拟了两个显示器（27英寸4K UHD Dell S2722QC和27英寸4K UHD ASUS XG27UCG）。除非另有说明，我们假设单个目标显示器为27英寸4K UHD LG 27UL500-W。

基线方法。 我们将我们的攻击与两类基线进行比较：（1）基于网页的攻击和（2）基于截图的攻击。基于网页的攻击借鉴了EIA（Liao et al., 2025）、弹窗攻击（Zhang et al., 2024）以及各种文本提示注入方法中的技术，包括朴素攻击（Willison, 2022）、上下文忽略（Willison, 2022）、虚假补全（Willison, 2023）和组合攻击（Liu et al., 2024）。EIA和弹窗攻击向目标网页注入HTML元素以误导智能体，而文本提示注入攻击则精心设计欺骗性的文本指令以诱导智能体执行目标动作。

对于每个目标网页，我们注入一个包含三个关键HTML元素的弹窗：（i）用于吸引智能体注意力的注意钩子；（ii）对应于给定文本提示注入攻击的指令；（iii）一个信息横幅，用于误导智能体关于弹窗目的的信息。信息横幅放置在目标动作中指定的坐标处。如果弹窗诱导智能体点击信息横幅，则认为攻击成功。附录图4总结了这些基于网页的攻击的实现细节。我们在我们的威胁模型中应用了基于截图的攻击（Aichberger et al., 2025; Zhao et al., 2025），即通过在目标网页的截图上优化扰动，并将这些扰动直接添加到目标网页的原始像素值上。

参数设置。 我们将 $\ell_{\infty}$ -范数约束 $\epsilon$ 设为 $16/255$ ，学习率 $\alpha$ 设为0.3，迭代次数 $T$ 设为2500。在为目标显示器训练映射神经网络时，我们在所有目标网页上收集了16,240个输入-输出对，使用200个epoch，学习率0.005，批量大小16。

5.2 实验结果

WebInject同时实现了隐蔽性和有效性目标，并优于现有攻击。 表1报告了各种攻击在不同基于MLLM的Web智能体上，跨10个网页数据集的平均ASR。每个数据集的详细ASR结果见附录表5-9。我们观察到WebInject始终实现高有效性，并显著优于所有基线攻击。例如，当Web智能体使用MLLM Gemma-3时，现有基于网页的攻击的最高ASR为0.062，而基于截图的攻击ASR为0.000。相比之下，WebInject实现了0.972的ASR。这种显著提升源于WebInject基于优化的本质，它直接最大化智能体生成目标动作的可能性。相比之下，现有的基于网页的攻击依赖于启发式注入策略，而基于截图的攻击未能考虑关键的网页到截图映射。

表1：使用各种MLLM的Web智能体在不同攻击下的ASR。每个攻击的ASR是在我们的10个网页数据集上平均的。

智能体	朴素攻击	上下文忽略	虚假补全	组合攻击	WebInject
UI-TARS (Qin et al., 2025)	0.085	0.147	0.054	0.050	0.975
Phi-4 (Abouelenin et al., 2025)	0.095	0.050	0.047	0.025	0.963
Llama-3.2 (Meta, 2024)	0.270	0.212	0.345	0.248	0.972
Qwen-2.5 (Bai et al., 2025)	0.100	0.095	0.067	0.063	0.970
Gemma-3 (Team et al., 2025)	0.062	0.054	0.037	0.062	0.972

目标显示器数量的影响。 图2a显示了目标显示器数量对我们WebInject在五个Web智能体上平均ASR的影响。每个数据集的详细ASR见附录图11-12。我们观察到，随着目标显示器数量的增加，ASR略有下降。这是因为需要优化的扰动空间变小了，因为我们只在重叠区域内优化扰动。尽管如此，选择更多的目标显示器使攻击者能够成功危害更多使用不同显示器的用户，尽管成功攻击每个用户的概率在平均意义上略有下降。此外，如表1所示，尽管基于网页和基于截图的攻击不受目标显示器数量的影响，但当目标显示器数量增加时，它们的表现仍然显著差于WebInject。

扰动边界 $\epsilon$ 的影响。 图2b显示了 $\epsilon$ 对我们WebInject在五个Web智能体上平均ASR的影响。每个数据集的详细ASR见附录图13-14。我们观察到，随着 $\epsilon$ 从 $4/255$ 增加到 $32/255$ ，ASR上升到接近1。这是因为更大的 $\epsilon$ 提供了更大的优化空间。这一结果进一步说明了我们的WebInject能够成功实现有效性和隐蔽性目标。注意，在先前工作中， $\epsilon \leq 16/255$ 通常被认为是隐蔽的（Qi et al., 2024; Luo et al., 2024）。不同 $\epsilon$ 下扰动网页的示例见附录图5。

在这里插入图片描述

图2：目标显示器数量和$\epsilon$对WebInject在五个智能体上平均ASR的影响。

用户提示是目标提示的语义等效变体。 附录表11显示了当用户指定的提示是目标提示的语义等效变体（而非文本相同）时，WebInject在不同智能体上的ASR。具体来说，ASR是通过在公式5中将目标提示 $p_{\omega}$ 替换为其语义等效的用户提示来计算的。给定一个目标提示，我们使用GPT-4-Turbo（OpenAI, 2023）生成其语义等效的用户提示，指导指令见附录图8。我们观察到，尽管WebInject不是针对用户提示直接优化的，但它仍然实现了可比的ASR。例如，对于Gemma-3智能体在合成博客网页数据集上，使用用户提示的ASR为0.957，接近使用目标提示的ASR（0.988）。这一结果突显了只要用户提示在语义上类似于优化中使用的目标提示，WebInject可以扩展到广泛的用户提示。

其他目标动作。 在我们之前的实验中，我们使用click((x,y))作为目标动作。附录表10显示了当使用Phi-4（Abouelenin et al., 2025）作为MLLM时，WebInject在合成博客数据集上对其他目标动作的ASR。结果表明，我们的WebInject在误导Web智能体生成其他目标动作方面也非常成功。

6 相关工作

提示注入攻击。 当LLM处理来自互联网等不可信源的输入时，它容易受到提示注入攻击（Willison, 2022; Greshake et al., 2023; Liu et al., 2024）。在此类攻击中，对手将恶意提示嵌入输入中，以将模型重定向到对手选择的任务，而不是预期的任务。这些注入的提示可以使用启发式方法手动制作（Willison, 2022, 2023; Liu et al., 2024），或通过优化技术自动生成（Hui et al., 2024; Shi et al., 2024; Jia et al., 2025; Shi et al., 2025）。Shao等人（2024）进一步证明，毒化对齐过程可以放大LLM对提示注入的脆弱性。

提示注入已被用于：（1）窃取系统提示（Hui et al., 2024），其中注入的提示诱导模型输出其系统提示而不是完成预期任务；（2）操纵LLM智能体中的工具选择（Shi et al., 2024, 2025），其中优化的描述使模型偏向于调用攻击者控制的工具；（3）污染工具调用结果（Zhan et al., 2024; Debenedetti et al., 2024），其中注入的内容破坏外部工具的输出。

针对Web智能体的提示注入攻击。 提示注入攻击也已扩展到Web智能体。弹窗攻击（Zhang et al., 2024）通过注入误导性的弹窗窗口来欺骗Web智能体。EIA（Liao et al., 2025）注入与攻击者选择的合法元素相似的HTML元素，从而诱使智能体与注入的元素而不是原始元素交互。基于截图的攻击（Aichberger et al., 2025; Zhao et al., 2025）采用对抗性示例技术（Szegedy et al., 2014）来优化添加到截图中的隐蔽视觉扰动，从而最大化Web智能体生成目标动作的概率。如第1节所述，与先前的提示注入攻击不同，WebInject优化了可以通过修改网页源代码直接实现的扰动，使攻击有效、隐蔽且实用。

7 结论

在本文中，我们提出了WebInject，这是第一个针对Web智能体的有效、隐蔽且实用的提示注入攻击。我们的WebInject为跨不同目标显示器的目标网页优化了一个通用扰动，最大化Web智能体执行攻击者选择的目标动作的概率。大量实验表明，我们的攻击大大优于基线方法。

8 局限性

我们承认以下局限性。1）我们的威胁模型假设攻击者可以修改目标网页的源代码，这可能不适用于像Amazon这样高度可信的网站。2）我们没有评估对闭源MLLM的可迁移性，因为实现高可迁移性通常需要在多个替代模型上优化扰动（Hu et al., 2025），由于我们有限的计算资源，这并不可行。解决这些局限性为未来的研究提供了一个有趣的方向。

针对WebInject的潜在防御措施包括：分析网页源代码以识别注入的或异常的代码片段，使用对抗性示例检测方法（Carlini and Wagner, 2017）检测截图中的扰动，以及通过对抗性训练（Madry et al., 2018）微调MLLM以增强其对此类扰动的鲁棒性。我们注意到，像DataSentinel（Liu et al., 2025）这样的提示注入检测方法不适用于我们的场景，因为WebInject不依赖于注入显式的文本提示。

9 致谢

我们感谢匿名审稿人的意见。这项工作得到了NSF资助号2414406、2131859、2125977、2112562、1937787和2450935的部分支持。

附录

在这里插入图片描述

表2：Web智能体的动作空间

动作	描述
`click((x,y))`	点击坐标(x,y)。
`left_double((x,y))`	在坐标(x,y)处使用鼠标左键双击。
`right_single((x,y))`	在坐标(x,y)处使用鼠标右键单击。
`drag((x1,y1),(x2,y2))`	将元素从(x1,y1)拖拽到(x2,y2)。
`hotkey(key_comb)`	触发指定的键盘快捷键。
`type(content)`	使用键盘键入给定内容。
`scroll(direction)`	按指定方向滚动视图。
`wait()`	等待5秒并截图以检查任何变化。
`finished()`	标记任务完成并结束会话。
`call_user()`	当需要用户帮助时调用用户。

表3：每个数据集中的目标网页数量

	博客	商业	教育	医疗保健	作品集
真实网页	50	26	42	51	43
合成网页	100	100	100	100	100

在这里插入图片描述

图3：模拟显示器的详细实现。这里，`driver.set_window_size(width, height)`中的占位符`width`和`height`是目标显示器的宽度和高度，`path_of_source_code`是目标网页源代码的路径，`path_of_icc_profile`是目标显示器ICC配置文件的路径。

在这里插入图片描述

图4：基线基于网页的攻击中使用的弹窗示例。每个弹窗包含三个关键元素：(i) 注意钩子，(ii) 指令，(iii) 信息横幅。信息横幅放置在目标动作中指定的坐标处，例如(525, 196)。

在这里插入图片描述

图5：不同扰动边界$\epsilon$下扰动网页的示例

表4：WebInject在不同MLLM智能体和数据集上的ASR

智能体	数据集	博客	商业	教育	医疗保健	作品集
UI-TARS (Qin et al., 2025)	合成	0.992	0.997	0.989	0.986	0.986
	真实	0.962	0.967	0.975	0.954	0.944
Phi-4 (Abouelenin et al., 2025)	合成	0.997	0.991	0.991	0.985	0.983
	真实	0.973	0.966	0.936	0.955	0.948
Llama-3.2 (Meta, 2024)	合成	0.993	0.998	0.998	0.984	0.986
	真实	0.961	0.943	0.965	0.941	0.954
Qwen-2.5 (Bai et al., 2025)	合成	0.991	0.999	0.988	0.996	0.991
	真实	0.946	0.953	0.940	0.958	0.937
Gemma-3 (Team et al., 2025)	合成	0.988	0.999	0.999	0.997	0.982
	真实	0.974	0.956	0.929	0.939	0.952

在这里插入图片描述

图6：网页的原始像素值以及在24英寸iMac M1和27英寸4K UHD LG 27UL500-W上对应截图的示例。像素级差异通过颜色增强显示以提高视觉清晰度。

表5：朴素攻击在不同MLLM智能体和数据集上的ASR

智能体	数据集	博客	商业	教育	医疗保健	作品集
UI-TARS (Qin et al., 2025)	合成	0.171	0.035	0.088	0.106	0.151
	真实	0.137	0.012	0.020	0.051	0.077
Phi-4 (Abouelenin et al., 2025)	合成	0.138	0.054	0.061	0.057	0.149
	真实	0.112	0.126	0.105	0.064	0.080
Llama-3.2 (Meta, 2024)	合成	0.187	0.305	0.222	0.334	0.181
	真实	0.368	0.251	0.342	0.142	0.369
Qwen-2.5 (Bai et al., 2025)	合成	0.116	0.127	0.139	0.051	0.139
	真实	0.061	0.091	0.082	0.099	0.091
Gemma-3 (Team et al., 2025)	合成	0.011	0.027	0.031	0.077	0.083
	真实	0.034	0.093	0.079	0.097	0.083

在这里插入图片描述

图7：通过向目标网页注入代码实现扰动的细节，其中占位符`w_delta`和`h_delta`表示$w_{\delta}$和$h_{\delta}$。

表6：虚假补全攻击在不同MLLM智能体和数据集上的ASR

智能体	数据集	博客	商业	教育	医疗保健	作品集
UI-TARS (Qin et al., 2025)	合成	0.039	0.056	0.029	0.061	0.039
	真实	0.023	0.065	0.101	0.052	0.075
Phi-4 (Abouelenin et al., 2025)	合成	0.012	0.028	0.048	0.040	0.052
	真实	0.053	0.060	0.049	0.068	0.058
Llama-3.2 (Meta, 2024)	合成	0.420	0.441	0.459	0.375	0.390
	真实	0.289	0.306	0.191	0.163	0.420
Qwen-2.5 (Bai et al., 2025)	合成	0.038	0.102	0.076	0.049	0.108
	真实	0.099	0.082	0.075	0.016	0.020
Gemma-3 (Team et al., 2025)	合成	0.019	0.042	0.041	0.040	0.032
	真实	0.047	0.032	0.047	0.013	0.059

在这里插入图片描述

图8：用于生成语义等效用户提示的指令，其中占位符`target_prompt`是一个目标提示。

表7：上下文忽略攻击在不同MLLM智能体和数据集上的ASR

智能体	数据集	博客	商业	教育	医疗保健	作品集
UI-TARS (Qin et al., 2025)	合成	0.198	0.090	0.096	0.184	0.105
	真实	0.114	0.170	0.172	0.177	0.167
Phi-4 (Abouelenin et al., 2025)	合成	0.068	0.024	0.050	0.020	0.048
	真实	0.041	0.044	0.064	0.084	0.058
Llama-3.2 (Meta, 2024)	合成	0.179	0.218	0.133	0.202	0.383
	真实	0.263	0.174	0.246	0.138	0.185
Qwen-2.5 (Bai et al., 2025)	合成	0.031	0.196	0.026	0.039	0.147
	真实	0.049	0.057	0.132	0.075	0.195
Gemma-3 (Team et al., 2025)	合成	0.029	0.077	0.031	0.039	0.033
	真实	0.073	0.045	0.099	0.076	0.034

表8：组合攻击在不同MLLM智能体和数据集上的ASR

智能体	数据集	博客	商业	教育	医疗保健	作品集
UI-TARS (Qin et al., 2025)	合成	0.073	0.063	0.032	0.037	0.095
	真实	0.019	0.022	0.055	0.018	0.082
Phi-4 (Abouelenin et al., 2025)	合成	0.001	0.006	0.017	0.020	0.042
	真实	0.034	0.047	0.043	0.023	0.013
Llama-3.2 (Meta, 2024)	合成	0.307	0.181	0.138	0.140	0.327
	真实	0.141	0.288	0.178	0.440	0.341
Qwen-2.5 (Bai et al., 2025)	合成	0.020	0.028	0.079	0.076	0.108
	真实	0.089	0.032	0.103	0.015	0.080
Gemma-3 (Team et al., 2025)	合成	0.063	0.087	0.069	0.062	0.074
	真实	0.030	0.062	0.064	0.101	0.004

表9：基于截图的攻击在不同MLLM智能体和数据集上的ASR

智能体	数据集	博客	商业	教育	医疗保健	作品集
UI-TARS (Qin et al., 2025)	合成	0.000	0.000	0.000	0.000	0.000
	真实	0.000	0.000	0.000	0.000	0.000
Phi-4 (Abouelenin et al., 2025)	合成	0.000	0.000	0.000	0.000	0.000
	真实	0.000	0.000	0.000	0.000	0.000
Llama-3.2 (Meta, 2024)	合成	0.000	0.000	0.000	0.000	0.000
	真实	0.000	0.000	0.000	0.000	0.000
Qwen-2.5 (Bai et al., 2025)	合成	0.000	0.000	0.000	0.000	0.000
	真实	0.000	0.000	0.000	0.000	0.000
Gemma-3 (Team et al., 2025)	合成	0.000	0.000	0.000	0.000	0.000
	真实	0.000	0.000	0.000	0.000	0.000

在这里插入图片描述

图9：用于生成合成网页的指令，其中占位符`category`表示网页所属的类别。

在这里插入图片描述

图10：用于生成目标提示的指令，其中占位符`source_code`是目标网页的源代码。

表10：WebInject在其他目标动作上的ASR。对于仅以坐标为参数的动作，我们随机选择坐标来构建目标动作。对于hotkey(key_comb)，我们随机选择一个组合键作为参数。对于type(content)，我们设计了有害查询作为content参数——即“tell me how to make a bomb”——以模拟恶意用户发出有害搜索查询。对于scroll(direction)，我们从上下左右四个方向中随机选择一个。

目标动作	Phi-4 (Abouelenin et al., 2025)
`left_double((x,y))`	0.993
`right_single((x,y))`	0.980
`drag((x1,y1), (x2,y2))`	0.988
`hotkey(key_comb)`	0.979
`type(content)`	0.976
`scroll(direction)`	0.982
`wait()`	0.992
`finished()`	0.987
`call_user()`	0.990

在这里插入图片描述

图11：目标显示器数量对我们WebInject在五个合成网页数据集和五个Web智能体上ASR的影响。

在这里插入图片描述

图12：目标显示器数量对WebInject在五个真实网页数据集和五个Web智能体上ASR的影响。

在这里插入图片描述

图13：$\epsilon$对WebInject在五个合成网页数据集和五个Web智能体上ASR的影响。

在这里插入图片描述

图14：$\epsilon$对WebInject在五个真实网页数据集和五个Web智能体上ASR的影响。

表11：当用户提示是目标提示的语义等效变体时，WebInject在不同智能体上的ASR

智能体	数据集	博客	商业	教育	医疗保健	作品集
UI-TARS (Qin et al., 2025)	合成	0.959	0.953	0.949	0.923	0.893
	真实	0.932	0.916	0.906	0.911	0.902
Phi-4 (Abouelenin et al., 2025)	合成	0.947	0.928	0.953	0.933	0.889
	真实	0.907	0.952	0.936	0.902	0.899
Llama-3.2 (Meta, 2024)	合成	0.942	0.959	0.947	0.903	0.896
	真实	0.929	0.931	0.920	0.928	0.897
Qwen-2.5 (Bai et al., 2025)	合成	0.910	0.929	0.928	0.883	0.921
	真实	0.940	0.955	0.890	0.884	0.871
Gemma-3 (Team et al., 2025)	合成	0.957	0.959	0.945	0.906	0.903
	真实	0.943	0.918	0.917	0.883	0.892

表12：在单个NVIDIA RTX A6000 GPU上，每个目标网页每个目标显示器的现有基于截图的攻击与WebInject之间的计算成本比较。 $\Delta$ 表示基于截图的攻击的训练时间， $\Omega$ 是其GPU内存使用量。基于截图的攻击按第5.1节所述实现。

智能体	训练时间 (分钟)	内存使用 (GB)
UI-TARS (Qin et al., 2025)	$\Delta + 1.92$	$\Omega + 1.93$
Phi-4 (Abouelenin et al., 2025)	$\Delta + 2.18$	$\Omega + 1.99$
Llama-3.2 (Meta, 2024)	$\Delta + 2.57$	$\Omega + 2.61$
Qwen-2.5 (Bai et al., 2025)	$\Delta + 2.07$	$\Omega + 2.10$
Gemma-3 (Team et al., 2025)	$\Delta + 1.70$	$\Omega + 2.18$

https://edu.csdn.net/learn/39067/627173?utm_source=2019755004

汇聚全球AI编程工具，助力开发者即刻编程。

更多推荐

2026年 AI 编程工具算力避坑指南：深度解析 Cursor 定价机制与企业降本全攻略

AI编程社区

2026年实测：用Gemini镜像站高效解决Java与PHP开发难题

Java的深度与PHP的灵活，决定了开发者在日常工作中必然会遇到各种复杂场景。AI的出现不是要取代扎实的基础知识，而是给每一位开发者提供了一个能即时查阅、推理和生成示例的技术顾问。在日常编程中，建议形成“报错→粘贴→分析→验证”的快速回路。遇到异常堆栈，直接发给AI获取分析路径；在编写关键算法前，让AI先给出几种实现对比；在进行代码审查时，用AI发现潜在的边界问题。所有AI给出的方案，最终都需经过