GUI智能体如何应对环境变化_——首个GUI持续学习框架GUI-AiF详解

GUI智能体如何应对环境变化?------首个GUI持续学习框架GUI-AiF详解

在当今数字化时代,GUI智能体(Graphical User Interface Agents)能够通过自然语言指令在各类数字应用中执行操作,为用户提供极大便利。然而,现实世界的数字环境是不断变化的------新的操作系统版本发布、平台间切换、设备升级带来分辨率变化等。这些变化会导致在静态环境中训练的智能体性能显著下降。本文介绍的GUI-AiF框架是首个针对GUI智能体的持续学习框架,通过创新性的奖励机制使智能体能够在动态变化的GUI环境中保持稳定性能,为解决这一关键问题提供了突破性方案。

论文标题 :Continual GUI Agents
来源 :arXiv:2601.20732v2 [cs.LG] 29 Jan 2026 + https://arxiv.org/abs/2601.20732

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「 AI极客熊」即刻免费解锁

文章核心

研究背景:

随着深度学习技术的发展,GUI智能体在自动化数字交互方面取得了显著进展。这类智能体的核心能力是grounding,即将自然语言指令映射到GUI界面上的精确像素坐标。目前主流的训练方法包括监督微调(Supervised Fine-Tuning, SFT)和强化微调(Reinforcement Fine-Tuning, RFT),它们通常在固定的数据集上进行训练,涵盖多种用户界面应用和交互类型。然而,现实世界的数字环境是动态变化的------操作系统更新、平台间迁移(如从移动端到Web端)、设备升级带来分辨率变化(如从1080p到4K)等。这些变化会导致UI交互点的位置和元素尺度发生显著变化,使得在静态环境中训练的智能体难以保持稳定的grounding能力。如Figure 1所示,Continual GUI Agents需要在两种动态场景下工作:域迁移(如从移动OS到Web OS)和分辨率变化(如从1080p扩展到4K)。

研究问题:

动态环境适应性问题:现有方法在GUI分布随时间变化时,难以保持稳定的grounding能力,因为动态场景中UI交互点和区域的多样性导致了性能下降。
过度适应静态任务:现有的奖励策略倾向于过度适应静态的grounding线索(如固定坐标或元素尺度),导致智能体在面对新的GUI环境时泛化能力不足。
缺乏持续学习框架:目前尚无针对GUI智能体的持续学习框架,无法有效处理域迁移和分辨率变化等动态场景。

主要贡献:

首次提出Continual GUI Agents任务:建立了GUI智能体持续学习的新任务设置,提出了两种新颖的持续学习场景------域迁移(Mobile→Desktop→Web)和分辨率变化(Normal→High Resolution),为GUI智能体的持续学习研究奠定了基础。
提出GUI-AiF框架:创新性地提出了GUI-Anchoring in Flux (GUI-AiF)框架,在RFT范式下优化grounding策略,通过两个新颖的奖励模块------APR-iF(锚定点奖励)和ARR-iF(锚定区域奖励)来缓解策略在单一任务上的过度适应,增强智能体在迁移UI任务中的持续能力。
实现SOTA性能:在ScreenSpot-V1、ScreenSpot-V2和ScreenSpot-Pro三个基准测试上取得了最先进性能,显著超越了现有基线方法,验证了GUI-AiF框架的有效性。

方法论精要

GUI-AiF框架在强化微调(RFT)范式下,通过设计新颖的奖励机制来优化grounding策略,使智能体在动态变化的GUI环境中保持稳定交互能力。框架包含问题建模、双重奖励机制和集成优化三个关键组件。如Figure 2所示,GUI-AiF在Continual GUI Agents流程中推进RFT范式,通过塑造grounding奖励来优化策略:APR-iF鼓励多样化交互点,ARR-iF细化元素区域,两者共同使智能体更好地适应变化的交互位置和元素尺度。

问题建模 :GUI groundings将自然语言指令与图形界面上的交互元素进行像素级对齐。给定界面 $s 和指令和指令和指令 i , 模型预测边界框 ,模型预测边界框 ,模型预测边界框 b_p = \[x_1\^p, y_1\^p, x_2\^p, y_2\^p\] 。持续 G U I 任务定义为域迁移任务序列。持续GUI任务定义为域迁移任务序列。持续GUI任务定义为域迁移任务序列 T_D 或分辨率变化任务序列或分辨率变化任务序列或分辨率变化任务序列 T_R , 其中 ,其中 ,其中 T_D = {t_{d1}, t_{d2}, ..., t_{dn}} , , , T_R = {t_{r1}, t_{r2}, ..., t_{rn}}$ ,要求智能体持续适应GUI任务的动态变化,防止过度适应单一任务。

标准RFT策略 :标准RFT通过比较预测与ground truth计算奖励分数 $r_i , 获得一组奖励分数 ,获得一组奖励分数 ,获得一组奖励分数 {r_1, r_2, ..., r_N}$ ,采用GRPO方法计算相对策略优势: $A_i = \\frac{r_i - \\text{Mean}({r_1, r_2, ..., r_N})}{\\text{Std}({r_1, r_2, ..., r_N})}$ 。这种策略专注于优化当前任务,倾向于在特定GUI布局的坐标和尺度上过度适应,无法有效处理动态环境。

Anchoring Point Reward in Flux (APR-iF) :APR-iF增强智能体泛化交互位置的能力,避免在单一任务的特定坐标上过度适应。对于 $N 个预测边界框个预测边界框个预测边界框 {b_{p1}, b_{p2}, ..., b_{pN}} , A P R − i F 计算其中心点 ,APR-iF计算其中心点 ,APR−iF计算其中心点 {c_{p1}, c_{p2}, ..., c_{pN}} , 其中每个中心点 ,其中每个中心点 ,其中每个中心点 c_{pi} = \\left(\\frac{x_{1,i}\^p + x_{2,i}\^p}{2}, \\frac{y_{1,i}\^p + y_{2,i}\^p}{2}\\right) , 然后计算质心 ,然后计算质心 ,然后计算质心 \\bar{c}*p = \\frac{1}{N}\\sum* {j=1}\^N c_{pj} , 空间方差 ,空间方差 ,空间方差 R_p = \\frac{1}{N}\\sum_{i=1}\^N \|c_{pi} - \\bar{c}_p\|\^2$ 。较高的方差表明中心点分布更广,有助于智能体适应不同的交互位置。

Anchoring Region Reward in Flux (ARR-iF) :ARR-iF通过奖励预测边界框之间的空间分离来适应变化的元素尺度。每个预测边界框被建模为高斯分布 $N_i(\\mu_i, \\Sigma_i) , 通过 B h a t t a c h a r y y a 距离 ,通过Bhattacharyya距离 ,通过Bhattacharyya距离 D_B$ 量化两个预测区域之间的分离: $D_B(N_i, N_j) = \\frac{1}{8}(\\mu_i - \\mu_j)\^T \\Sigma_{avg}\^{-1}(\\mu_i - \\mu_j) + \\frac{1}{2}\\ln\\frac{\\det(\\Sigma_{avg})}{\\sqrt{\\det(\\Sigma_i)\\det(\\Sigma_j)}} , 其中 ,其中 ,其中 \\Sigma_{avg} = \\frac{\\Sigma_i + \\Sigma_j}{2} 。总区域分离。总区域分离。总区域分离 R_r = \\frac{2}{N(N-1)}\\sum_{i=1}^N\\sum_{j=i+1}^N D_B(N_i, N_j)$ 定义为所有预测对的平均DB距离,激励智能体生成空间上不同的预测区域。

集成奖励和优化 :APR-iF和ARR-iF集成为 $R_{AiF} = \\alpha \\cdot R_p + \\gamma \\cdot R_r , 其中 ,其中 ,其中 \\alpha 和和和 \\gamma 控制探索强度。目标函数为控制探索强度。目标函数为控制探索强度。目标函数为 J(\\theta) = \\mathbb{E}*{\\tau \\sim \\pi* \\theta}\[r_t(\\theta)(A_t + R_{AiF}) - \\beta \\cdot D_{KL}\[\\pi_{ref}(\\cdot\|s_t)\|\|\\pi_\\theta(\\cdot\|s_t)\]\] , 其中 ,其中 ,其中 r_t(\\theta) = \\frac{\\pi_\\theta(a_t\|s_t)}{\\pi_{ref}(a_t\|s_t)} 是当前和参考策略的概率比 , 是当前和参考策略的概率比, 是当前和参考策略的概率比, \\beta 是控制 K L 散度项强度的超参数。 K L 散度项通过测量当前策略是控制KL散度项强度的超参数。KL散度项通过测量当前策略是控制KL散度项强度的超参数。KL散度项通过测量当前策略 \\pi_\\theta 与参考策略与参考策略与参考策略 \\pi_{ref} 之间的分歧来正则化策略更新 , 之间的分歧来正则化策略更新, 之间的分歧来正则化策略更新, R_{AiF}$ 作为平衡,鼓励探索多样化的交互点和元素区域,为未来环境波动保留持续学习能力。

实验洞察

研究者在三个主流基准测试上评估GUI-AiF:ScreenSpot-V1(SSv1)、ScreenSpot-V2(SSv2)涵盖移动端、桌面端和Web任务的持续域评估,ScreenSpot-Pro(SSPro)包含6个高分辨率软件界面用于评估持续分辨率性能。Table 1对比了典型GUI Agent和Continual GUI Agent的区别,展示了两种持续学习场景的定义。

持续域迁移性能 :如Table 2所示,在SSv1和SSv2上,GUI-AiF在域迁移场景下表现出色。专有模型(如GPT-4o)在GUI任务中表现挣扎,SFT方法(SeeClick和GUI-Actor)性能普遍较差,验证了其在单一GUI任务中的过度适应倾向。RFT基线方法(如SE-GUI和GUI-G2)显示出一定适应能力,但GUI-AiF进一步提升了持续性能,增强了智能体面对域迁移时的适应能力。每个任务训练后单域性能增加,表明GUI-AiF能够从已学习任务中累积知识。

持续分辨率迁移性能 :如Table 3所示,在SSPro上,当面对正常到高分辨率迁移时,SFT和RFT基线方法获得完全相同的最终平均准确率,表明现有范式无法固有地处理分辨率变化。GUI-AiF通过促进在元素尺度和位置方面的泛化,增强了智能体应对这一挑战的性能。

奖励模块消融实验 :如Table 4所示,完整GUI-AiF奖励实现最佳性能,显著超越单独的APR-iF或ARR-iF。APR-iF在SSv1和SSv2上的最终平均准确率优于ARR-iF,表明APR-iF奖励对性能有更显著积极影响。实验表明,学习适应新的交互位置是Continual GUI Agents中比适应元素尺度更关键的因素。

超参数敏感性分析:如Figure 3所示,与APR-iF相关的α在持续GUI域场景中对性能有更大影响,因为域波动更多地体现在对GUI交互点的影响上。在持续GUI分辨率下,γ的变化表达更明显的影响,这是由于更高分辨率导致GUI元素尺度的多样性。

KL散度正则化作用:如Table 5所示,移除KL项会降低GUI智能体的持续学习性能,表明仅追求多样化解决方案是不够的。KL项提供了稳定基础,确保GUI-AiF是grounded的,帮助智能体适应动态GUI任务。

前向迁移评估 :如Figure 4所示,GUI-AiF增强了智能体的前向迁移能力,使其能够利用从先前任务中学到的知识泛化到后续任务。在移动平台训练后,GUI-AiF在后续桌面和Web平台上的性能超过相应基线,类似改进也出现在分辨率迁移场景中。

奖励对比分析:如Figure 5所示,APR-iF在每个任务内的波动比ARR-iF更显著,表明交互点的探索起更关键作用。GUI-AiF的奖励值与RFT的奖励值之间存在反比关系,旨在促进泛化的奖励和专注于优化当前任务性能的奖励相互冲突。

可视化对比:如Figure 6所示,Web界面指令"Follow this player"的热力图显示,SFT基线未能定位正确交互区域,而GUI-AiF通过持续学习能够根据指令准确定位区域,展示了精炼grounding的能力。

文本与图标交互偏差:如Figure 7所示,实验结果显示GUI智能体在基于文本的交互上存在偏差,基于文本的任务性能始终高于基于图标的任务。这是由于智能体视觉分支默认为强大的OCR能力进行文本理解,而图标在语义上模糊且缺乏直接的文本grounding。