WebAgent-基于大型语言模型的代理程序

大型语言模型(LLM)可以解决多种自然语言任务,例如算术、常识、逻辑推理、问答、文本生成、交互式决策任务。最近,LLM在自主网络导航方面也取得了巨大成功,代理程序助HTML理解和多步推理的能力,通过控制计算机或浏览互联网进行一系列计算机操作,以满足给定的自然语言指令。

然而,现实世界的网站上的网络导航仍然存在以下问题:

(1)缺乏预定义的操作空间。

(2)HTML观察比模拟器更长。

(3)LLM缺乏HTML领域知识。

考虑到现实世界网站的开放性和指令的复杂性,提前定义适当的操作空间是具有挑战性的。此外,尽管有几项研究认为通过指令微调或根据人类反馈进行强化学习可以改善对HTML的理解和网络导航的准确性,但最近的LLM并不总是具有处理HTML文档的最优设计。大多数LLM的上下文长度与现实网站上HTML的平均标记相比更短,并且没有采用特定的HTML领域知识。

针对上述问题,研究人员引入了WebAgent,这是一个由LLM驱动的代理程序,可以通过组合规范化的网络操作在现实网站上根据用户指令完成导航任务。WebAgent通过将指令分解为规范化的子指令来进行规划,将长HTML文档转化为与任务相关的片段,并通过生成的Python程序对网站进行操作。研究人员将两个LLM组合成WebAgent:Flan-U-PaLM用于基于代码的生成,以及新引入的HTML-T5(一种新型预训练LLM),用于规划和摘要本地长HTML文档。

通过实验证明,该方法可以提高在现实网站上的成功率50%以上,并且HTML-T5是目前解决基于HTML任务的最佳模型;在MiniWoB网络导航基准测试中,其成功率比之前最先进的方法高出14.9%,并且在离线任务规划评估上也具有更好的准确性。

相关推荐
刘一说2 分钟前
AI科技热点日报 | 2026年7月3日
人工智能·科技
程序喵大人3 分钟前
【AI专栏】图解Transformer - 第01章:建立直觉
人工智能·深度学习·ai·transformer
2601_962344623 分钟前
计算机毕业设计之基于大数据的投保数据的分析系统的设计与实现
大数据·人工智能·深度学习·机器学习·信息可视化·小程序·课程设计
手写码匠6 分钟前
手写 LLM 结构化输出引擎 —— 从 JSON Schema 约束到类型安全的数据提取
人工智能·深度学习·算法·aigc
QYR-分析8 分钟前
柔性传感新赛道崛起:织物压力传感器行业发展全景解析
大数据·人工智能
Token炼金师18 分钟前
架构的岔路:Decoder 一统江湖,MoE 另辟蹊径 —— 主流架构变体的工程权衡
人工智能·encoder-decoder·moe·decoder-only
2zcode30 分钟前
免费开源项目文档:基于HSV颜色空间和卷积神经网络的交通标志识别系统设计与实现
人工智能·深度学习·cnn
德昂信息dataondemand1 小时前
如何评估BI项目的价值与效益
大数据·人工智能
星马梦缘1 小时前
机器学习与模式识别 第八章 MAP与偏方差 模拟卷及答案
人工智能·机器学习·map·岭回归·mle·双重下降