WebLlama：通过对话进行网页浏览的智能代理

文浩Marvin2024-05-01 20:34

WebLlama：智能网页浏览代理

WebLlama 是 McGill University 自然语言处理团队的研究项目，旨在开发能通过对话浏览网页的智能代理。这些代理基于 Llama-3 模型优化微调，基于 Llama-3-8B-Instruct 模型，专为网页导航和对话任务优化，可有效处理复杂的网页交互任务。

WebLlama 性能优于 GPT-4V，尤其在真实世界的网页浏览相关任务上。微调使用 WebLINX 数据集，包含超 10 万网页导航和对话实例，由专家注释人员收集验证。为训练模型，选取了 2.4 万精选子集，确保训练质量和代理实用性。

该模型已在 Hugging Face Model Hub 上发布，名称为 McGill-NLP/Llama-3-8B-Web。同时，训练和评估数据也可在 Huggingface Hub 上找到，数据集名称为 McGill-NLP/WebLINX。

主要功能

WebLlama 能处理连续对话，用户可通过多轮交流提供指令并获取反馈。代理可与现代网页自动化框架集成，在实际浏览器环境中执行动作，如点击、滚动、填写表单等。

WebLlama 具备以下功能：

自动网页浏览：根据用户指令自动浏览网页，执行搜索、导航和信息检索等任务。

交互对话：通过自然语言与用户交互，理解指令并提供反馈。

执行网页操作：点击链接、填写和提交表单等。

自动任务完成：按用户指令完成特定任务，如预订酒店、购物或查找信息。

WebLlama 为网页交互带来新方式，将为生活和工作提供更多便利。