WebLlama:通过对话进行网页浏览的智能代理

WebLlama:智能网页浏览代理

WebLlama 是 McGill University 自然语言处理团队的研究项目,旨在开发能通过对话浏览网页的智能代理。这些代理基于 Llama-3 模型优化微调,基于 Llama-3-8B-Instruct 模型,专为网页导航和对话任务优化,可有效处理复杂的网页交互任务。

WebLlama 性能优于 GPT-4V,尤其在真实世界的网页浏览相关任务上。微调使用 WebLINX 数据集,包含超 10 万网页导航和对话实例,由专家注释人员收集验证。为训练模型,选取了 2.4 万精选子集,确保训练质量和代理实用性。

该模型已在 Hugging Face Model Hub 上发布,名称为 McGill-NLP/Llama-3-8B-Web。同时,训练和评估数据也可在 Huggingface Hub 上找到,数据集名称为 McGill-NLP/WebLINX。

主要功能

WebLlama 能处理连续对话,用户可通过多轮交流提供指令并获取反馈。代理可与现代网页自动化框架集成,在实际浏览器环境中执行动作,如点击、滚动、填写表单等。

WebLlama 具备以下功能:

自动网页浏览:根据用户指令自动浏览网页,执行搜索、导航和信息检索等任务。

交互对话:通过自然语言与用户交互,理解指令并提供反馈。

执行网页操作:点击链接、填写和提交表单等。

自动任务完成:按用户指令完成特定任务,如预订酒店、购物或查找信息。

WebLlama 为网页交互带来新方式,将为生活和工作提供更多便利。

相关推荐
同学小张8 小时前
【端侧AI 与 C++】1. llama.cpp源码编译与本地运行
开发语言·c++·aigc·llama·agi·ai-native
倔强的石头_14 小时前
Rokid AI眼镜:连接现实与数字的桥梁,探索下一代智能应用开发
aigc
撸码猿14 小时前
《Python AI入门》第10章 拥抱AIGC——OpenAI API调用与Prompt工程实战
人工智能·python·aigc
桂花饼18 小时前
深度解析 Gemini 3 Pro Image (Nano Banana 2):Google 最强图像模型的核心能力与 API 对接指南
人工智能·aigc·ai绘图·nano banana 2·图像生成api·openai兼容接口·gemini 3 pro
张彦峰ZYF21 小时前
AI赋能原则1解读思考:超级能动性-AI巨变时代重建个人掌控力的关键能力
人工智能·ai·aigc·ai-native
极客BIM工作室1 天前
从静态到动态:Sora与文生图潜在扩散模型的技术同异与AIGC演进逻辑
人工智能·aigc
Mintopia1 天前
🎭 小众语言 AIGC:当 Web 端的低资源语言遇上“穷得只剩文化”的生成挑战
人工智能·aigc·全栈
高洁011 天前
具身智能-视觉语言导航(VLN)
深度学习·算法·aigc·transformer·知识图谱
EdisonZhou1 天前
MAF快速入门(3)聊天记录持久化到数据库
llm·aigc·agent·.net core
coder_pig2 天前
Antigravity 登录问题/数据泄露风险 (附:白嫖一个月 Gemini Enterprise 攻略)
aigc·visual studio code·gemini