GPT-4V-Act :一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。

内容来源:@xiaohuggg

GPT-4V-Act :一个多模态AI助手,能够像人类一样模拟通过鼠标和键盘进行网页浏览。

它可以模拟人类浏览网页时的行为,如点击链接、填写表单、滚动页面等。

它通过视觉理解技术识别网页上的元素,就像人眼一样,能够"看到"按钮、文本框、图片等,并理解它们的功能和用途。

这个工具的目的是让AI能够自动完成一些需要人工操作的任务,从而提高工作效率,帮助人们更容易地使用各种网页界面。

工作原理:

GPT-4V-Act利用GPT-4V语言理解能力和视觉处理能力以及一套特定的自动标记工具(Set-of-Mark)的视觉定位能力,该工具为每个可交互的UI元素分配一个唯一的数字ID。

通过结合任务和截图作为输入,GPT-4V-Act可以推断出完成任务所需的后续动作。它能够检查UI截图并提供精确的像素坐标,以指导鼠标/键盘执行特定任务。

目前,这个演示还很基础,它利用网页抓取技术将ChatGPT Plus变形为一个非官方的GPT-4V API后端。尽管目前的测试有限,但该代理已经显示出了在Reddit上发布帖子、搜索产品和启动结账过程的能力。

主要特点:

1、视觉处理:能够处理视觉信息,但支持程度有限。

2、自动标记:使用JS DOM自动标记器为UI元素分配数字ID,支持COCO数据格式的导出。

3、鼠标和键盘操作:能够执行点击和输入字符操作。

4、特殊键码输入:目前还不支持输入特殊键码(如回车、页面上移、页面下移)。

5、其他功能:滚动、提示用户提供更多信息、记住与任务相关的信息等功能也尚未支持。

GitHub:httpshttps://github.com/ddupont808/GPT-4V-Act

视觉定位:https://https://som-gpt4v.github.io/

原帖:httpshttps://www.reddit.com/r/MachineLearning/comments/17cy0j7/d_p_web_browsing_uibased_ai_agent_gpt4vact/?rdt=50049ent_gpt4vact/

相关推荐
新缸中之脑1 分钟前
将CodeBERTa压缩到10KB以下
人工智能
Faker66363aaa3 分钟前
鲶鱼目标检测与识别:基于fovea_r50_fpn_gn-head-align模型的COCO数据集训练_1
人工智能·目标检测·计算机视觉
【赫兹威客】浩哥4 分钟前
交通违章识别数据集与YOLO系列模型训练成果
人工智能·深度学习·机器学习
B站计算机毕业设计超人5 分钟前
计算机毕业设计hadoop+spark+hive在线教育可视化 课程推荐系统 大数据毕业设计(源码+LW文档+PPT+讲解)
大数据·人工智能·hive·hadoop·scrapy·spark·课程设计
B站计算机毕业设计超人6 分钟前
计算机毕业设计PySpark+Hive+Django小红书评论情感分析 小红书笔记可视化 小红书舆情分析预测系统 大数据毕业设计(源码+LW+PPT+讲解)
大数据·人工智能·hive·爬虫·python·spark·课程设计
roamingcode9 分钟前
我是如何 Vibe Coding,将 AI CLI 工具从 Node.js 迁移到 Rust 并成功发布的
人工智能·rust·node.js·github·claude·github copilot
下午写HelloWorld12 分钟前
生成对抗网络GAN的简要理解
人工智能·神经网络·生成对抗网络
Lethehong15 分钟前
探索高效工作流的秘密:GLM-4.7 与 Dify 平台深度集成实践
大数据·人工智能·算法
Yeats_Liao16 分钟前
微调决策树:何时使用Prompt Engineering,何时选择Fine-tuning?
前端·人工智能·深度学习·算法·决策树·机器学习·prompt
传说故事17 分钟前
【论文自动阅读】GREAT MARCH 100:100项细节导向任务用于评估具身AI agent
人工智能·具身智能