【Github3k+⭐️】《CogAgent: A Visual Language Model for GUI Agents》译读笔记

CogAgent: A Visual Language Model for GUI Agents

摘要

人们通过图形用户界面(Graphical User Interfaces, GUIs)在数字设备上花费大量时间,例如,计算机或智能手机屏幕。ChatGPT 等大型语言模型(Large Language Models, LLMs) 可以帮助人们完成撰写电子邮件等任务,但难以理解 GUI 并与之交互,从而限制了它们提升自动化水平的潜力。本文介绍了CogAgent,这是一个180亿参数的视觉语言模型(Visual Language Model, VLM),专门用于 GUI 理解和导航。通过同时使用 low-resolution and high-resolution 的图像编码器,CogAgent支持分辨率为 1120 × 1120 1120\times1120 1120×1120 的输入,使其能够识别微小的页面元素和文本。作为一个通用的视觉语言模型,CogAgent在五个 text-rich 的基准测试和四个通用 VQA 基准测试上达到了先进的水平,包括VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet 和 POPE。CogAgent仅使用屏幕截图作为输入,在PC和 Android GUI 导航任务(Mind2Web和AITW)上,超越了使用提取HTML文本的基于LLM的方法,达到了先进水平。模型和代码开源于https://github.com/THUDM/CogVLM

1 引言

数字世界中的自主代理是许多现代人梦寐以求的理想助手。想象一下这个场景:您输入任务描述,然后放松并享用一杯咖啡,同时观看在线订票、进行 Web 搜索、管理文件和创建 PowerPoint 演示文稿等任务自动完成。

  最近,基于LLMs的agents的出现使我们离这个梦想更近了一步。例如,拥有150,000 星的开源项目 AutoGPT 33_AutoGPT 利用 ChatGPT 29_ChatGPT 将语言理解与Google搜索和本地文件操作等预定义操作集成在一起。研究人员也开始开发面向智能体(agent-oriented)的LLMs42_Agenttuning](https://arxiv.org/abs/2310.12823), [7_Fireact。然而,单纯基于语言的代理在实际场景中的潜力非常有限,因为大多数应用程序通过GUIs与人类交互,其特点如下:

  • 通常缺乏用于交互的标准API。
  • 图标、图像、图表和空间关系等重要信息难以用语言直接表达。
  • 即使在 text-rendered 的GUI(如网页)中,canvas和iframe等元素也无法通过HTML解析来掌握其功能。

  基于VLM的代理则有可能克服这些限制。

相关推荐
开维游戏引擎1 小时前
AI自动生成游戏时,deepseek和mimo对比
android·游戏·语言模型·游戏引擎·ai编程
文艺倾年8 小时前
【强化学习】强化学习基本概念,20W字总结(一)
人工智能·python·语言模型·自然语言处理·面试·职场和发展·大模型
MartinYeung58 小时前
[论文学习]大型语言模型中个人可识别资讯(PII)的机器遗忘技术:UnlearnPII 基准与 PERMU_tok 方法的深度分析
人工智能·学习·语言模型
生成论实验室8 小时前
认知芯片:让判断力在物理定律上运行——AI芯片的第三条路
人工智能·语言模型·机器人·自动驾驶·安全架构
黄狗操作员8 小时前
NCCL 2.29 官方文档参数解读
语言模型·云计算·运维开发·gpu算力
来自于狂人12 小时前
第5章 记忆管理——让Agent记住事情
人工智能·算法·语言模型·自然语言处理
皮皮蟹虾饺13 小时前
MiniMind:从零训练大语言模型全流程实战指南
人工智能·语言模型·自然语言处理
ai_coder_ai13 小时前
在自动化脚本中如何调用大语言模型?
运维·语言模型·自动化
皮皮蟹虾饺15 小时前
MiniMind 预训练详解:从零训练一个 64M 参数的语言模型
人工智能·语言模型·自然语言处理
带娃的IT创业者15 小时前
深度解析:当 MLX 遇上视觉语言模型,Mac 本地推理的新范式
人工智能·macos·语言模型·视觉语言模型·apple silicon·mlx·mac本地推理