多模态视觉大模型:清华开源CogAgent,重塑GUI Agent领域

引言

人工智能技术正以前所未有的速度发展,多模态学习作为AI领域的一个重要分支,正在不断突破技术限制。清华大学最新开源的CogAgent模型,在多模态AI研究中展现了独特的视觉GUI Agent功能和高分辨率处理能力,代表了AI领域的一大进步。

多模态AI的新突破:视觉GUI Agent

CogAgent模型的独特之处在于其视觉GUI Agent的能力,它使用视觉模态而非传统的文本模态对GUI界面进行感知。这种方法更符合人类的直觉交互方式,即通过视觉感知并做出决策。传统的基于语言的Agent,如LLM,受限于其输入形式,无法直接处理非文本信息。CogAgent的视觉GUI Agent则突破了这一限制,能够直接解析和响应GUI环境。多模态大模型CogAgent,可以实现基于视觉的GUI Agent。下图展现了其工作路径与能力。

CogAgent模型同时接受当前GUI截图(图像形式)和用户操作目标(文本形式,例如"search for the best paper in CVPR 2023")作为输入,就能预测详细的动作,和对应操作元素的位置坐标。

模型结构的创新

在模型结构上,CogAgent采用了独特的"高分辨率交叉注意力模块",这是一个轻量级的模块,结合了高分辨率小图像编码器和原有的VLM(视觉语言模型)。通过这种设计,CogAgent能够在保持较低计算成本的同时,有效处理高分辨率图像。

高分辨率图像处理能力

CogAgent在视觉处理方面也实现了显著的提升。模型能够处理高达1120×1120的图像,这在以往的多模态模型中是非常罕见的。这种高分辨率的图像处理能力,使得CogAgent能够更精准地解析复杂的GUI界面,为更高效的交互决策提供支持。

实验与应用成果

在多项实验中,CogAgent展示了其优越的性能。在9个经典图像理解榜单上,CogAgent均取得了领先成绩。此外,在电脑和手机GUI Agent的应用场景中,CogAgent的表现也远超传统的基于LLM的Agent。

  • 在网页Agent数据集Mind2Web上的性能
  • 在手机Agent数据集AITW上的性能
  • 在多模态大模型通用榜单MM-VET,POPE上的结果
  • 展示一个《原神》场景的实例

开源与社区贡献

为了促进多模态AI的发展,清华大学将CogAgent-18B模型开源,并提供了网页版Demo。这一举措无疑将加速多模态AI技术的发展,推动其在更广泛领域的应用。

结论

CogAgent的推出,不仅在技术上实现了重大突破,更为多模态AI的研究和应用提供了新的方向。清华大学在多模态AI领域的这一贡献,将会为未来的AI研究和应用带来深远的影响。

模型下载

Huggingface模型下载

huggingface.co/THUDM/cogag...

AI快站模型免费加速下载

aifasthub.com/models/THUD...

相关推荐
一叶知秋秋5 分钟前
python学习day39
人工智能·深度学习·学习
Ai多利9 分钟前
深度学习登上Nature子刊!特征选择创新思路
人工智能·算法·计算机视觉·多模态·特征选择
几道之旅10 分钟前
MCP(Model Context Protocol)与提示词撰写
人工智能
Spider_Man18 分钟前
“AI查用户”也能这么简单?手把手带你用Node.js+前端玩转DeepSeek!
javascript·人工智能·node.js
T.D.C33 分钟前
【OpenCV】使用opencv找哈士奇的脸
人工智能·opencv·计算机视觉
大霸王龙1 小时前
软件工程的软件生命周期通常分为以下主要阶段
大数据·人工智能·旅游
yvestine1 小时前
自然语言处理——文本表示
人工智能·python·算法·自然语言处理·文本表示
zzc9211 小时前
MATLAB仿真生成无线通信网络拓扑推理数据集
开发语言·网络·数据库·人工智能·python·深度学习·matlab
点赋科技1 小时前
沙市区举办资本市场赋能培训会 点赋科技分享智能消费新实践
大数据·人工智能
HeteroCat2 小时前
一周年工作总结:做了一年的AI工作我都干了什么?
人工智能