CogVLM 与 CogAgent:清华与智谱 AI 联合推出专注于 GUI 的多模态视觉大模型

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. CogVLM 和 CogAgent 是由清华大学与智谱 AI 联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。
  2. CogAgent 在多个图像理解基准测试中取得了领先成绩,在 GUI 操作数据集上显著超越了现有的模型。
  3. 模型支持高达 1120×1120 像素的高分辨率图像输入,具备视觉问答、视觉定位和 GUI Agent 等多种能力。

正文(附运行示例)

CogVLM 是什么

CogVLM 是一个强大的开源视觉语言模型(VLM),专注于图形用户界面(GUI)的理解和导航。CogVLM-17B 拥有 100 亿的视觉参数和 70 亿的语言参数,支持 490*490 分辨率的图像理解和多轮对话。

CogAgent 是什么

CogAgent 是基于 CogVLM 改进的开源视觉语言模型,专注于 GUI 图像 Agent 的能力。CogAgent-18B 拥有 110 亿的视觉参数和 70 亿的语言参数,支持 1120*1120 分辨率的图像理解。

CogAgent 的主要功能

CogAgent 是 CogVLM 的改进版本,专注于 GUI 图像 Agent 的能力,具有以下主要功能:

  1. 高分辨率图像理解:支持 1120*1120 分辨率的图像输入,能够处理复杂的 GUI 界面。
  2. 视觉问答:能够针对 GUI 截图进行问答,解释网页、PPT、手机软件的功能,解说游戏界面等。
  3. 视觉定位:能够识别和解释小型 GUI 元素和文本,对于有效的 GUI 交互至关重要。
  4. GUI Agent 能力:能够在任何图形用户界面截图上,为任何给定任务返回一个计划,下一步行动,以及带有坐标的特定操作。
  5. 自动化 GUI 操作:能够模拟用户操作,如点击按钮、输入文本和选择菜单,提供自动化 GUI 操作的能力。
  6. 多模态能力:结合了视觉和语言模态,能在不依赖 API 调用的条件下,实现跨应用、跨网页的功能调用来执行任务。

如何运行 CogVLM 和 CogAgent

首先,我们需要安装依赖项。

bash 复制代码
# CUDA >= 11.8
pip install -r requirements.txt
python -m spacy download en_core_web_sm

所有的推理代码都位于 basic_demo/ 目录下。请在进行进一步操作之前,先切换到这个目录。

CLI (SAT version)

通过以下方式运行 CLI 演示:

bash 复制代码
# CogAgent
python cli_demo_sat.py --from_pretrained cogagent-chat --version chat --bf16  --stream_chat
python cli_demo_sat.py --from_pretrained cogagent-vqa --version chat_old --bf16  --stream_chat

# CogVLM
python cli_demo_sat.py --from_pretrained cogvlm-chat --version chat_old --bf16  --stream_chat
python cli_demo_sat.py --from_pretrained cogvlm-grounding-generalist --version base --bf16  --stream_chat

该程序将自动下载卫星模型并在命令行中进行交互。您可以通过输入指令并按回车来生成回复。输入clear 以清除对话历史,输入stop 以停止程序。

CLI (Huggingface version)

通过以下方式运行 CLI 演示:

bash 复制代码
# CogAgent
python cli_demo_hf.py --from_pretrained THUDM/cogagent-chat-hf --bf16
python cli_demo_hf.py --from_pretrained THUDM/cogagent-vqa-hf --bf16

# CogVLM
python cli_demo_hf.py --from_pretrained THUDM/cogvlm-chat-hf --bf16
python cli_demo_hf.py --from_pretrained THUDM/cogvlm-grounding-generalist --bf16

资源


❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关推荐
振鹏Dong1 小时前
依托 <AI 原生应用架构白皮书>,看 AI 原生应用的发展与实践
人工智能
智行众维2 小时前
自动驾驶的“虚拟驾校”如何炼成?
人工智能·自动驾驶·汽车·智能驾驶·智能网联汽车·智能驾驶仿真测试·智驾系统
空白到白2 小时前
NLP-注意力机制
人工智能·自然语言处理
大千AI助手4 小时前
指数分布:从理论到机器学习应用
人工智能·机器学习·参数估计·概率密度函数·mle·指数分布·累积分布函数
MATLAB代码顾问4 小时前
MATLAB绘制多种混沌系统
人工智能·算法·matlab
搬砖的小码农_Sky4 小时前
人形机器人:Tesla Optimus的AI集成细节
人工智能·ai·机器人
做运维的阿瑞4 小时前
2025 年度国产大模型「开源 vs. 闭源」深度评测与实战指南
人工智能·低代码·开源
渡我白衣4 小时前
深度学习入门(三)——优化算法与实战技巧
人工智能·深度学习
可触的未来,发芽的智生4 小时前
触摸未来2025.10.10:记忆的种子,当神经网络拥有了临时工作区,小名喜忆记系统
人工智能·python·神经网络·机器学习·架构
极客BIM工作室4 小时前
演化搜索与群集智能:五种经典算法探秘
人工智能·算法·机器学习