gui agent

Mininglamp_27183 天前
人工智能·自动化·rpa·ai agent·gui agent
AI Agent 视觉驱动 vs RPA 规则驱动:两种自动化范式的技术差异桌面自动化正在经历一次底层架构级的范式转移。RPA(Robotic Process Automation)凭借"录制-回放"的低门槛范式统治了企业流程自动化十余年。但当应用界面日趋动态化、跨平台需求激增时,基于 DOM 树和元素选择器的技术路线正在系统性地触碰天花板。GUI Agent(图形界面智能体)作为全新自动化范式应运而生——不依赖预定义元素路径,而是通过视觉理解直接"看懂"屏幕,像人类一样操作任意应用。
Mininglamp_271810 天前
人工智能·架构·开源·agent·mac·apple silicon·gui agent
开源端侧 AI Agent 全栈架构解析:Mano-P 模型 + Cider 推理加速 + AFK 自动构建端侧 AI Agent 不只是"在本地跑个模型"那么简单。从视觉理解到高效推理,再到自动化应用交付,每一层都有独立的工程挑战。本文以明略科技开源的 Mano-P 全栈架构为例,拆解端侧 Agent 的三层技术栈设计。
谁怕平生太急5 个月前
ui·prompt·gui agent·mai-ui
MAI-UI的promptMAI-UI prompt.py1、主要看第三种Prompt —— MAI_MOBILE_SYS_PROMPT_ASK_USER_MCP,内容详细点
JadePeng1 年前
gui agent
智谱开源CogAgent的最新模型CogAgent-9B-20241220,全面领先所有开闭源GUI Agent模型在现代数字世界中,图形用户界面(GUI)是人机交互的核心。然而,尽管大型语言模型(LLM)如ChatGPT在处理文本任务上表现出色,但在理解和操作GUI方面仍面临挑战,因此最近一年来,在学界和大模型社区中,越来越多的研究者和开发者们开始关注VLM-based GUI Agent。2023年12月,智谱发布了CogAgent,第一个基于视觉语言模型(Visual Language Model, VLM)的开源 GUI agent 模型,而在最近,最新的CogAgent模型 CogAgent-9B-20241
我是有底线的