AI智能操盘-你的纯视觉界面解析神器:OMNIPARSER 自动操作电脑,助你轻松搞定全自动化任务

图形用户界面(GUI)自动化需要一个能看懂屏幕、会动手(鼠标、键盘都不在话下)的聪明代理。但用一般的 大模型 LLM 来充当这个代理,往往会遇到两个大难题:

  1. 如何稳稳找出可点击的图标?
  2. 如何理解截图上各种元素的语义,并精准地把你想做的操作和屏幕上对应的区域对上号?

OmniTool 就像是一个超级智能的魔法师🧙,它能通过 OmniParser 加上你选择的视觉模型,轻松控制 Windows 11 虚拟机。它可以把复杂的操作变得简单易懂,就像把一堆乱麻整理成整齐的线团一样轻松😉。

OmniTool核心三个组件

接下来,就让我们一起深入了解这个神奇的工具,再看看它在实际场景中是如何大显身手的!

实际案例大揭秘

案例:游戏测试的得力助手

小王是一名游戏测试员,负责在 Windows 11 虚拟机上对新开发的游戏进行各种测试。在没有使用 OmniTool 之前,他需要手动在虚拟机中进行各种操作,如启动游戏、模拟玩家的各种动作等,这不仅耗费大量的时间和精力,还容易出现操作失误。

使用 OmniTool 后,小王的工作变得轻松多了。

有一次,他要对一款大型角色扮演游戏进行兼容性测试。他在 Gradio 界面输入 "启动游戏,选择角色,进入新手村" 等指令,OmniTool 迅速在虚拟机中完成了相应的操作。在测试过程中,他还可以根据需要随时调整指令,如 "模拟玩家跑步、跳跃、攻击" 等。通过 OmniTool 的快速响应和准确执行,小王能够高效地完成各种测试任务,及时发现游戏中的问题并反馈给开发团队。这大大缩短了游戏的测试周期,提高了游戏的质量。

Install

首先,克隆这个仓库,然后安装环境: 再好的宝刀,不试试永远是花架子,下面让我们从 0 开始体验一下

omniparserserver

shell 复制代码
git clone https://github.com/microsoft/OmniParser.git
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

确保你已经在 weights 文件夹中下载了 V2 权重(确保字幕权重文件夹名为 icon_caption_florence)。如果没有,请使用以下命令下载:

shell 复制代码
   # 下载模型检查点到本地目录 OmniParser/weights/
   for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
   mv weights/icon_caption weights/icon_caption_florence

omnibox

  • 确保剩余有 30GB 的空间(5GB 用于 ISO,400MB 用于 Docker 容器,20GB 用于存储文件夹)
  • 安装 Docker Desktop
  • 访问 Microsoft 评估中心,接受服务条款,并下载 Windows 11 Enterprise 评估版(90 天试用,英文,美国)ISO 文件 [约 6GB]。将文件重命名并复制到目录 OmniParser/omnitool/omnibox/vm/win11iso
  • 使用 cd OmniParser/omnitool/omnibox/scripts 导航到 vm 管理脚本目录
  • 构建 docker 容器 [400MB] 并将 ISO 安装到存储文件夹 [20GB] 中,使用 ./manage_vm.sh create 。过程将在屏幕截图中显示,时间取决于下载速度,通常需要 20-90 分钟(大约 60 分钟)。完成后终端将显示 VM + server is up and running! 。通过 NoVNC 观察器(http://localhost:8006/vnc.html?view_only=1&autoconnect=1&resize=scale)可以看到 VM 中正在安装的应用程序。设置完成后,NoVNC 观察器中的终端窗口不会在桌面上打开。如果能看到它,请等待并不要随意点击!

gradio

  • 使用 cd OmniParser/omnitool/gradio 导航到 gradio 目录
  • 确保已激活 conda python 环境 conda activate omni
  • 使用 python app.py --windows_host_url localhost:8006 --omniparser_server_url localhost:8000 启动服务器
  • 在终端输出中打开 URL,设置您的 API 密钥,开始与 AI 代理互动!

怎么样,OmniTool 的这些实际案例是不是让你心动不已?它就像一个万能的小助手,能在各种场景中发挥巨大的作用。如果你也想体验这种便捷高效的操作,那就赶紧按照下面的步骤安装和使用 OmniTool 吧!相信它会给你带来意想不到的惊喜😎!后续,我们还会不断更新更多的使用案例和技巧,记得持续关注哦!

现在,就一起开启 OmniTool 的神奇之旅吧

引用资料

相关推荐
东方芷兰43 分钟前
算法笔记 04 —— 算法初步(下)
c++·笔记·算法
JNU freshman1 小时前
图论 之 迪斯科特拉算法求解最短路径
算法·图论
青松@FasterAI1 小时前
【NLP算法面经】本科双非,头条+腾讯 NLP 详细面经(★附面题整理★)
人工智能·算法·自然语言处理
旅僧1 小时前
代码随想录-- 第一天图论 --- 岛屿的数量
算法·深度优先·图论
Emplace2 小时前
ABC381E题解
c++·算法
若兰幽竹2 小时前
【机器学习】衡量线性回归算法最好的指标:R Squared
算法·机器学习·线性回归
居然有人6543 小时前
23贪心算法
数据结构·算法·贪心算法
SylviaW084 小时前
python-leetcode 37.翻转二叉树
算法·leetcode·职场和发展
h^hh4 小时前
洛谷 P3405 [USACO16DEC] Cities and States S(详解)c++
开发语言·数据结构·c++·算法·哈希算法
玦尘、4 小时前
位运算实用技巧与LeetCode实战
算法·leetcode·位操作