AI智能操盘-你的纯视觉界面解析神器:OMNIPARSER 自动操作电脑,助你轻松搞定全自动化任务

图形用户界面(GUI)自动化需要一个能看懂屏幕、会动手(鼠标、键盘都不在话下)的聪明代理。但用一般的 大模型 LLM 来充当这个代理,往往会遇到两个大难题:

  1. 如何稳稳找出可点击的图标?
  2. 如何理解截图上各种元素的语义,并精准地把你想做的操作和屏幕上对应的区域对上号?

OmniTool 就像是一个超级智能的魔法师🧙,它能通过 OmniParser 加上你选择的视觉模型,轻松控制 Windows 11 虚拟机。它可以把复杂的操作变得简单易懂,就像把一堆乱麻整理成整齐的线团一样轻松😉。

OmniTool核心三个组件

接下来,就让我们一起深入了解这个神奇的工具,再看看它在实际场景中是如何大显身手的!

实际案例大揭秘

案例:游戏测试的得力助手

小王是一名游戏测试员,负责在 Windows 11 虚拟机上对新开发的游戏进行各种测试。在没有使用 OmniTool 之前,他需要手动在虚拟机中进行各种操作,如启动游戏、模拟玩家的各种动作等,这不仅耗费大量的时间和精力,还容易出现操作失误。

使用 OmniTool 后,小王的工作变得轻松多了。

有一次,他要对一款大型角色扮演游戏进行兼容性测试。他在 Gradio 界面输入 "启动游戏,选择角色,进入新手村" 等指令,OmniTool 迅速在虚拟机中完成了相应的操作。在测试过程中,他还可以根据需要随时调整指令,如 "模拟玩家跑步、跳跃、攻击" 等。通过 OmniTool 的快速响应和准确执行,小王能够高效地完成各种测试任务,及时发现游戏中的问题并反馈给开发团队。这大大缩短了游戏的测试周期,提高了游戏的质量。

Install

首先,克隆这个仓库,然后安装环境: 再好的宝刀,不试试永远是花架子,下面让我们从 0 开始体验一下

omniparserserver

shell 复制代码
git clone https://github.com/microsoft/OmniParser.git
cd OmniParser
conda create -n "omni" python==3.12
conda activate omni
pip install -r requirements.txt

确保你已经在 weights 文件夹中下载了 V2 权重(确保字幕权重文件夹名为 icon_caption_florence)。如果没有,请使用以下命令下载:

shell 复制代码
   # 下载模型检查点到本地目录 OmniParser/weights/
   for f in icon_detect/{train_args.yaml,model.pt,model.yaml} icon_caption/{config.json,generation_config.json,model.safetensors}; do huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights; done
   mv weights/icon_caption weights/icon_caption_florence

omnibox

  • 确保剩余有 30GB 的空间(5GB 用于 ISO,400MB 用于 Docker 容器,20GB 用于存储文件夹)
  • 安装 Docker Desktop
  • 访问 Microsoft 评估中心,接受服务条款,并下载 Windows 11 Enterprise 评估版(90 天试用,英文,美国)ISO 文件 [约 6GB]。将文件重命名并复制到目录 OmniParser/omnitool/omnibox/vm/win11iso
  • 使用 cd OmniParser/omnitool/omnibox/scripts 导航到 vm 管理脚本目录
  • 构建 docker 容器 [400MB] 并将 ISO 安装到存储文件夹 [20GB] 中,使用 ./manage_vm.sh create 。过程将在屏幕截图中显示,时间取决于下载速度,通常需要 20-90 分钟(大约 60 分钟)。完成后终端将显示 VM + server is up and running! 。通过 NoVNC 观察器(http://localhost:8006/vnc.html?view_only=1&autoconnect=1&resize=scale)可以看到 VM 中正在安装的应用程序。设置完成后,NoVNC 观察器中的终端窗口不会在桌面上打开。如果能看到它,请等待并不要随意点击!

gradio

  • 使用 cd OmniParser/omnitool/gradio 导航到 gradio 目录
  • 确保已激活 conda python 环境 conda activate omni
  • 使用 python app.py --windows_host_url localhost:8006 --omniparser_server_url localhost:8000 启动服务器
  • 在终端输出中打开 URL,设置您的 API 密钥,开始与 AI 代理互动!

怎么样,OmniTool 的这些实际案例是不是让你心动不已?它就像一个万能的小助手,能在各种场景中发挥巨大的作用。如果你也想体验这种便捷高效的操作,那就赶紧按照下面的步骤安装和使用 OmniTool 吧!相信它会给你带来意想不到的惊喜😎!后续,我们还会不断更新更多的使用案例和技巧,记得持续关注哦!

现在,就一起开启 OmniTool 的神奇之旅吧

引用资料

相关推荐
明月看潮生1 小时前
青少年编程与数学 02-016 Python数据结构与算法 01课题、算法
数据结构·python·算法·青少年编程·编程与数学
小鱼学习笔记1 小时前
4.1最大子数组和(贪心算法、动态规划)
算法·贪心算法·动态规划
Мартин.2 小时前
[CISSP] [6] 密码学和对称密钥算法
算法·密码学
勤劳的进取家2 小时前
贪心算法之Huffman编码
数据结构·人工智能·算法·数学建模·贪心算法·动态规划
石去皿2 小时前
力扣hot100 61-70记录
c++·算法·leetcode·深度优先
晓纪同学2 小时前
随性研究c++-智能指针
开发语言·c++·算法
程序员爱钓鱼3 小时前
Go 连接 Oracle 太麻烦?一文教你优雅搞定 GORM + Oracle 全流程!
后端·算法·go
Agile.Zhou3 小时前
使用 AutoGen Studio 打造你的私有团队
llm·deepseek
xuanjiong3 小时前
纯个人整理,蓝桥杯使用的算法模板day4(图论 最小生成树问题),手打个人理解注释,超全面,且均已验证成功(附带详细手写“模拟流程图”,全网首个
算法·蓝桥杯·图论
xidianjiapei0013 小时前
LLM架构解析:循环神经网络(RNN)(第三部分)—— 从基础原理到实践应用的深度探索
人工智能·rnn·深度学习·神经网络·机器学习·llm