需要把项目代码下载到本地:
克隆项目代码
git clone https://github.com/microsoft/OmniParser.git
cd OmniParser
克隆特别慢,只有50KB/s
创建并激活环境
conda create -n "omni" python==3.12
conda activate omni
安装依赖包
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
确保你在权重文件夹里下载了V2权重
# 段1:定义要下载的文件列表(替代bash的{}展开)
$files = @(
"icon_detect/train_args.yaml",
"icon_detect/model.pt",
"icon_detect/model.yaml",
"icon_caption/config.json",
"icon_caption/generation_config.json",
"icon_caption/model.safetensors"
)
# 段2:循环下载文件(替代bash的for循环)
foreach ($f in $files) {
huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights
}
# 段3:重命名文件夹(替代bash的mv,-Force强制覆盖)
Move-Item -Path "weights/icon_caption" -Destination "weights/icon_caption_florence" -Force
然后运行
python gradio_demo.py
遇到的错误
omni环境中运行gradio_demo.py时触发了ValueError: Unknown argument: show_log,核心原因是你安装的 PaddleOCR 版本较新,而 OmniParser 代码中使用了该版本已移除的show_log参数 ------ 新版本的 PaddleOCR 不再支持show_log这个初始化参数,传入后会被识别为未知参数从而报错。
你在omni环境中运行gradio_demo.py时又触发了ValueError: Unknown argument: use_gpu,核心原因是你安装的 PaddleOCR 3.x + 版本彻底重构了设备指定逻辑,移除了use_gpu参数,改用device参数来指定运行设备(CPU/GPU) ,代码中仍传入use_gpu会被识别为未知参数。