让OpenCode/OpenClaw的AI/Agent准确识别图表文字:PaddleOCR-VL-1.5 封装为全局 OCR skills

封装skills

https://hf-mirror.com/PaddlePaddle/PaddleOCR-VL-1.5下载模型权重及代码文件(建议自己手动下载,ai更容易因为exec超时退出)

创建项目文件夹比如/Users/Zhuanz/Desktop/work/PaddleOCR,可选择先配置python环境(这里前期已通过uv配置),再创建model/PaddleOCR-VL-1.5

在终端打开opencode,告知执行模型等文件的位置,让ai了解思考怎么封装为ocr的skills

要求中文回答,看来ai把我的代码也顺便读进来

退出计划模式,让ai实现

ai还列举了常见问题

skills最终结构

复制代码
paddle-ocr-skill/
├── SKILL.md              # 详细技术文档
├── README.md            # 快速开始指南
├── USAGE_GUIDE.md       # 完整使用指南(中文)
├── skill.py             # 主技能接口(PaddleOCRSkill类)
├── ocr_engine.py        # OCR核心引擎
├── postprocessors.py    # 后处理工具(文本归一化、卡片提取)
├── config.py            # 配置管理
├── requirements.txt     # 依赖列表
├── activate_env.sh      # 环境激活脚本
├── verify.py           # 环境验证脚本
├── quick_test.py       # 快速测试脚本
├── examples/           # 使用示例
│   ├── basic_usage.py
│   ├── batch_processing.py
│   ├── card_extraction.py
│   └── advanced_features.py
└── test/              # 测试文件
    ├── test_basic.py
    └── test_card_extract.py

/exit退出opencode,激活python环境,验证效果

可以看出paddleOCR识别能力还是相当不错的

OpenCode/Openclaw调用skills

发现没有映射到全局调用skills的文件夹/Users/Zhuanz/.agents/skills(以你的实际路径为准)

要求ai将其映射为全局skills

OpenCode调用skills

创建新的opencode会话,输入/skills,下拉可以发现确实有这个skills了

测试opecode使用paddle-ocr的skills

OpenCode的ai调用skills识别成功

Openclaw调用skills

执行pnpm openclaw onboard(不是pnpm安装可去掉pnpm)启动openclaw

先问ai能不能看到skills,特别是paddle-ocr

测试ai调用paddle-ocr识别文字(注意图片不要带中文,否则可能读不到这个图片)

看起来大部分正确,但ai对ocr结果做了改写,不过已经基本满足日常需求了

注:原文来自作者的gzh--AI全链汇

创作不易,禁止抄袭,转载请附上原文链接及标题

相关推荐
大模型最新论文速读3 分钟前
UnityMAS-O:专用于多 agent 工作流训练的 RL 框架
论文阅读·人工智能·深度学习·机器学习·自然语言处理
城事漫游Molly6 分钟前
AI赋能质性研究(八): 断言与命题写作,实现从数据到理论跨越的5个高质量 Prompt
人工智能·算法·prompt·ai for science·定性研究
love530love7 分钟前
根治 PyTorch CUDA `pynvml` 弃用警告:直接修改 `torch/cuda/__init__.py` 的实践记录
人工智能·pytorch·windows·python·深度学习·机器学习·pynvml
小雨下雨的雨33 分钟前
家庭药品管理系统智能过期预警鸿蒙PC Electron框架技术深度解析
前端·javascript·人工智能·华为·electron·鸿蒙·鸿蒙系统
brycegao32135 分钟前
Tauri2+Vue3+Ollama 实战|依托 AI 协同开发全离线隐私记账桌面软件(开源)
人工智能·开源·vue·ai编程·tauri·ollama·桌面开发
luoganttcc1 小时前
Blackwell 是 FP4/NVFP4 + 第二代 Transformer Engine + 更大 NVLink 域 + 更强机架级推理系统
人工智能·深度学习·transformer
ZzT1 小时前
Harness 怎么拿捏 agent:权限与 effort
openai·ai编程·claude
王哈哈^_^1 小时前
【源码教程+数据集】农作物分类检测数据集 10712 张,农作物分类检测系统实战教程
人工智能·算法·yolo·目标检测·计算机视觉·毕业设计·数据集
码农天天1 小时前
卡特加特AI营销一体机核心功能与技术规格说明书
人工智能·规格说明书