claude-agent-sdk mineru-parser-skill发票识别
不谈玄学,只讲落地。
我是一名深耕算法工程化一线的实践者,擅长将 新技术、关键技术、AI/ML 技术从论文和 demo 转化为可规模化部署的生产系统。在这里,你看不到堆砌公式的理论空谈,只有真实项目中踩过的坑、趟过的路,每一篇文章都源自实战经验的提炼。我相信技术的价值在于解决真实问题,而不是制造焦虑。如果你也厌倦了"收藏即学会",渴望掌握让算法真正跑起来的硬核能力,那么这里就是你的技术补给站。
摘要
在 AI 驱动的文档处理领域,Claude Agent SDK 和 MinerU 的结合提供了一个解决方案。Claude Agent SDK 的 Skills 功能让 AI 能够调用外部工具和服务,而 MinerU 提供文档解析能力,支持 OCR 和 VLM(视觉语言模型),可提取 PDF、Word、PPT 等文档中的文本、表格、公式和结构化内容。
通过将 MinerU 封装为 Claude Agent SDK 的 Skill,实现了从文档 URL 到结构化 Markdown 的端到端自动化流程。用户只需提供文档链接和自然语言指令,Claude AI 就能自动调用 MinerU API 完成解析、状态轮询和结果提取,最终生成结构化数据。该方案适合发票处理、合同分析、学术论文提取等场景,降低了技术门槛,提升了处理效率和准确性。
核心亮点
-
智能化工作流:Claude Agent SDK 的 Skills 机制让 AI 能够自主决策何时调用 MinerU,实现智能化文档处理
-
强大的解析能力:MinerU 支持 OCR 和 VLM 双模型,能够处理复杂布局、手写文字、数学公式等多种内容
-
异步流式处理:基于异步编程模型,支持实时反馈和进度追踪,提升用户体验
-
零代码集成:通过 Skills 配置即可完成集成,无需编写复杂的 API 调用逻辑
-
结构化输出:自动将文档内容转换为 Markdown 格式,便于后续分析和处理
用户指令 → Claude Agent SDK → MinerU Skill → MinerU API → 结构化 Markdown
mineru-pareser发票识别
官方文档
https://platform.claude.com/docs/en/agent-sdk/python
获取mineru-parser skills
https://github.com/nilecui/mineru-parser-skills
shell
git clone https://github.com/nilecui/mineru-parser-skills.git

shell
python -m venv venv
source venv/bin/activate
(venv) nilecui@DESKTOP-28RSMOM:~/demo/mineru-parser-skills$ pip install -r requirements.txt
注册mineru服务

需要申请,这里需要等待几分钟,会发送邮箱通知:

然后创建秘钥就可以了,记得保存秘钥!
运行demo脚本
shell
# 导入秘钥
export MINERU_API_KEY= *******
python demo.py
启动过程
模型用的glm-4.7, 相关配置可参考上篇文章:claude-code 国产glm替代方案,
有时候很快大概20几步就出现了结果,有时达到了70多个请求;可能和我设计的skills有关,如果再加上python脚本,估计就省掉了再创建python脚本的过程,希望大家多提技巧。

结果

参考:
https://platform.claude.com/docs/en/agent-sdk/python
https://github.com/nilecui/mineru-parser-skills