claude-agent-sdk mineru-parser-skill发票识别

claude-agent-sdk mineru-parser-skill发票识别

不谈玄学,只讲落地。

我是一名深耕算法工程化一线的实践者,擅长将 新技术、关键技术、AI/ML 技术从论文和 demo 转化为可规模化部署的生产系统。在这里,你看不到堆砌公式的理论空谈,只有真实项目中踩过的坑、趟过的路,每一篇文章都源自实战经验的提炼。我相信技术的价值在于解决真实问题,而不是制造焦虑。如果你也厌倦了"收藏即学会",渴望掌握让算法真正跑起来的硬核能力,那么这里就是你的技术补给站。

摘要

在 AI 驱动的文档处理领域,Claude Agent SDK 和 MinerU 的结合提供了一个解决方案。Claude Agent SDK 的 Skills 功能让 AI 能够调用外部工具和服务,而 MinerU 提供文档解析能力,支持 OCR 和 VLM(视觉语言模型),可提取 PDF、Word、PPT 等文档中的文本、表格、公式和结构化内容。

通过将 MinerU 封装为 Claude Agent SDK 的 Skill,实现了从文档 URL 到结构化 Markdown 的端到端自动化流程。用户只需提供文档链接和自然语言指令,Claude AI 就能自动调用 MinerU API 完成解析、状态轮询和结果提取,最终生成结构化数据。该方案适合发票处理、合同分析、学术论文提取等场景,降低了技术门槛,提升了处理效率和准确性。

核心亮点

  • 智能化工作流:Claude Agent SDK 的 Skills 机制让 AI 能够自主决策何时调用 MinerU,实现智能化文档处理

  • 强大的解析能力:MinerU 支持 OCR 和 VLM 双模型,能够处理复杂布局、手写文字、数学公式等多种内容

  • 异步流式处理:基于异步编程模型,支持实时反馈和进度追踪,提升用户体验

  • 零代码集成:通过 Skills 配置即可完成集成,无需编写复杂的 API 调用逻辑

  • 结构化输出:自动将文档内容转换为 Markdown 格式,便于后续分析和处理

    用户指令 → Claude Agent SDK → MinerU Skill → MinerU API → 结构化 Markdown

mineru-pareser发票识别

官方文档

https://platform.claude.com/docs/en/agent-sdk/python

获取mineru-parser skills

https://github.com/nilecui/mineru-parser-skills

shell 复制代码
git clone https://github.com/nilecui/mineru-parser-skills.git
shell 复制代码
python -m venv venv
source venv/bin/activate
(venv) nilecui@DESKTOP-28RSMOM:~/demo/mineru-parser-skills$ pip install -r requirements.txt

注册mineru服务

需要申请,这里需要等待几分钟,会发送邮箱通知:

然后创建秘钥就可以了,记得保存秘钥!

运行demo脚本

shell 复制代码
# 导入秘钥
export MINERU_API_KEY= *******
python demo.py

启动过程

模型用的glm-4.7, 相关配置可参考上篇文章:claude-code 国产glm替代方案,

有时候很快大概20几步就出现了结果,有时达到了70多个请求;可能和我设计的skills有关,如果再加上python脚本,估计就省掉了再创建python脚本的过程,希望大家多提技巧。

结果

参考:
https://platform.claude.com/docs/en/agent-sdk/python
https://github.com/nilecui/mineru-parser-skills

相关推荐
DigitalOcean14 小时前
Claude Opus 4.6 上线 DigitalOcean:百万上下文,一键调用
claude
jerrywus15 小时前
我写了个 Claude Code Skill,再也不用手动切图传 COS 了
前端·agent·claude
laplace012318 小时前
mcp和skills区别
agent·rag·mcp·skills
jerrywus21 小时前
一句话生成整套 API:我用 Claude Code 自定义 Skill + MCP 搞了个接口代码生成器
agent·claude
SunnyRivers21 小时前
Skills、Prompts、MCP、Subagents傻傻分不清楚?
prompts·mcp·skills·subagens
冬奇Lab2 天前
Hook 机制实战:让 ClaudeCode 主动通知你
ai编程·claude
jackyrongvip2 天前
一个简单的羊毛claude-4.6最新版本的方法
ai·claude
小小工匠2 天前
LLM - 从 0 打造专业 Agent Skill:一套能落地的完整实践指南
skills·agent skills
带刺的坐椅2 天前
Claude Code Skills,Google A2A Skills,Solon AI Skills 有什么区别?
java·ai·solon·a2a·claudecode·skills
南宫乘风2 天前
Claude Code 从 0 到 1 实战全攻略:掌握下一代编程 Agent 的核心能力
ai·claude·mcp