claude-agent-sdk mineru-parser-skill发票识别

claude-agent-sdk mineru-parser-skill发票识别

不谈玄学,只讲落地。

我是一名深耕算法工程化一线的实践者,擅长将 新技术、关键技术、AI/ML 技术从论文和 demo 转化为可规模化部署的生产系统。在这里,你看不到堆砌公式的理论空谈,只有真实项目中踩过的坑、趟过的路,每一篇文章都源自实战经验的提炼。我相信技术的价值在于解决真实问题,而不是制造焦虑。如果你也厌倦了"收藏即学会",渴望掌握让算法真正跑起来的硬核能力,那么这里就是你的技术补给站。

摘要

在 AI 驱动的文档处理领域,Claude Agent SDK 和 MinerU 的结合提供了一个解决方案。Claude Agent SDK 的 Skills 功能让 AI 能够调用外部工具和服务,而 MinerU 提供文档解析能力,支持 OCR 和 VLM(视觉语言模型),可提取 PDF、Word、PPT 等文档中的文本、表格、公式和结构化内容。

通过将 MinerU 封装为 Claude Agent SDK 的 Skill,实现了从文档 URL 到结构化 Markdown 的端到端自动化流程。用户只需提供文档链接和自然语言指令,Claude AI 就能自动调用 MinerU API 完成解析、状态轮询和结果提取,最终生成结构化数据。该方案适合发票处理、合同分析、学术论文提取等场景,降低了技术门槛,提升了处理效率和准确性。

核心亮点

  • 智能化工作流:Claude Agent SDK 的 Skills 机制让 AI 能够自主决策何时调用 MinerU,实现智能化文档处理

  • 强大的解析能力:MinerU 支持 OCR 和 VLM 双模型,能够处理复杂布局、手写文字、数学公式等多种内容

  • 异步流式处理:基于异步编程模型,支持实时反馈和进度追踪,提升用户体验

  • 零代码集成:通过 Skills 配置即可完成集成,无需编写复杂的 API 调用逻辑

  • 结构化输出:自动将文档内容转换为 Markdown 格式,便于后续分析和处理

    用户指令 → Claude Agent SDK → MinerU Skill → MinerU API → 结构化 Markdown

mineru-pareser发票识别

官方文档

https://platform.claude.com/docs/en/agent-sdk/python

获取mineru-parser skills

https://github.com/nilecui/mineru-parser-skills

shell 复制代码
git clone https://github.com/nilecui/mineru-parser-skills.git
shell 复制代码
python -m venv venv
source venv/bin/activate
(venv) nilecui@DESKTOP-28RSMOM:~/demo/mineru-parser-skills$ pip install -r requirements.txt

注册mineru服务

需要申请,这里需要等待几分钟,会发送邮箱通知:

然后创建秘钥就可以了,记得保存秘钥!

运行demo脚本

shell 复制代码
# 导入秘钥
export MINERU_API_KEY= *******
python demo.py

启动过程

模型用的glm-4.7, 相关配置可参考上篇文章:claude-code 国产glm替代方案,

有时候很快大概20几步就出现了结果,有时达到了70多个请求;可能和我设计的skills有关,如果再加上python脚本,估计就省掉了再创建python脚本的过程,希望大家多提技巧。

结果

参考:
https://platform.claude.com/docs/en/agent-sdk/python
https://github.com/nilecui/mineru-parser-skills

相关推荐
wwwzhouhui15 小时前
2026年1月18日-Obsidian + AI,笔记效率提升10倍!一键生成Canvas和小红书风格笔记
人工智能·obsidian·skills
学统计的程序员18 小时前
一篇文章简述如何安装claude code并接入国产智谱AI大模型
人工智能·ai编程·claude
打小就很皮...21 小时前
Claude + Skills 快速生成PPT
人工智能·claude·skills
无双@2 天前
保姆级 安装+使用上 Claude Code
ai·大模型·agent·claude·配置·claude code·skills
敲代码的小霖2 天前
Claude Skill for kingbase 人大金仓
claude·skills
乙真仙人2 天前
Claude Skills 的本质
人工智能·大模型·skills
小仓桑3 天前
OpenCode 入门教程:介绍 · 安装 · 配置第三方 API (如 Claude)
ai编程·claude·opencode
sg_knight3 天前
Claude Code 与 ChatGPT、Copilot 有什么区别?
人工智能·chatgpt·llm·copilot·claude·ai大模型·claude-code
win4r4 天前
🚀2026年Skills元年正式开启!谷歌Antigravity支持Agent Skills,彻底改写传统AI编程!保姆级教程从安装到创建到调用!UI UX Pro Max Skills实测效果超预期
agent·claude·vibecoding
小毕超4 天前
基于 Qwen Code Skills 实践构建自定义数据分析智能体
mysql·skills·qwen code