技术栈
mineru2.5
_张一凡
4 小时前
问答系统
·
大语言模型
·
文档解析
·
rag文档处理
·
mineru2.5
通往RAG之路(四):实战篇pdf文档解析为josn&md
这是一个基于MinerU工具开发的批量文档智能解析与格式转换自动化脚本,核心作用是将 PDF、图片、Office 等格式的文档,批量转换为结构化的 Markdown 文本和 JSON 数据,适用于文档数字化、RAG 知识库构建、数据提取等场景。 我的文档全部是pdf,目前只是用到pdf输入。目前只是将pdf数据解析为 Markdown 文本和 JSON 数据。
我是有底线的