技术栈

mineru2.5

_张一凡
4 小时前
问答系统·大语言模型·文档解析·rag文档处理·mineru2.5
通往RAG之路(四):实战篇pdf文档解析为josn&md这是一个基于MinerU工具开发的批量文档智能解析与格式转换自动化脚本,核心作用是将 PDF、图片、Office 等格式的文档,批量转换为结构化的 Markdown 文本和 JSON 数据,适用于文档数字化、RAG 知识库构建、数据提取等场景。 我的文档全部是pdf,目前只是用到pdf输入。目前只是将pdf数据解析为 Markdown 文本和 JSON 数据。
我是有底线的