文档解析

通往RAG之路（四）：实战篇pdf文档解析为josn&md这是一个基于MinerU工具开发的批量文档智能解析与格式转换自动化脚本，核心作用是将 PDF、图片、Office 等格式的文档，批量转换为结构化的 Markdown 文本和 JSON 数据，适用于文档数字化、RAG 知识库构建、数据提取等场景。我的文档全部是pdf，目前只是用到pdf输入。目前只是将pdf数据解析为 Markdown 文本和 JSON 数据。

weixin_37763484

【MinerU】 Docker 使用问答记录定义在 pyproject.toml:110-120：具体来说，all 在 core 基础上额外安装：

weixin_37763484

【MinerU】 3090部署 CUDA版本升级我在矩池云上租了3090，但是 CUDA 只有12.2，当使用 MinerU 的 -b vlm-auto-engine时，官方文档上写着CUDA最低要12.9，当我询问 Gemini 如何升级的时候，给出的答案是只升级 CUDA Toolkit。

weixin_37763484

【MinerU】Pipeline 与 Auto-Engine 模式采用多个专用模型串行处理：分为 hybrid-auto-engine（默认）和 vlm-auto-engine 两种，核心是引入了视觉语言模型（VLM）：

weixin_37763484

【MinerU】API 服务与 Router服务MinerU 提供 mineru-api 命令启动 FastAPI 服务，支持同步和异步两种处理模式：

weixin_37763484

【MinerU】多类型文件解析与模型管理MinerU 目前支持以下文件格式：注意：只支持 Office Open XML 格式（.docx/.pptx/.xlsx），不支持旧版二进制格式（.doc/.ppt/.xls）。

weixin_37763484

【MinerU】昇腾910B部署npu.Dockerfile 是 MinerU 为华为昇腾（Ascend）NPU 加速卡专门提供的 Docker 构建文件，用于在昇腾硬件上运行 MinerU 的全部功能（pipeline、vlm-auto-engine、hybrid-auto-engine 等）。

TextIn xParse Skill上架ClawHub，补齐Agent“读文档”短板Agent 的生态正在飞速扩张，OpenClaw 社区里上万 Skills 的涌现就是最好的证明。但当开发者们兴冲冲地把 Agent 推向企业真实业务时，一个被长期低估的问题总会浮出水面：模型会思考，但不会“读文档”。 PDF、图片、扫描件、Office 文件等等这些日常工作中最普遍的载体，对大多数 Agent 来说依然是一堵墙。模型原生只能理解文本，面对一张发票截图、一份 PDF 合同或是一页扫描版论文时，要么束手无策，要么依赖 OCR 勉强应对——效果差、速度慢、结构全丢，而这些“非结构化数据”往往才

合合技术团队

RAGFlow集成TextIn方案2.0上线！支持快速镜像部署，随时切换解析插件当前基于 RAGFlow v0.24.0 | 插件式集成本项目是RAGFlow的增强版本，集成了TextIn文档智能解析能力，提供更高质量的PDF文档理解。

【文档解析】一文学懂百度千帆OCR模型细节及本地部署百度千帆 OCR（Qianfan-OCR）是百度千帆团队于 2026 年 3 月发布的端到端统一文档智能大模型，主打 “单模型搞定全链路文档处理”，与传统的多阶段OCR流水线（将独立的版面检测、文字识别和语言理解模块串联）不同，千帆-OCR 以4B所谓参数可执行直接的图像到Markdown转换，并支持广泛的提示驱动任务——从结构化文档解析、表格提取，到图表理解、文档问答和关键信息抽取——全部由单一模型完成。在多项权威评测中登顶，且已开源。

Advanced RAG 02：揭秘 PDF 解析Advanced RAG 02：揭秘 PDF 解析摘要：本文深入探讨了 PDF 文档解析在 RAG 系统中的关键作用，详细介绍了基于规则、深度学习模型和多模态大模型的三种解析方法。文章重点分析了使用开源框架 Unstructured 解析 PDF 时面临的三大挑战（表格/图像提取、双栏排版重排、多级标题提取），并提供了相应的算法思路和代码示例，适合希望提升非结构化数据处理能力的开发者阅读。

合合技术团队

合合信息联合亚马逊云科技推出长文档智能处理方案，破解智能体规模化落地困局当前，智能体（Agentic AI）正迎来高速发展期。国际咨询机构Gartner预测，到 2028 年，33% 的企业软件应用将内置智能体功能，至少 15% 的日常工作决策将由智能体自主完成。目前，企业在搭建智能体应用时，普遍面临开发环境不完善、功能模块集成困难、规模化部署不稳定等问题，导致智能体难以真正落地业务场景。

含老司开挖掘机

Chandra OCR多格式输出详解：同页同步生成Markdown/HTML/JSON三版本你有没有遇到过这样的场景：Chandra 就是为解决这些“排版失真”痛点而生的。它不是把图片当文字流来识别，而是像人一样“看懂页面”：哪是标题、哪是正文、哪是两栏布局、哪是嵌套表格、哪是手写批注、哪是LaTeX公式——然后原样还原成结构化输出。

合合技术团队

零代码搭建「招标文件解析智能体」：Coze+TextIn xParse实现PDF上传自动提条款、标风险、出建议如果你参与过招投标，一定理解这种挑战：200-500 页起步：包含目录、征文、技术规范、商务条款、复杂表格和各类附件。

合合技术团队

论文解读 | 从识别字符到理解结构，“树模型”让AI“看懂”复杂手写数学公式论文名称：A tree-based model with branch parallel decoding for handwritten mathematical expression recognition

《PDF解析工程实录》第 17 章｜内容流里“看得见却看不见”的字符：那些幽灵文字从哪来？点此进入系列专栏如果你已经开始深入使用 PDF 内容流解析，迟早会遇到一种非常诡异、但又极其常见的现象：

北京地铁1号线

1.1 文档解析：PDF/Word/HTML的结构化提取文档解析是将非结构化或半结构化的文档内容转换为结构化数据的过程。在RAG系统中，这是知识库构建的第一步，直接影响后续分块、索引和检索的质量。

《PDF解析工程实录》第 14 章｜内容流文本布局计算：pdfminer 在做什么，以及它为什么不够点此进入系列专栏如果你在 PDF 解析里，哪怕只走过一次内容流路线，大概率都会在某个时刻和 pdfminer 正面相遇。不是因为它多完美，而是因为它几乎定义了一个事实：

阿里巴巴P8资深技术专家

Spring Boot 实现文档智能解析与向量化：支持 Tika、MinerU、OCR 与 SSE 实时进度反馈Spring Boot 实现文档智能解析与向量化：支持 Tika、MinerU、OCR 与 SSE 实时进度反馈

《PDF解析工程实录》第 12 章｜别让模型贴着墙走：为什么加一圈空白，效果反而更好？点此进入系列专栏先说结论：对于相当多的图像模型，在输入图像四周主动加一圈 Padding（空白边），往往能提升边界区域的识别效果。