文档解析

weixin_3776348412 天前
文档解析·mineru
【MinerU】 Docker 使用问答记录定义在 pyproject.toml:110-120:具体来说,all 在 core 基础上额外安装:
weixin_3776348413 天前
文档解析·mineru
【MinerU】 3090部署 CUDA版本升级我在矩池云上租了3090,但是 CUDA 只有12.2, 当使用 MinerU 的 -b vlm-auto-engine时,官方文档上写着CUDA最低要12.9,当我询问 Gemini 如何升级的时候,给出的答案是只升级 CUDA Toolkit。
weixin_3776348417 天前
文档解析
【MinerU】Pipeline 与 Auto-Engine 模式采用多个专用模型串行处理:分为 hybrid-auto-engine(默认)和 vlm-auto-engine 两种,核心是引入了 视觉语言模型(VLM):
weixin_3776348417 天前
文档解析·mineru
【MinerU】API 服务与 Router服务MinerU 提供 mineru-api 命令启动 FastAPI 服务,支持同步和异步两种处理模式:
weixin_3776348417 天前
文档解析·mineru
【MinerU】多类型文件解析与模型管理MinerU 目前支持以下文件格式:注意:只支持 Office Open XML 格式(.docx/.pptx/.xlsx),不支持旧版二进制格式(.doc/.ppt/.xls)。
weixin_3776348417 天前
文档解析·mineru·昇腾910b
【MinerU】昇腾910B部署npu.Dockerfile 是 MinerU 为华为昇腾(Ascend)NPU 加速卡专门提供的 Docker 构建文件,用于在昇腾硬件上运行 MinerU 的全部功能(pipeline、vlm-auto-engine、hybrid-auto-engine 等)。
盼小辉丶20 天前
文档解析·openclaw·xparse-parser
TextIn xParse Skill上架ClawHub,补齐Agent“读文档”短板Agent 的生态正在飞速扩张,OpenClaw 社区里上万 Skills 的涌现就是最好的证明。但当开发者们兴冲冲地把 Agent 推向企业真实业务时,一个被长期低估的问题总会浮出水面:模型会思考,但不会“读文档”。 PDF、图片、扫描件、Office 文件等等这些日常工作中最普遍的载体,对大多数 Agent 来说依然是一堵墙。模型原生只能理解文本,面对一张发票截图、一份 PDF 合同或是一页扫描版论文时,要么束手无策,要么依赖 OCR 勉强应对——效果差、速度慢、结构全丢,而这些“非结构化数据”往往才
合合技术团队1 个月前
文档解析·ragflow·textin
RAGFlow集成TextIn方案2.0上线!支持快速镜像部署,随时切换解析插件当前基于 RAGFlow v0.24.0 | 插件式集成本项目是RAGFlow的增强版本,集成了TextIn文档智能解析能力,提供更高质量的PDF文档理解。
_张一凡1 个月前
深度学习·ocr·文档解析·千帆ocr·rag文档解析·qianfan-ocr
【文档解析】一文学懂百度千帆OCR模型细节及本地部署百度千帆 OCR(Qianfan-OCR) 是百度千帆团队于 2026 年 3 月发布的端到端统一文档智能大模型,主打 “单模型搞定全链路文档处理”,与传统的多阶段OCR流水线(将独立的版面检测、文字识别和语言理解模块串联)不同,千帆-OCR 以4B所谓参数可执行 直接的图像到Markdown转换,并支持广泛的提示驱动任务——从结构化文档解析、表格提取,到图表理解、文档问答和关键信息抽取——全部由单一模型完成。在多项权威评测中登顶,且已开源。
悟乙己1 个月前
ai·pdf·llm·文档解析
Advanced RAG 02:揭秘 PDF 解析Advanced RAG 02:揭秘 PDF 解析摘要:本文深入探讨了 PDF 文档解析在 RAG 系统中的关键作用,详细介绍了基于规则、深度学习模型和多模态大模型的三种解析方法。文章重点分析了使用开源框架 Unstructured 解析 PDF 时面临的三大挑战(表格/图像提取、双栏排版重排、多级标题提取),并提供了相应的算法思路和代码示例,适合希望提升非结构化数据处理能力的开发者阅读。
合合技术团队2 个月前
大数据·人工智能·科技·文档解析
合合信息联合亚马逊云科技推出长文档智能处理方案,破解智能体规模化落地困局当前,智能体(Agentic AI)正迎来高速发展期。国际咨询机构Gartner预测,到 2028 年,33% 的企业软件应用将内置智能体功能,至少 15% 的日常工作决策将由智能体自主完成。目前,企业在搭建智能体应用时,普遍面临开发环境不完善、功能模块集成困难、规模化部署不稳定等问题,导致智能体难以真正落地业务场景。
含老司开挖掘机3 个月前
ocr·文档解析·结构化输出·chandra
Chandra OCR多格式输出详解:同页同步生成Markdown/HTML/JSON三版本你有没有遇到过这样的场景:Chandra 就是为解决这些“排版失真”痛点而生的。它不是把图片当文字流来识别,而是像人一样“看懂页面”:哪是标题、哪是正文、哪是两栏布局、哪是嵌套表格、哪是手写批注、哪是LaTeX公式——然后原样还原成结构化输出。
合合技术团队3 个月前
ocr·coze·文档解析·textln
零代码搭建「招标文件解析智能体」:Coze+TextIn xParse实现PDF上传自动提条款、标风险、出建议如果你参与过招投标,一定理解这种挑战:200-500 页起步:包含目录、征文、技术规范、商务条款、复杂表格和各类附件。
合合技术团队4 个月前
人工智能·文字识别·公式识别·文档解析·textln·蜜蜂试卷
论文解读 | 从识别字符到理解结构,“树模型”让AI“看懂”复杂手写数学公式论文名称:A tree-based model with branch parallel decoding for handwritten mathematical expression recognition
夏日白云4 个月前
pdf·llm·大语言模型·rag·文档解析
《PDF解析工程实录》第 17 章|内容流里“看得见却看不见”的字符:那些幽灵文字从哪来?点此进入系列专栏如果你已经开始深入使用 PDF 内容流解析,迟早会遇到一种非常诡异、但又极其常见的现象:
北京地铁1号线4 个月前
开发语言·知识图谱·文档解析
1.1 文档解析:PDF/Word/HTML的结构化提取文档解析是将非结构化或半结构化的文档内容转换为结构化数据的过程。在RAG系统中,这是知识库构建的第一步,直接影响后续分块、索引和检索的质量。
夏日白云4 个月前
pdf·llm·大语言模型·rag·文档解析
《PDF解析工程实录》第 14 章|内容流文本布局计算:pdfminer 在做什么,以及它为什么不够点此进入系列专栏如果你在 PDF 解析里,哪怕只走过一次内容流路线,大概率都会在某个时刻和 pdfminer 正面相遇。不是因为它多完美,而是因为它几乎定义了一个事实:
阿里巴巴P8资深技术专家4 个月前
ai·ocr·ai大模型·rag·文档解析·mineru·tike
Spring Boot 实现文档智能解析与向量化:支持 Tika、MinerU、OCR 与 SSE 实时进度反馈Spring Boot 实现文档智能解析与向量化:支持 Tika、MinerU、OCR 与 SSE 实时进度反馈
夏日白云5 个月前
图像处理·机器学习·pdf·llm·大语言模型·rag·文档解析
《PDF解析工程实录》第 12 章|别让模型贴着墙走:为什么加一圈空白,效果反而更好?点此进入系列专栏先说结论:对于相当多的图像模型,在输入图像四周主动加一圈 Padding(空白边),往往能提升边界区域的识别效果。
夏日白云5 个月前
pdf·llm·大语言模型·rag·文档解析
《PDF解析工程实录》第 11 章|图像路线的工程现实:DPI、分辨率和内存炸裂点此进入系列专栏如果你在 PDF 解析里走过图像路线,大概率都经历过某个时刻:一开始我也以为问题出在模型上。