marker-快速精准实现PDF转Markdown

GitHub - VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy

Marker converts PDF to markdown quickly and accurately.

  • Supports a wide range of documents (optimized for books and scientific papers)
  • Supports all languages
  • Removes headers/footers/other artifacts
  • Formats tables and code blocks
  • Extracts and saves images along with the markdown
  • Converts most equations to latex
  • Works on GPU, CPU, or MPS

Marker is a pipeline of deep learning models:

Marker的转换流程:

  • 文本提取:首先,Marker使用OCR技术(如果需要)来提取PDF中的文本。这可能涉及到启发式方法或使用如Surya和Tesseract等OCR工具。

  • 页面布局检测:Marker通过Surya等工具检测页面布局,确定阅读顺序,这对于保持文档结构至关重要。

  • 文本块清理与格式化:对于每个文本块,Marker使用启发式方法和Texify等工具进行清理和格式化,以确保文本的准确性和可读性。

  • 块组合与后处理:最后,Marker将所有文本块组合起来,并使用后处理工具(如pdf_postprocessor)进行最终的文本整理,以提高输出质量。

  • 模型的智能使用:Marker只在必要时使用深度学习模型,这有助于提高转换速度和准确性。

相关推荐
放飞自我的Coder1 天前
【PDF拆分 Python拆分左右并排PDF】
python·pdf
开开心心_Every1 天前
发票批量打印工具支持双面预览页面方向设置
游戏·微信·pdf·华为云·excel·语音识别·googlecloud
AI刀刀1 天前
千问 文心 元宝 Kimi公式乱码
ai·pdf·豆包·deepseek·ds随心转
J_liaty1 天前
Java实现PDF添加水印的完整方案(支持灵活配置、平铺、多页策略)
java·开发语言·pdf
德育处主任Pro1 天前
『NAS』告别付费和广告,在群晖部署PDF工具箱-bentopdf
pdf·nas
索荣荣1 天前
Spring Boot 实现DOCX转PDF(基于docx4j的轻量级开源方案)
spring boot·后端·pdf
裴嘉靖1 天前
uni-app 打包后 PDF 无法生成问题完整解决方案
pdf·uni-app
wujian83111 天前
AI导出pdf方法
人工智能·pdf
小郎君。1 天前
PDF-知识图谱全流程前后端实现【工具已实现,搭建前后端pipline】
pdf·状态模式·知识图谱
wujian83111 天前
ChatGPT和Gemini导出pdf方法
人工智能·ai·chatgpt·pdf·deepseek