marker-快速精准实现PDF转Markdown

GitHub - VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy

Marker converts PDF to markdown quickly and accurately.

  • Supports a wide range of documents (optimized for books and scientific papers)
  • Supports all languages
  • Removes headers/footers/other artifacts
  • Formats tables and code blocks
  • Extracts and saves images along with the markdown
  • Converts most equations to latex
  • Works on GPU, CPU, or MPS

Marker is a pipeline of deep learning models:

Marker的转换流程:

  • 文本提取:首先,Marker使用OCR技术(如果需要)来提取PDF中的文本。这可能涉及到启发式方法或使用如Surya和Tesseract等OCR工具。

  • 页面布局检测:Marker通过Surya等工具检测页面布局,确定阅读顺序,这对于保持文档结构至关重要。

  • 文本块清理与格式化:对于每个文本块,Marker使用启发式方法和Texify等工具进行清理和格式化,以确保文本的准确性和可读性。

  • 块组合与后处理:最后,Marker将所有文本块组合起来,并使用后处理工具(如pdf_postprocessor)进行最终的文本整理,以提高输出质量。

  • 模型的智能使用:Marker只在必要时使用深度学习模型,这有助于提高转换速度和准确性。

相关推荐
私人珍藏库1 小时前
【Windows】PDF超能助手(1.0.13)
windows·pdf·工具·软件·多功能
其实秋天的枫3 小时前
2026年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
开开心心_Every5 小时前
文字转语音无字数限,对接微软接口比付费爽
运维·服务器·人工智能·edge·pdf·paddle·segmentfault
无心水6 小时前
2、5分钟上手|PyPDF2 快速提取PDF文本
java·linux·分布式·后端·python·架构·pdf
优化控制仿真模型7 小时前
2026年新大纲普通话考试真题题库50套(PDF电子版)
经验分享·pdf
SEO-狼术7 小时前
Aspose.PDF for .NET 24.5 Crack
pdf
其实秋天的枫7 小时前
考研英语一历年真题及答案PDF电子版(1998-2026年)
经验分享·pdf
优化控制仿真模型7 小时前
【27考研】考研英语一历年真题及答案PDF电子版(1998-2026年)
经验分享·pdf
搬代码7 小时前
wps压缩pdf压缩
pdf
qq_628515768 小时前
Java实现pdf导出
java·vue.js·react.js·pdf