marker-快速精准实现PDF转Markdown

GitHub - VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy

Marker converts PDF to markdown quickly and accurately.

  • Supports a wide range of documents (optimized for books and scientific papers)
  • Supports all languages
  • Removes headers/footers/other artifacts
  • Formats tables and code blocks
  • Extracts and saves images along with the markdown
  • Converts most equations to latex
  • Works on GPU, CPU, or MPS

Marker is a pipeline of deep learning models:

Marker的转换流程:

  • 文本提取:首先,Marker使用OCR技术(如果需要)来提取PDF中的文本。这可能涉及到启发式方法或使用如Surya和Tesseract等OCR工具。

  • 页面布局检测:Marker通过Surya等工具检测页面布局,确定阅读顺序,这对于保持文档结构至关重要。

  • 文本块清理与格式化:对于每个文本块,Marker使用启发式方法和Texify等工具进行清理和格式化,以确保文本的准确性和可读性。

  • 块组合与后处理:最后,Marker将所有文本块组合起来,并使用后处理工具(如pdf_postprocessor)进行最终的文本整理,以提高输出质量。

  • 模型的智能使用:Marker只在必要时使用深度学习模型,这有助于提高转换速度和准确性。

相关推荐
开开心心就好5 小时前
免费PDF处理软件,支持多种操作
运维·服务器·前端·spring boot·智能手机·pdf·电脑
念九_ysl9 小时前
Java 使用 OpenHTMLToPDF + Batik 将含 SVG 遮罩的 HTML 转为 PDF 的完整实践
java·开发语言·pdf
一头生产的驴18 小时前
java整合itext pdf实现自定义PDF文件格式导出
java·spring boot·pdf·itextpdf
开开心心就好2 天前
批量PDF转换工具,一键转换Word Excel
开发语言·前端·学习·pdf·电脑·word·excel
老家的回忆2 天前
jsPDF和html2canvas生成pdf,组件用的elementplus,亲测30多页,20s实现
前端·vue.js·pdf·html2canvas·jspdf
Vertira2 天前
pdf 合并 python实现(已解决)
前端·python·pdf
十一0829932 天前
【PDF-XSS攻击】springboot项目-上传文件-解决PDF文件XSS攻击
spring boot·pdf·xss
qq_393828222 天前
PDF的图片文字识别工具
windows·pdf·电脑·软件需求·图片处理
wsxqaz3 天前
浏览器原生控件上传PDF导致hash值不同
算法·pdf·哈希算法
工业3D_大熊12 天前
3D模式格式转换工具HOOPS Exchange如何将3D PDF转换为STEP格式?
3d·pdf·3d格式转换·3d模型格式转换·cad格式转换·cad数据格式转换·3d模型可视化