marker-快速精准实现PDF转Markdown

GitHub - VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy

Marker converts PDF to markdown quickly and accurately.

  • Supports a wide range of documents (optimized for books and scientific papers)
  • Supports all languages
  • Removes headers/footers/other artifacts
  • Formats tables and code blocks
  • Extracts and saves images along with the markdown
  • Converts most equations to latex
  • Works on GPU, CPU, or MPS

Marker is a pipeline of deep learning models:

Marker的转换流程:

  • 文本提取:首先,Marker使用OCR技术(如果需要)来提取PDF中的文本。这可能涉及到启发式方法或使用如Surya和Tesseract等OCR工具。

  • 页面布局检测:Marker通过Surya等工具检测页面布局,确定阅读顺序,这对于保持文档结构至关重要。

  • 文本块清理与格式化:对于每个文本块,Marker使用启发式方法和Texify等工具进行清理和格式化,以确保文本的准确性和可读性。

  • 块组合与后处理:最后,Marker将所有文本块组合起来,并使用后处理工具(如pdf_postprocessor)进行最终的文本整理,以提高输出质量。

  • 模型的智能使用:Marker只在必要时使用深度学习模型,这有助于提高转换速度和准确性。

相关推荐
ElasticPDF-新国产PDF编辑器5 小时前
Vue use pdf.js and Elasticpdf tutorial
vue.js·pdf
ElasticPDF-新国产PDF编辑器11 小时前
Angular 项目 PDF 批注插件库在线版 API 示例教程
前端·pdf·angular.js
夏天想11 小时前
vant4+vue3上传一个pdf文件并实现pdf的预览。使用插件pdf.js
开发语言·javascript·pdf·vant
ElasticPDF-新国产PDF编辑器13 小时前
React 项目 PDF 批注插件库在线版 API 示例教程
react.js·pdf·json
hello_simon16 小时前
在线小白工具,PPT转PDF支持多种热门工具,支持批量转换,操作简单,高效适合各种需求
pdf·html·powerpoint·excel·pdf转html·excel转pdf格式
ZhangChuChu_92481 天前
Word在生成PDF后,PDF左侧导航书签目录错误显示的解决方法
pdf·word
inxunoffice1 天前
批量将文本文件转换为 Word/PDF/Excel/图片等其它格式
pdf·word·excel
人工智能教学实践1 天前
【爬虫脚本】实现批量pdf文件下载
pdf
海峰教授2 天前
扫描仪+文档pdf编辑器+pdf格式转换器
pdf
Li_na_na012 天前
解决安卓手机WebView无法直接预览PDF的问题(使用PDF.js方案)
android·pdf·uni-app·html5