转化为MarkDown

markitdown

markitdown简介
  • 将文件和办公文档,如pdf,doc等转换为Markdown的Python工具
  • 项目仓库:https://github.com/microsoft/markitdown
  • 支持将如下格式文件或文档转为markdown
    • PDF
    • PowerPoint
    • Word
    • Excel
    • Images (EXIF metadata and OCR)
    • Audio (EXIF metadata and speech transcription)
    • HTML
    • Text-based formats (CSV, JSON, XML)
    • ZIP files (iterates over contents)
markitdown相关文章

Docling

Docling简介
  • IBM开源文档解析理解工具
  • 项目仓库:https://github.com/DS4SD/docling
  • Docling是一个用于文档解析和格式转换的工具,支持多种文档格式(如PDF、DOCX、PPTX等),能够快速将文档导出为Markdown和JSON格式
Docling特征
  • 🗂️能读取流行的文档格式(PDF,DOCX,PPTX,XLSX,图像,HTML,AsciiDoc和Markdown)并导出为HTML,Markdown和JSON(嵌入和引用图像)
  • 📑高级PDF文档理解,包括页面布局,阅读顺序和表格结构
  • 🧩统一的、富有表现力的表现格式
  • 🤖轻松集成LlamaIndex和LangChain,实现强大的RAG / QA应用程序
  • 🔍支持扫描PDF的OCR
  • 💻简单方便的命令行
Docling相关文章

marker-api

  • 一个简单易部署的 API,用于将 PDF 文件快速、高准确度地转换成 Markdown 格式
  • 项目仓库:https://github.com/adithya-s-k/marker-api
  • 支持同时转换多个 PDF 文件。
  • 支持多种文档类型,包括书籍和科学论文。
  • 支持所有语言。
  • 移除页眉、页脚和其他非文本元素。
  • 格式化表格和代码块。- 提取并保存Markdown中的图片。
  • 将大多数方程式转换成LaTeX格式
  • 精准!Marker API:PDF 转 Markdown

Marker

  • 基于深度学习模型的将 PDF 转换成 Markdown 格式的工具
  • 项目仓库:https://github.com/VikParuchuri/marker
  • 广泛文档支持(特别适合书籍和科学论文)
  • 全语言支持
  • 移除页眉、页脚及其它冗余元素
  • 格式化表格与代码块
  • 提取并随 Markdown 保存图像
  • 大多数公式转换为 LaTeX
  • 支持 GPU、CPU 或 MPS 运行
  • 高效PDF转markdown,AI实用工具

原文链接:https://i68.ltd/notes/posts/241205-doc2md/

相关推荐
CM莫问3 小时前
<论文>(微软)避免推荐域外物品:基于LLM的受限生成式推荐
人工智能·算法·大模型·推荐算法·受限生成
康谋自动驾驶4 小时前
康谋分享 | 自动驾驶仿真进入“标准时代”:aiSim全面对接ASAM OpenX
人工智能·科技·算法·机器学习·自动驾驶·汽车
深蓝学院5 小时前
密西根大学新作——LightEMMA:自动驾驶中轻量级端到端多模态模型
人工智能·机器学习·自动驾驶
归去_来兮5 小时前
人工神经网络(ANN)模型
人工智能·机器学习·人工神经网络
2201_754918415 小时前
深入理解卷积神经网络:从基础原理到实战应用
人工智能·神经网络·cnn
强盛小灵通专卖员5 小时前
DL00219-基于深度学习的水稻病害检测系统含源码
人工智能·深度学习·水稻病害
Luke Ewin5 小时前
CentOS7.9部署FunASR实时语音识别接口 | 部署商用级别实时语音识别接口FunASR
人工智能·语音识别·实时语音识别·商用级别实时语音识别
Joern-Lee6 小时前
初探机器学习与深度学习
人工智能·深度学习·机器学习
云卓SKYDROID6 小时前
无人机数据处理与特征提取技术分析!
人工智能·科技·无人机·科普·云卓科技
R²AIN SUITE6 小时前
金融合规革命:R²AIN SUITE 如何重塑银行业务智能
大数据·人工智能