技术栈
pdf-extract-kit
gold2008
22 天前
pdf
·
paddle
·
paddleocr
·
pdf-extract-kit
·
pdf2markdown.py
pdf-extract-kit paddle paddleocr pdf2markdown.py(效果不佳)
GitHub - opendatalab/PDF-Extract-Kit: A Comprehensive Toolkit for High-Quality PDF Content Extraction
Hello 0 1
6 个月前
人工智能
·
pdf
·
rag
·
pdf-extract-kit
·
pdf文件解析
PDF转化为机器可读格式的工具
PDF转化为机器可读格式的工具MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 项目地址:
伊织code
8 个月前
pdf
·
ocr
·
pdf-extract-kit
PDF-Extract-Kit
PDF文档中包含大量知识信息,然而提取高质量的PDF内容并非易事。为此,我们将PDF内容提取工作进行拆解: