【maker-pdf 文档文字识别(包含ocr),安装使用完整教程】

测试效果还比较好,比markitdown要好

安装环境

bash 复制代码
conda create -n maker-pdf python=3.12
conda activate marker-pdf
pip install modelscope
pip install marker-pdf -U

下载模型

python 复制代码
from modelscope import snapshot_download

model_root = "models"
snapshot_download("Lixiang/marker-pdf", local_dir="models")

开始运行

python 复制代码
from marker.converters.pdf import PdfConverter
from marker.models import create_model_dict
from marker.output import text_from_rendered
from surya.settings import settings

## 权重地址,模型很大,没GPU的话会很慢
model_root = "models"
settings.MODEL_CACHE_DIR = model_root
for chectpoint in [
    "LAYOUT_MODEL_CHECKPOINT",
    "DETECTOR_MODEL_CHECKPOINT",
    "OCR_ERROR_MODEL_CHECKPOINT",
    "TABLE_REC_MODEL_CHECKPOINT",
    "RECOGNITION_MODEL_CHECKPOINT",
]:
    value = getattr(settings, chectpoint)
    if "s3://" in value:
	    value = value.replace("s3://", "/")
	    setattr(settings, chectpoint, model_root + value)

converter = PdfConverter(
    artifact_dict=create_model_dict(),
)
rendered = converter("test.pdf")
# text = rendered.markdown
text, _, images = text_from_rendered(rendered)
print(text)
相关推荐
闲人编程21 分钟前
Flask 前后端分离架构实现支付宝电脑网站支付功能
python·架构·flask·支付宝·前后端·网站支付·apl
996终结者30 分钟前
同类软件对比(四):Jupyter vs PyCharm vs VS Code:Python开发工具终极选择指南
vscode·python·jupyter·pycharm·visual studio code
果壳~34 分钟前
【Python】爬虫html提取内容基础,bs4
爬虫·python·html
尝试经历体验2 小时前
pycharm突然不能正常运行
python·深度学习·pycharm
jay神2 小时前
基于Python的商品爬取与可视化系统
爬虫·python·数据分析·毕业设计·可视化系统
浪浪山齐天大圣3 小时前
python数据可视化之Matplotlib(8)-Matplotlib样式系统深度解析:从入门到企业级应用
python·matplotlib·数据可视化
F_D_Z3 小时前
【PyTorch】单对象分割
人工智能·pytorch·python·深度学习·机器学习
编程自留地3 小时前
18.4 查看订单
python·django·商城
wanzhong23333 小时前
学习triton-第1课 向量加法
开发语言·python·高性能计算
浊酒南街3 小时前
Pytorch基础入门4
人工智能·pytorch·python