Docker 部署 OCRmyPDF、提取PDF内容

一、镜像导入

bash 复制代码
# 拉取镜像
docker pull jbarlow83/ocrmypdf


# 导出镜像
docker save -o /data/ocrmypdf/ocrmypdf.tar jbarlow83/ocrmypdf:latest
# 导入镜像
docker load -i ocrmypdf.tar

二、调取镜像

bash 复制代码
# 【调用镜像】(以下2选1)

# 1-执行后删除容器【官方推荐】
docker run --rm -it -v /data:/data jbarlow83/ocrmypdf /data/ocrmypdf/test/test.pdf /data/ocrmypdf/test/output.pdf --skip-text -l chi_sim


# 2-保留容器
docker run -itd -v  /data:/data --name="zc-pdfocr-1"  --entrypoint python -p 5000:5000  jbarlow83/ocrmypdf webservice.py

# 固定容器名称调用
docker exec zc-pdfocr-1 ocrmypdf  /data/ocrmypdf/test/test.pdf /data/ocrmypdf/test/output.pdf --skip-text -l chi_sim

以上完成了:【图片类型的pdf】 向 【文本类型的pdf】 的转换。

至此,可以二次调用 PdfToContent 方法,进行PDF内容的提取。

三、拓展:PdfToContent (golang抽取pdf内容)

Go 复制代码
package pdf

import (
	"bytes"
	"github.com/ledongthuc/pdf"
)



func PdfToContent(filePath string) (result string, err error) {
	f, r, err := pdf.Open(filePath)
	// remember close file
	if err != nil {
		return
	}
	defer f.Close()
	var buf bytes.Buffer
	b, err := r.GetPlainText()
	if err != nil {
		return
	}
	_, err = buf.ReadFrom(b)
	if err != nil {
		return
	}
	result = buf.String()
	return
}
相关推荐
人生匆匆5 小时前
k8s通过域名访问 StatefulSet的pod
云原生·容器·kubernetes
赵文宇(温玉)6 小时前
免费|不限速|不限流量|多架构|容器镜像服务---第1批同步:Docker官方维护的143个library镜像仓库
docker·容器·架构
寂寞旅行6 小时前
k8s实现多人同时使用pod
云原生·容器·kubernetes
工具罗某人7 小时前
docker快速部署redis
redis·docker·容器
杨浦老苏8 小时前
轻量级自托管仪表盘Dashlet
docker·群晖·导航
工具罗某人9 小时前
docker快速部署minio
java·nginx·docker
三不原则9 小时前
实战:Docker+K8s 部署 MNIST 模型,实现 API 调用功能
docker·容器·kubernetes
zhanjixun10 小时前
Spring Boot Maven项目构建Docker镜像
spring boot·docker·maven
我乃世间蓬蒿人11 小时前
使用PdfBox对pdf表单进行填报,在长文本时上下行间距过大问题!
pdf
CodeCraft Studio12 小时前
国产化PDF处理控件Spire.PDF教程:使用Python批量转换PDF为PDF/A
开发语言·python·pdf·spire.pdf·pdf/a·pdf转pdf/a·pdf开发组件