基于 PaddleOCR对pdf文件中的文字提取

一、基于 PaddleOCR 提取 PDF 文件中的文字流程

  1. 安装必要的依赖库:包括 PaddleOCR 和 PyMuPDF

pip install paddlepaddle paddleocr pymupdf

  1. 将 PDF 转换为图像:使用 PyMuPDF 将 PDF 的每一页转换为图像

  2. 使用 PaddleOCR 进行文字识别:对转换后的图像进行文字识别

  3. 处理和保存识别结果:提取识别结果并保存到文件或进行进一步处理

二、完整代码

python 复制代码
import fitz  # PyMuPDF
import os
from paddleocr import PaddleOCR, draw_ocr
import cv2
import numpy as np
from PIL import Image

# 初始化 PaddleOCR
ocr = PaddleOCR(use_angle_cls=True, lang="ch")  # 使用中文语言模型


def pdf_to_images(pdf_path, output_folder):
    """
    将 PDF 文件的每一页转换为图像
    :param pdf_path: PDF 文件路径
    :param output_folder: 输出图像的文件夹路径
    """
    pdf_doc = fitz.open(pdf_path)
    for page_number in range(len(pdf_doc)):
        page = pdf_doc[page_number]
        image = page.get_pixmap(
            matrix=fitz.Matrix(2, 2), alpha=False
        )  # 可以调整缩放比例
        image_path = os.path.join(output_folder, f"page_{page_number + 1}.png")
        image.save(image_path)
    pdf_doc.close()


def recognize_text(image_path):
    """
    使用 PaddleOCR 进行文字识别
    :param image_path: 图像路径
    :return: 识别结果
    """
    image = cv2.imread(image_path)
    result = ocr.ocr(image, cls=True)
    return result


def process_images_in_folder(image_folder, output_file):
    """
    处理指定文件夹中的所有图像,并将结果保存到文件
    :param image_folder: 包含图像的文件夹路径
    :param output_file: 输出文件路径
    """
    with open(output_file, "w", encoding="utf-8") as f:
        for filename in os.listdir(image_folder):
            if filename.endswith(".png"):
                image_path = os.path.join(image_folder, filename)
                result = recognize_text(image_path)
                if result is not None:
                    for line in result[0]:
                        f.write(line[1][0] + "\n")


# 示例:将 PDF 转换为图像并处理图像
pdf_path = "cqgl.pdf"
output_folder = "pdfimg"
os.makedirs(output_folder, exist_ok=True)
pdf_to_images(pdf_path, output_folder)

# 示例:处理输出图像文件夹中的所有图像并保存结果
output_file = "recognized_text.txt"
process_images_in_folder(output_folder, output_file)

三、 注意事项

  1. 字体文件:如果需要绘制识别结果,确保指定的字体文件路径有效。

  2. 图像质量:确保转换后的图像质量足够高,以便 PaddleOCR 能够准确识别。

  3. 多语言支持:如果 PDF 中包含多种语言,可以调整 PaddleOCR 的lang参数来支持多语言识别。

相关推荐
DanCheng-studio13 小时前
网安毕业设计简单的方向答疑
python·毕业设计·毕设
轻抚酸~14 小时前
KNN(K近邻算法)-python实现
python·算法·近邻算法
独行soc15 小时前
2025年渗透测试面试题总结-264(题目+回答)
网络·python·安全·web安全·网络安全·渗透测试·安全狮
汤姆yu16 小时前
基于python的外卖配送及数据分析系统
开发语言·python·外卖分析
如何原谅奋力过但无声16 小时前
TensorFlow 1.x常用函数总结(持续更新)
人工智能·python·tensorflow
翔云 OCR API16 小时前
人脸识别API开发者对接代码示例
开发语言·人工智能·python·计算机视觉·ocr
AndrewHZ17 小时前
【图像处理基石】如何在图像中提取出基本形状,比如圆形,椭圆,方形等等?
图像处理·python·算法·计算机视觉·cv·形状提取
温轻舟18 小时前
Python自动办公工具05-Word表中相同内容的单元格自动合并
开发语言·python·word·自动化办公·温轻舟
习习.y19 小时前
python笔记梳理以及一些题目整理
开发语言·笔记·python
撸码猿19 小时前
《Python AI入门》第10章 拥抱AIGC——OpenAI API调用与Prompt工程实战
人工智能·python·aigc