pdf图片识别分类

文章目录

解析pdf数据

试了几种方法

fitz-get_image后面方法不适用,用pixmap分辨率低

用pypdf2版本低方法用不了

用pdf2image还要下依赖工具

用spire.pdf的SaveAsImage分辨率低,ExtractImages可以但运行慢

先用spire.pdf的ExtractImages吧

python 复制代码
from spire.pdf.common import ImageFormat
from spire.pdf import PdfDocument

# 从PDF文档提取图片,PDF文档的路径,存放图片的文件夹路径
def extract_images_from_pdf(file_path, output_folder):
    # 创建PdfDocument类的实例
    doc = PdfDocument()
    # 加载PDF文档
    doc.LoadFromFile(file_path)
    # 创建list来存储提取的图片
    images = []
    # 遍历文档的页面
    for i in range(doc.Pages.Count):
        # 获取当前页
        page = doc.Pages.get_Item(i)
        # 从页面提取图片并存储到list
        for img in page.ExtractImages():
            # print(img)
            images.append(img)
    # 将图片保存到指定文件夹
    for i, image in enumerate(images):
        image.Save(f"{output_folder}Image-{i+1}.jpg", ImageFormat.get_Jpeg())
    doc.Close()

# 调用函数实现从PDF提取图片
file_path = "副本.pdf"
output_folder = "tup/"
extract_images_from_pdf(file_path, output_folder)

ocr识别

试验几种方法paddleocr umiocr cnocr 微信截图等

识别效果都差不多 最先进的也就这样了,就用cnocr 运行效率高 其他更慢

调了调一些参数,发现不调还好一些

cnocr也和opencv一样不支持中文路径,直接用PIL读取传对象给cnocr就可以

python 复制代码
from cnocr import CnOcr # 识别
from PIL import Image
def ocr_cn(path): # 输入图片path
    img=Image.open(path)
    # print(img)
    r = ocr.ocr(img)
    t = []  # 文本
    for each in r:
        # print(each['text'])
        t.append(each['text'])
    # print(t)
    return t

分类方法

分类方法有基于规则、基于词频统计、nlp算法-朴素贝叶斯 textcnn什么的

一般数据量小就规则,一般数据量大也先用规则看看 一些能看到的共性可以直接提出来,剩下的再用AI学习

python 复制代码

分类完提示

用Tkinter或pyqt做窗口提示和交互

python 复制代码
## 分类完提示
import tkinter as tk
from tkinter import messagebox
root = tk.Tk()
root.withdraw()
messagebox.showinfo("提示", "程序运行完成!")
messagebox.showinfo("提示", "分类完成!"+'\n'+'分类成功 条'+'\n'+'分类失败 条')
相关推荐
故事和你9119 小时前
洛谷-数据结构1-1-线性表1
开发语言·数据结构·c++·算法·leetcode·动态规划·图论
脱氧核糖核酸__19 小时前
LeetCode热题100——53.最大子数组和(题解+答案+要点)
数据结构·c++·算法·leetcode
脱氧核糖核酸__19 小时前
LeetCode 热题100——42.接雨水(题目+题解+答案)
数据结构·c++·算法·leetcode
王老师青少年编程20 小时前
csp信奥赛C++高频考点专项训练之贪心算法 --【线性扫描贪心】:数列分段 Section I
c++·算法·编程·贪心·csp·信奥赛·线性扫描贪心
王老师青少年编程20 小时前
csp信奥赛C++高频考点专项训练之贪心算法 --【线性扫描贪心】:分糖果
c++·算法·贪心算法·csp·信奥赛·线性扫描贪心·分糖果
_日拱一卒20 小时前
LeetCode:2两数相加
算法·leetcode·职场和发展
py有趣20 小时前
力扣热门100题之零钱兑换
算法·leetcode
董董灿是个攻城狮20 小时前
Opus 4.7 来了,我并不建议你升级
算法
无敌昊哥战神21 小时前
【保姆级题解】力扣17. 电话号码的字母组合 (回溯算法经典入门) | Python/C/C++多语言详解
c语言·c++·python·算法·leetcode
脱氧核糖核酸__21 小时前
LeetCode热题100——238.除了自身以外数组的乘积(题目+题解+答案)
数据结构·c++·算法·leetcode