文档ocr

主要对图片进行预处理,然后调用ocr接口

1,灰度图

复制代码
gray=cv.cvtColor(image,cv.COLOR_BGR2GRAY)

2,高斯去噪

复制代码
gray=cv.GaussianBlur(gray,(3,3),0)

3,边缘检测

复制代码
edged=cv.Canny(gray,60,260)

4,轮廓检测

复制代码
cnts=cv.findContours(edged.copy(),cv.RETR_EXTERNAL,cv.CHAIN_APPROX_SIMPLE)[0]

5,查找轮廓面积最大的五个

复制代码
cnts=sorted(cnts,key=cv.contourArea,reverse=True)[:5]

6,近似轮廓,调整其形状

复制代码
screenCnts=[]
#遍历轮廓
for c in cnts:
    peri=cv.arcLength(c,True)
    approx=cv.approxPolyDP(c,0.02*peri,True)
    # cv.drawContours(image,[approx],-1,(0,255,0),1)
    # cv_show(image)
    if len(approx)==4:
        screenCnts.append(approx)
复制代码

7,透视变换

先对应好四个角点的坐标,然后按四边形的最长宽和长将多边形拉成矩形,最后利用变换矩阵进行透视变换

复制代码
#透视变换
#对应每个坐标
def order_points(pts):
    #一共4个坐标点
    rect=np.zeros((4,2),dtype="float32")

    #j计算左上,右下
    #x+y
    s=pts.sum(axis=1)
    rect[0]=pts[np.argmin(s)]
    rect[2]=pts[np.argmax(s)]

    #计算右上和左下
    #x-y
    diff=np.diff(pts,axis=1)
    rect[1]=pts[np.argmin(diff)]
    rect[3]=pts[np.argmax(diff)]

    return rect

def four_point_transform(img,pts):
    #获取坐标点
    rect=order_points(pts)
    (tl,tr,br,bl)=rect

    #计算输入的w和h值,选择四边形中的最长宽和长作为矫正后矩形的宽和长
    widthA=np.sqrt(((br[0]-bl[0])**2)+((br[1]-bl[1])**2))
    widthB=np.sqrt(((tr[0]-tl[0])**2)+((tr[1]-tl[1])**2))
    maxwidth=max(int(widthA),int(widthB))

    heightA=np.sqrt(((bl[0]-tl[0])**2)+((bl[1]-tl[1])**2))
    heightB=np.sqrt(((br[0]-tr[0])**2)+((br[1]-tr[1])**2))
    maxheight=max(int(heightA),int(heightB))

    #变换后对应坐标坐标
    dst=np.array([
        [0,0],
        [maxwidth-1,0],
        [maxwidth-1,maxheight-1],
        [0,maxheight-1]],dtype="float32"
    )

    #计算变换矩阵
    M=cv.getPerspectiveTransform(rect,dst)
    warped=cv.warpPerspective(img,M,(maxwidth,maxheight))

    return warped


for (i,sc) in enumerate(screenCnts):
    warped = four_point_transform(orig, sc.reshape(4,2)*ratio)
    cv_show(warped)
    warped=cv.cvtColor(warped,cv.COLOR_BGR2GRAY)
    # cv_show(warped)
    ref=cv.threshold(warped,190,255,cv.THRESH_BINARY)[1]
    cv_show(ref)
    cv.imwrite(f'./data/reciept/scan{i+1}.jpg',ref)

8,调用ocr

复制代码
import cv2
import pytesseract
from PIL import Image

# 基本识别
text = pytesseract.image_to_string(Image.open('./data/reciept/scan1.jpg'))
print(text)

img=cv2.imread('./data/reciept/scan1.jpg')
cv2.imshow('image',img)
cv2.waitKey(0)
cv2.destroyAllWindows()
相关推荐
Sour2 天前
PDF翻译卡住不动怎么办?扫描件、OCR 和大文件排查清单
前端·pdf·ocr
旗讯数字3 天前
旗讯 OCR 工业手写识别解决方案|破解车间纸质表单录入难题,加速生产数字化转型
大数据·ocr
XTIOT6663 天前
多形态护照 OCR 读取器传输机制、识别算法与行业落地技术对比
大数据·人工智能·嵌入式硬件·物联网·ocr
天天代码码天天3 天前
用 TensorRT 加速 PP-OCR:一套 C++ DLL + C# 调用的高性能 OCR 推理方案
c++·c#·ocr
2401_885665193 天前
基于OpenCV的模板匹配OCR实战:银行卡与身份证数字识别完整教程
人工智能·python·opencv·计算机视觉·ocr
东集Seuic3 天前
食品标签新规 GB 7718-2025 倒计时:产线“首件检验”如何用东集小码哥CRUISE Ge2-M跑通 OCR 智能核对?
大数据·人工智能·ocr
小鹏linux4 天前
鸿蒙PC迁移:Tesseract OCR C++ 三方库鸿蒙适配全记录
c++·ocr·harmonyos
开开心心就好4 天前
自动生成小学数学题库支持导出Word
人工智能·安全·leetcode·贪心算法·ocr·音视频·语音识别
FL16238631295 天前
基于C#winform使用纯opencv部署ppocrv5和ppocrv6的onnx模型进行OCR文件检测识别
opencv·c#·ocr
AI人工智能+5 天前
智能文档抽取系统以专业的文档解析底座和大模型智能语义理解能力为核心,洞察文档的语义内涵与逻辑结构
深度学习·自然语言处理·ocr·文档抽取