【OCR】合同上批量贴印章

一、需求

OCR算法在处理合同等文件时,会由于印章等遮挡导致文本误识别。因此在OCR预处理时,有一个很重要的步骤是"去除印章"。其中本文主要聚焦在"去除印章"任务中的数据构建步骤:"合同+伪印章"的数据构建。下面直接放几张批量合成后效果。

二、原理实现

合成合同印章的步骤有三个"随机"需要控制。1.印章样式需要"随机";2.印章"随机"角度、位置贴在合同上的;3.合同版面色泽需要"随机"。

2.1 随机印章样式

我采用的是第三方接口,这里借鉴了这位大佬方法二的思路:【Python】实现公章自动化生成以及自动盖章效果-CSDN博客,实现批量生成。主要的调用思路是,通过调用第三方印章生成网址跑批生成。

python 复制代码
def func_get_stamp_png(name,use,seal_type):
	# 定义API的地址
	out_put_name =  os.path.join(seal_output_path,name+".png")
	url = "http://www.yinzhang8.com.cn/seal/index.php?name={}&str={}&type={}".format(str(name),str(use),str(seal_type))
	# 发送HTTP请求
	response = requests.get(url)
	assert response.status_code == 200
	assert 1<=types<=4
	# 将返回的二进制数据保存为本地文件
	with open(out_put_name, "wb") as f:
		f.write(response.content)

然而第三方网址需要公司名,这里我采用的是faker库,随机生成公司名然后去调用跑批。代码如下。这里公司长度一般在[8,11]字长范围较合适

python 复制代码
    #批量随机生成公司名
    def get_faker_company(self,n,control_len):
        # 一般公司名的字长范围为,限制 control_len = [8,11]
        from faker import Faker
        my_fake = Faker("zh-CN")
        comany_list = set()
        while len(comany_list) < n:
            tmp_company = my_fake.company()
            if control_len[0]<=len(tmp_company)<=control_len[1]:
                comany_list.add(tmp_company)
        return list(comany_list)

2.2 随机印章位置角度

在贴上合同的时候,需要用PIL的paste函数中的position来实现控制位置,随机角度需要采用PIL.Image库首先将印章完成旋转,然后再贴上去。部分代码如下。

python 复制代码
 # 随机选择一个倾斜角度
angle = random.randint(-15, 15)
watermark = watermark.rotate(angle)
python 复制代码
# 计算印章可以放置的位置范围
x_range = [int(doc_width * 0.2),int(doc_width * 0.8)]
y_range = [int(doc_height * 0.5),int(doc_height * 0.9)]
# 随机选择一个位置
x_position = random.randint(x_range[0], x_range[1])
y_position = random.randint(y_range[0], y_range[1])
watermark = watermark.resize((int(doc_width*0.1),int(doc_height*0.1)))
# 将水印添加到基本图像
base_image.paste(watermark, (x_position,y_position), watermark)

2.3 随机合同样式

这部分考虑到,由于是做图像复原任务,所以在torch里做比较好,对image和label做同一个转换,就能保持图像前后的一致性。

三、秀效果

随便贴张图,展现效果。全部源码传送门:coming soon。

相关推荐
AI人工智能+5 小时前
表格识别技术:通过深度学习方法,实现精准还原纸质表格的结构、内容与格式,并直接导出为可编辑的Excel文件
ocr·表格识别
沟通qq 19226386 小时前
PCA-RF:主成分分析与随机森林的高效分类组合
ocr
2501_930799248 小时前
数据安全新选择:访答本地知识库的隐私守护之道
人工智能·aigc·ocr
219914 小时前
中文OCR产品与多模态大模型OCR能力选型报告
ocr
技术小甜甜14 小时前
[Python] 使用 Tesseract 实现 OCR 文字识别全流程指南
开发语言·python·ocr·实用工具
wang60212521814 小时前
OCR服务-本地打包docker+docker下载ssh调试
docker·ssh·ocr
小白狮ww15 小时前
当 OCR 模型开始「理解整页文档」:HunyuanOCR 的端到端之路
人工智能·深度学习·机器学习·ocr·文字识别·文档处理·腾讯混元
2501_941982051 天前
结合 AI 视觉:使用 OCR 识别企业微信聊天记录中的图片信息
人工智能·ocr·企业微信
AI人工智能+2 天前
承兑汇票识别技术;融合OCR、深度学习和NLP的多模态智能系统,可实现秒级高精度识别
深度学习·ocr·承兑汇票识别
sali-tec3 天前
C# 基于halcon的视觉工作流-章70 深度学习-Deep OCR
开发语言·人工智能·深度学习·算法·计算机视觉·c#·ocr