手机屏幕上的OCR识别方案

今天要讲的这个技术方案,能用到人会觉得真有用,用不到的人会觉得真没用。这个方案就是采用python实现将安卓手机屏幕上的部分内容转为文字。效果如下:

就算是包含公式或者表格也可以识别:

有类似需求的人,自然能看到商机。比如采集APP排名,或者自动做题等等。不过,今天我仅仅从技术上说是如何实现的。

要想实现这个功能,首先要获得屏幕上的内容。那么,我们肯定想到的是截屏。现在智能手机基本上都有一个截屏功能。比如在华为手机上,敲击两下屏幕就能取得当前图像。

如果用代码去实现,只需一行命令,手机系统截屏也是这样做的:

bash 代码解读复制代码adb shell screencap -p /sdcard/screenshot.png

这行命令实现了截取手机当前屏幕,并将图片保存,文件名为screenshot.png。而python调用命令的代码更简单,仅仅就是os.system("命令语句")。

不过,想要执行adb命令,需要一些工具支持。因此得去如下地址下载platform-tools这套工具:

ini 代码解读复制代码https://developer.android.google.cn/tools/releases/platform-tools?hl=zh-cn

打开页面之后,选择适合自己系统的内容下载。

下载解压之后,可以先测试一下。将安卓手机插上数据线,打开允许USB调试模式。然后进入解压目录,我的是放在C盘根目录下,运行adb devices就可以看到已连接的手机情况。

上面的情况表示有一部设备已连接。

有了这个环境,那么我们通过python代码就可以轻松获取截图了。

bash 代码解读复制代码# 执行截屏并保存命令

os.system("C:/platform-tools/adb shell screencap -p /sdcard/screenshot.png")

将保存的截图从手机复制到电脑中

os.system("C:/platform-tools/adb pull /sdcard/screenshot.png "+img_path)

两句代码,一句是截屏保存,另一个句是拷贝截图到电脑。img_path是电脑的存放图片的路径。我设置的是在项目根目录下的img文件夹下,文件名为时间戳。

目前获得的图片是手机的全屏,当然这个也能识别。但是,现实中我们希望能再次编辑。比如仅仅识别某一部分。

因此,我们需要用python的tkinter写一个界面操作。当鼠标按下时记录起点,鼠标移动时绘制路径,鼠标抬起时记录终点并裁剪图片。

以下是界面主框架代码:

python 代码解读复制代码if name == 'main':

# 鼠标左键按下时x, y坐标
left_mouse_down_x, left_mouse_down_y = 0, 0
sole_rectangle = None # 画出的矩形
target = f"{BASE_DIR}{os.sep}img"
w_flag = True
clip_img_path = ""

while w_flag:

    win = tk.Tk()
    win.title("手机截屏转文字") 
    frame = tk.Frame()
    frame.pack()

    button = tk.Button(frame, text = "截屏", command=win.destroy)
    button.pack(side="left", padx=10, pady=8)

    button = tk.Button(frame, text = "识别", command=ocr)
    button.pack(side="left", padx=10, pady=8)

    button = tk.Button(frame, text = "退出", command=exit)
    button.pack(side="left", padx=50, pady=8)

    image = Image.open(img_path)
    image_x, image_y = image.size
    img = ImageTk.PhotoImage(image)
    
    canvas = tk.Canvas(win, width=image_x, height=image_y, bg='white')
    i = canvas.create_image(0, 0, anchor='nw', image=img)
    canvas.pack(padx=10, pady=10)
    
    canvas.bind('<Button-1>', left_mouse_down) # 鼠标左键按下
    canvas.bind('<ButtonRelease-1>', left_mouse_up) # 鼠标左键释放
    canvas.bind('<Button-3>', right_mouse_down) # 鼠标右键按下
    canvas.bind('<ButtonRelease-3>', right_mouse_up) # 鼠标右键释放
    canvas.bind('<B1-Motion>', moving_mouse) # 鼠标左键按下并移动

    win.mainloop()

下面是鼠标的各类操作:

python 代码解读复制代码# 鼠标左键按下事件

def left_mouse_down(event):

global left_mouse_down_x, left_mouse_down_y

记录按下的坐标,赋值给全局变量

left_mouse_down_x = event.x

left_mouse_down_y = event.y

鼠标左键按下并移动

def moving_mouse(event):

global sole_rectangle # 绘制的矩形

鼠标按下的x,y

global left_mouse_down_x, left_mouse_down_y

moving_mouse_x = event.x

moving_mouse_y = event.y

如果原来画过矩形,删除前一个矩形,绘制出新的

if sole_rectangle is not None:

canvas.delete(sole_rectangle)

sole_rectangle = canvas.create_rectangle(left_mouse_down_x, left_mouse_down_y, moving_mouse_x,moving_mouse_y, outline='red')

鼠标左键抬起事件

def left_mouse_up(event):

global clip_img_path

# 记录抬起时的坐标,鼠标左键抬起时x,y坐标
left_mouse_up_x = event.x
left_mouse_up_y = event.y
# 通过抬起的点减去按下的点,比划矩形,计算出宽和高
width = left_mouse_up_x - left_mouse_down_x
height = left_mouse_up_y - left_mouse_down_y
# 如果宽高太小,有可能是点击了一下,或者想放弃这次操作
if width < 20 or height < 20:
    print("size is to small")
    return
# 保存文件
corp_image = image.crop((left_mouse_down_x, left_mouse_down_y, left_mouse_up_x, left_mouse_up_y))
corp_image.save(clip_img_path)

这样我们就实现了一个从截屏上画图裁剪的功能:

下一步要做的,就是将裁剪选取的小图片交给OCR服务去识别。

这OCR该如何选型呢?是该自研还是调用第三方?

需要看需求!如果我们的OCR识别在一百个字符以内,而且自己拥有数据,建议自研。因此这类小场景,自研的话成本不高,而且准确率会比用第三方还要高。就比如LED数字屏幕的识别,或者水表、电表仪器的识别,这类适合自己做。

但是,如果你想要识别大场景,就比如汉字识别。这里面涉及众多标点符号、繁简字体,它会有上万个字符。这时我们很难凑足那么多数据。而且近似字符很多,需要做矫正,也有技术难度。因此,选用第三方的服务,反而成本更低。

我们这次要识别的内容,不但包含中英文、甚至还有公式。那这必须要使用第三方。第三方OCR服务多了去了,基本上每家都有,我们随便选一家就好。就比如阿里的OCR。

选哪一个场景也看你的需求。有通用的识别,也有专用的识别。因为我有识别文字和公式的需求,因此选择教育场景里的题目识别。

关于题目识别的介绍如下:

bash 代码解读复制代码https://duguang.aliyun.com/experience?type=edu\&subtype=question_ocr#intro

阿里的文档还是挺好的,提供了多种对接方式。不过,还是需要先开通服务才行。每个月有200次免费额度。

我开通了。

然后创建AccessKey。

拿着AccessKey就可以调用服务了。关于调用的代码,官方也提供了详细的文档和示例:

ini 代码解读复制代码https://next.api.aliyun.com/api/ocr-api/2021-07-07/RecognizeEduQuestionOcr?sdkStyle=dara\&tab=DEMO\&lang=PYTHON

我们只需要将key换成自己的就行。调用后,接口会返回识别到的内容。拿到识别的内容,显示出来就可以了。

总结起来,就两步。第一步截屏保存,第二步识别显示。

至于作用嘛,就是开头说的。用到的会说有用,用不到的确实没用。因为这点功能,是很多扫描软件附带的能力。

如果咱们只是偶尔用几次,那么随便找一个软件更合适。但是如果我们经常用,又有个性化需求,需要批量操作,或者后续操作想自动化,那么自己开发会有更多可控制的地方。

最后再看一下综合效果。

相关推荐
老艾的AI世界5 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
sp_fyf_20249 小时前
【大语言模型】ACL2024论文-19 SportsMetrics: 融合文本和数值数据以理解大型语言模型中的信息融合
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理
CoderIsArt9 小时前
基于 BP 神经网络整定的 PID 控制
人工智能·深度学习·神经网络
z千鑫9 小时前
【人工智能】PyTorch、TensorFlow 和 Keras 全面解析与对比:深度学习框架的终极指南
人工智能·pytorch·深度学习·aigc·tensorflow·keras·codemoss
EterNity_TiMe_9 小时前
【论文复现】神经网络的公式推导与代码实现
人工智能·python·深度学习·神经网络·数据分析·特征分析
思通数科多模态大模型10 小时前
10大核心应用场景,解锁AI检测系统的智能安全之道
人工智能·深度学习·安全·目标检测·计算机视觉·自然语言处理·数据挖掘
数据岛10 小时前
数据集论文:面向深度学习的土地利用场景分类与变化检测
人工智能·深度学习
学不会lostfound11 小时前
三、计算机视觉_05MTCNN人脸检测
pytorch·深度学习·计算机视觉·mtcnn·p-net·r-net·o-net
红色的山茶花11 小时前
YOLOv8-ultralytics-8.2.103部分代码阅读笔记-block.py
笔记·深度学习·yolo
白光白光11 小时前
凸函数与深度学习调参
人工智能·深度学习