使用python把图片转为word

工作中有很多场景需要我们把图片转换为word,这里提供一个思路,但是准确率和商用的比不了,只供参考。

步骤:

1.)安装Tesseract OCR,参考如下文章。

https://blog.csdn.net/xhmico/article/details/137671583?fromshare=blogdetail&sharetype=blogdetail&sharerId=137671583&sharerefer=PC&sharesource=qq_36652525&sharefrom=from_link

2.)编写python代码

python 复制代码
import os
import pytesseract
from PIL import Image
from PIL import ImageFile
import docx
from docx.oxml.ns import qn
# pip install opencv-python  -i https://pypi.tuna.tsinghua.edu.cn/simple
# pip install pytesseract  -i https://pypi.tuna.tsinghua.edu.cn/simple

pytesseract.pytesseract.tesseract_cmd = r'D:\swordTool\TesseractOcr\tesseract.exe'
ImageFile.LOAD_TRUNCATED_IMAGES = True
Image.MAX_IMAGE_PIXELS = None
text = pytesseract.image_to_string(Image.open(r"D:/swordTool/devTool/pycharm/pyWorkSpace/PicToWord/test2.png"), lang='chi_sim+eng')
doc = docx.Document()        # 创建一个新的word文档
doc.add_paragraph(text)     # 往文档里添加识别出来的文字
doc.add_page_break()        # 添加分页符,等于在word里按多了一次Ctrl+Enter

# 下面两行设置了文档字体全篇为宋体,缺一行不可
doc.styles['Normal'].font.name = u'宋体'
doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
doc.save(os.getcwd() + '\\test.docx')  # 保存文档
相关推荐
Monly212 分钟前
Java:修改打包配置文件
java·开发语言
AALoveTouch6 分钟前
大麦网协议分析
javascript·python
我命由我1234524 分钟前
Android 广播 - 静态注册与动态注册对广播接收器实例创建的影响
android·java·开发语言·java-ee·android studio·android-studio·android runtime
ZH154558913124 分钟前
Flutter for OpenHarmony Python学习助手实战:自动化脚本开发的实现
python·学习·flutter
island131432 分钟前
CANN ops-nn 算子库深度解析:核心算子(如激活函数、归一化)的数值精度控制与内存高效实现
开发语言·人工智能·神经网络
xcLeigh41 分钟前
Python入门:Python3 requests模块全面学习教程
开发语言·python·学习·模块·python3·requests
xcLeigh41 分钟前
Python入门:Python3 statistics模块全面学习教程
开发语言·python·学习·模块·python3·statistics
YongCheng_Liang1 小时前
从零开始学 Python:自动化 / 运维开发实战(核心库 + 3 大实战场景)
python·自动化·运维开发
鸽芷咕1 小时前
为什么越来越多开发者转向 CANN 仓库中的 Python 自动化方案?
python·microsoft·自动化·cann
秋邱1 小时前
用 Python 写出 C++ 的性能?用CANN中PyPTO 算子开发硬核上手指南
开发语言·c++·python