使用python把图片转为word

工作中有很多场景需要我们把图片转换为word,这里提供一个思路,但是准确率和商用的比不了,只供参考。

步骤:

1.)安装Tesseract OCR,参考如下文章。

https://blog.csdn.net/xhmico/article/details/137671583?fromshare=blogdetail&sharetype=blogdetail&sharerId=137671583&sharerefer=PC&sharesource=qq_36652525&sharefrom=from_link

2.)编写python代码

python 复制代码
import os
import pytesseract
from PIL import Image
from PIL import ImageFile
import docx
from docx.oxml.ns import qn
# pip install opencv-python  -i https://pypi.tuna.tsinghua.edu.cn/simple
# pip install pytesseract  -i https://pypi.tuna.tsinghua.edu.cn/simple

pytesseract.pytesseract.tesseract_cmd = r'D:\swordTool\TesseractOcr\tesseract.exe'
ImageFile.LOAD_TRUNCATED_IMAGES = True
Image.MAX_IMAGE_PIXELS = None
text = pytesseract.image_to_string(Image.open(r"D:/swordTool/devTool/pycharm/pyWorkSpace/PicToWord/test2.png"), lang='chi_sim+eng')
doc = docx.Document()        # 创建一个新的word文档
doc.add_paragraph(text)     # 往文档里添加识别出来的文字
doc.add_page_break()        # 添加分页符,等于在word里按多了一次Ctrl+Enter

# 下面两行设置了文档字体全篇为宋体,缺一行不可
doc.styles['Normal'].font.name = u'宋体'
doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
doc.save(os.getcwd() + '\\test.docx')  # 保存文档
相关推荐
花酒锄作田15 小时前
Pydantic校验配置文件
python
hboot15 小时前
AI工程师第四课 - 深度学习入门
pytorch·python·神经网络
ZhengEnCi1 天前
P2M-Matplotlib折线图完全指南-从数据可视化到趋势分析的Python绘图利器
python·matlab·数据可视化
ZhengEnCi1 天前
P2L-Matplotlib饼图完全指南-从数据可视化到图表定制的Python绘图利器
python·matlab
曲幽1 天前
你的REST接口还在“过度投喂”数据吗?——FastAPI + GraphQL实战避坑指南
python·fastapi·web·graphql·route·cors·rest·strawberry
用户8358086187911 天前
基于 Self-RAG 与列表级重排序的进阶 RAG 系统设计与实现
python
Warson_L2 天前
Python `Annotated` 与 LangGraph Reducer 学习笔记
python
韩师傅2 天前
海天线算法的前世今生
python·计算机视觉
韩师傅2 天前
当你的甲方设备过烂,要如何快速出效果?
python·计算机视觉
Warson_L2 天前
LangGraph的MessageState and HumanMessage
python