使用python把图片转为word

工作中有很多场景需要我们把图片转换为word,这里提供一个思路,但是准确率和商用的比不了,只供参考。

步骤:

1.)安装Tesseract OCR,参考如下文章。

https://blog.csdn.net/xhmico/article/details/137671583?fromshare=blogdetail&sharetype=blogdetail&sharerId=137671583&sharerefer=PC&sharesource=qq_36652525&sharefrom=from_link

2.)编写python代码

python 复制代码
import os
import pytesseract
from PIL import Image
from PIL import ImageFile
import docx
from docx.oxml.ns import qn
# pip install opencv-python  -i https://pypi.tuna.tsinghua.edu.cn/simple
# pip install pytesseract  -i https://pypi.tuna.tsinghua.edu.cn/simple

pytesseract.pytesseract.tesseract_cmd = r'D:\swordTool\TesseractOcr\tesseract.exe'
ImageFile.LOAD_TRUNCATED_IMAGES = True
Image.MAX_IMAGE_PIXELS = None
text = pytesseract.image_to_string(Image.open(r"D:/swordTool/devTool/pycharm/pyWorkSpace/PicToWord/test2.png"), lang='chi_sim+eng')
doc = docx.Document()        # 创建一个新的word文档
doc.add_paragraph(text)     # 往文档里添加识别出来的文字
doc.add_page_break()        # 添加分页符,等于在word里按多了一次Ctrl+Enter

# 下面两行设置了文档字体全篇为宋体,缺一行不可
doc.styles['Normal'].font.name = u'宋体'
doc.styles['Normal']._element.rPr.rFonts.set(qn('w:eastAsia'), u'宋体')
doc.save(os.getcwd() + '\\test.docx')  # 保存文档
相关推荐
直奔標竿5 小时前
SpringAI + RAG + MCP + Agent 零基础全栈实战(完结篇)| 27课完整汇总,Java开发者AI转型必看
java·开发语言·人工智能·spring boot·后端·spring
2601_956139425 小时前
政府事业机构品牌策划公司哪家专业
大数据·人工智能·python
Jmayday6 小时前
Pytorch:AI歌词生成器
人工智能·pytorch·python
枫叶林FYL6 小时前
项目八 云资源成本优化与治理平台
后端·python·自然语言处理·flask
reasonsummer6 小时前
【教学类-160-13】20260422 AI视频培训-练习013“豆包AI视频《师幼互动》+豆包图片风格:CG动画”
开发语言·python
曹牧6 小时前
Java:处理 HTTP 请求的 Content-Type
java·开发语言
AI技术增长6 小时前
Pytorch图像去噪实战(八):Noise2Void盲点网络图像去噪实战,只有单张带噪图也能训练
人工智能·pytorch·python
才兄说6 小时前
机器人二次开发机器狗巡检?路径覆盖率100%
python
隔壁大炮6 小时前
Day07-RNN层(循环网络层)
人工智能·pytorch·python·rnn·深度学习·神经网络·计算机视觉