python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
萧鼎1 天前
深入解析 Python 的 Word 模板引擎:docxtpl 全面指南
开发语言·python·word
炒茄子1 天前
Word:解决关于目录中各级标题的点/前导符粗细大小样式不一的问题
word
缺点内向1 天前
C#: 如何自动化创建Word可填写表单,告别手动填写时代
c#·自动化·word
Knight_AL1 天前
docx4j vs LibreOffice:Java 中 Word 转 PDF 的性能实测
java·pdf·word
wtsolutions2 天前
Sheet-to-Doc实际应用案例:从邀请函到获奖通知
word
bu_shuo2 天前
将AI生成的数学公式正确复制到word中
人工智能·chatgpt·word·latex
为自己_带盐2 天前
在 Blazor Server 中集成 docx-preview.js 实现高保真 Word 预览
javascript·c#·word
公子如琢3 天前
在word方框中打√符号☑☒
word
筱歌儿4 天前
TinyMCE-----word表格本地图片转base64并上传
前端·word