python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
拾穗哥8 小时前
wps/word行距不正常调整
word·wps
重生之光头强下海当程序猿17 小时前
调整word中的序号格式(缩进,起始值,序号与文字的间距等
前端·css·word
Eiceblue2 天前
C# 中如何设置 Word 文档页面?(页面大小、边距、方向自动化控制)
c#·自动化·word·visual studio
热爱生活的五柒2 天前
Word 论文里参考文献经常在修改后错乱,如何解决
word
醉酒柴柴3 天前
word创建样式以后应用于所有新文件
开发语言·学习·c#·word
珞瑜·3 天前
Windows版Word如何启用保存时自动删除个人信息
word
DS随心转插件3 天前
ChatGPT或Gemini如何生成word文档
人工智能·ai·chatgpt·word·deepseek·ds随心转
白狐_7984 天前
【疑难杂症】Word 惊现“数字 7 消失术”:特定字体 GBK 编码下的渲染陷阱排查
word
热爱生活的五柒5 天前
为什么word里面没有墨迹公式,从哪找
word
yivifu5 天前
使用VBA区分简体中文段落和繁体中文段落的方法
word·excel·vba