python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
lpfasd12317 小时前
Tauri vs Electron:高质量Word/PDF导出效果深度对比
electron·pdf·word
骆驼爱记录2 天前
WPS文档标题一键加形状
自动化·word·excel·wps·新人首发
还不秃顶的计科生3 天前
wps/word单倍行距加入公式空白间隙仍然很大?
word·wps
Archer-4 天前
mathtype的右编号灰色
word
2501_907136825 天前
图片转word文档
word·软件需求
github.com/starRTC6 天前
Claude Code中英文系列教程35:通过API使用Skills创建ppt,word文档和pdf
pdf·word·powerpoint·ai编程
我在这里呀8 天前
免费在线PDF翻译工具(保留排版,可导出Word)
pdf·word
❀͜͡傀儡师8 天前
Vue+SpringBoot 集成 PageOffice实现在线编辑 Word、Excel 文档
vue.js·spring boot·word
weixin_449173658 天前
java使用poi保存表格和图片到word文件中
java·开发语言·word
lczdyx9 天前
告别付费与隐私泄露!用Pandoc在本地免费、安全地将Markdown转为Word(保姆级教程)
安全·职场和发展·word·办公·自由职业者