python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
weixin_4166600715 小时前
插件分享:将AI生成的数学公式无损导出为Word文档
人工智能·ai·word·论文·数学公式·deepseek
缺点内向19 小时前
C# 中如何从 URL 下载 Word 文档:基于 Spire.Doc 的高效解决方案
开发语言·c#·word
dyxal19 小时前
论文格式魔法全书:用Word通配符和宏一键完成专业排版
开发语言·word
wangbing11252 天前
将swagger在线文档转为word
microsoft·c#·word
kiki-bf2 天前
使用python把图片转为word
开发语言·python·word
开开心心_Every3 天前
Word转PDF工具,免费生成图片型文档
网络·笔记·pdf·word·powerpoint·excel·azure
dlhto3 天前
Markdown转Word操作指南
linux·centos·word
重生之光头强下海当程序猿4 天前
解决word中图像显示不全或者添加题注选项消失的问题
word
Array*4 天前
java实现word中插入附件(支持所有文件格式)
java·开发语言·word·poi·ole
艾上编程4 天前
第一章——办公自动化之Word报告自动生成:解放双手,高效创作
word