python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
星尘库8 小时前
在word中怎么把段落回车替换成空 删除空行
word
weixin_416660078 小时前
AI 导出 Word 不正规?10 类文档样式模板(可直接套用,含字体/字号/行距/缩进)
人工智能·word·论文·排版·数学公式
骆驼爱记录2 天前
Word侧边页码设置全攻略
前端·自动化·word·excel·wps·新人首发
遨游xyz2 天前
策略模式笔记
开发语言·word·bash
缺点内向2 天前
C#编程实战:如何为Word文档添加背景色或背景图片
开发语言·c#·自动化·word·.net
yuhulkjv3352 天前
ChatGPT和Gemini复制到word格式
chatgpt·word
gc_22992 天前
学习C#调用OpenXml操作word文档的基本用法(21:学习嵌入对象类)
c#·word·openxml·ole
骆驼爱记录3 天前
Word通配符技巧:高效文档处理指南
开发语言·c#·自动化·word·excel·wps·新人首发
骆驼爱记录3 天前
Word表格题注自动设置全攻略
开发语言·c#·自动化·word·excel·wps·新人首发
m5655bj3 天前
通过 C# 设置 Word 文档背景颜色、背景图
开发语言·c#·word