python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
缺点内向6 分钟前
在 C# 中为 Word 段落添加制表位:使用 Spire.Doc for .NET 实现高效排版
开发语言·c#·自动化·word·.net
星月前端17 分钟前
springboot中使用LibreOffice实现word转pdf(还原程度很高,可以配置线程并发!)
spring boot·pdf·word
qq_1715203520 分钟前
linux服务器springboot(docker)项目word转pdf中文乱码
linux·spring boot·docker·pdf·word
weixin_416660071 天前
AI 生成复杂公式在 Word 中乱码的原因与解决方案
ai·word·数学公式
缺点内向1 天前
Word 自动化处理:如何用 C# 让指定段落“隐身”?
开发语言·c#·自动化·word·.net
。puppy2 天前
SQL 注入整理
数据库·sql·word
gc_22992 天前
学习C#调用OpenXml操作word文档的基本用法(20:学习嵌入文件类)
c#·word·openxml·嵌入文档
Eiceblue2 天前
Vue文档编辑器(Word默认功能)示例
前端·vue.js·word
DS随心转小程序3 天前
deepseek导出word
人工智能·chatgpt·edge·word·deepseek·ds随心转
gc_22993 天前
学习C#调用OpenXml操作word文档的基本用法(19:学习文档页脚类)
c#·word·openxml·页脚·footerpart