python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
funnycoffee1239 小时前
word vba提取所有表格到1个新的文档中
数据库·word
阿蒙Amon3 天前
C#每日面试题-ref和out的区别
java·c#·word
SunnyDays10113 天前
如何使用 C# 创建、修改和删除 Word 中的 VBA 宏(无需Microsoft Word)
c#·word·创建vba宏·修改vba宏·删除vba宏
星star~3 天前
使用Free Marker导出word类型,并压缩
java·后端·word
缺点内向3 天前
如何在 C# 中移除 Word 文档中的分页符
c#·自动化·word·.net
骆驼爱记录4 天前
Word样式检查器使用指南
自动化·word·excel·wps·新人首发
缺点内向6 天前
C#: 告别繁琐!轻松移除Word文档中的文本与图片水印
c#·自动化·word·.net
徐小夕@趣谈前端6 天前
拒绝重复造轮子?我们偏偏花365天,用Vue3写了款AI协同的Word编辑器
人工智能·编辑器·word
kingwebo'sZone6 天前
C#使用Aspose.Words把 word转成图片
前端·c#·word
科技D人生6 天前
Vue.js 学习总结(20)—— Vue-Office 实战:word、pdf、excel、ppt 多种文档的在线预览
vue.js·word·vue-pdf·stylesheet·docx-preview·vue-office