python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
CodeCraft Studio1 小时前
国产化Word处理控件Spire.Doc教程:通过C# 删除 Word 文档中的超链接
开发语言·c#·word
小小Ruby5 小时前
利用vba替换word中多个表格,相邻单元格的文字
word
T0uken1 天前
【前端】:单 HTML 去除 Word 批注
前端·html·word
诸葛大钢铁1 天前
WORD压缩两个免费方法
word
KingCruel1 天前
NPOI 操作 Word 文档
word
小可的科研日常2 天前
保持Word中插入图片的清晰度
word
小码ssim2 天前
通过POI实现对word基于书签的内容替换、删除、插入
java·word
一把年纪学编程3 天前
【牛马技巧】word统计每一段的字数接近“字数统计”
前端·数据库·word
爱吃零食的白糖3 天前
word换行符和段落标记
word
Etincelle4 天前
【LaTeX】Word插入LaTeX行间公式如何编号和对齐
word·wps·latex