python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
CNRio19 小时前
将word和excel快速转换为markdown格式
python·word·excel
玩泥巴的2 天前
.NET驾驭Word之力:基于规则自动生成及排版Word文档
c#·word·.net·com互操作
道之极万物灭2 天前
Python操作word实战
开发语言·python·word
跳动的喵尾巴4 天前
Endnote | word中加载项消失不见,如何处理?
word
夜白宋4 天前
【word多文档docx合并】
java·word
Uluoyu6 天前
word、pdf文档内容提取工具类
java·pdf·word
sanshizhang6 天前
word文档转pdf开源免费,可自定义水印
pdf·开源·word
lijingguang7 天前
excel和word文件默认用office打开而不是用wps
word·excel·wps
Uluoyu7 天前
支持Word (doc/docx) 和 PDF 转成一张垂直拼接的长PNG图片工具类
java·pdf·word
VBAMatrix7 天前
报告工具更新!Word附注一键期末转期初
word·办公自动化·审计报告·审计·会计师事务所·报告工具·word附注