python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
呆萌的代Ma29 分钟前
Cursor实现用excel数据填充word模版的方法
word·excel
空中湖21 小时前
文档极速转换器 - 免费批量Word转PDF工具
pdf·word
东方佑1 天前
使用 Python 自动化 Word 文档样式复制与内容生成
python·自动化·word
wqqqianqian3 天前
国产linux系统(银河麒麟,统信uos)使用 PageOffice在线编辑word文件保存数据同时保存文件
linux·word·信创·国产·保存·pageoffice·在线编辑
余子桃3 天前
Python实现markdown文件转word
python·word·markdown
一只特立独行的兔先森3 天前
WordZero:让Markdown与Word文档自由转换的Golang利器
golang·word·word自动化
CodeCraft Studio3 天前
文档处理组件Aspose.Words 25.5全新发布 :六大新功能与性能深度优化
word·aspose·aspose.words·word文档转换
weixin_472339463 天前
python批量解析提取word内容到excel
python·word·excel
俱会一处3 天前
将word文件转为kindle可识别的azw3文件的方法
word
cccl.4 天前
Java在word中指定位置插入图片。
java·word