python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
西西弗Sisyphus1 天前
如果让计算机理解人类语言- Word2Vec(Word to Vector,2013)
人工智能·word·word2vec
心之语歌2 天前
Java poi-tl 使用 word 模板 生成 word
java·开发语言·word
wh39332 天前
使用Python将PDF转换成word、PPT
python·pdf·word
bu_shuo4 天前
word表格中使用公式
word·表格
不坑老师4 天前
利用不坑盒子的Copilot,快速排值班表
microsoft·word·powerpoint·excel·copilot·wps
开开心心就好4 天前
批量PDF转换工具,一键转换Word Excel
开发语言·前端·学习·pdf·电脑·word·excel
RainSerein5 天前
Laravel8中使用phpword生成word文档
word·php·laravel
qq_393828225 天前
办公文档批量打印器 Word、PPT、Excel、PDF、图片和文本,它都支持批量打印。
windows·word·powerpoint·excel·软件需求
_oP_i15 天前
实现 “WebView2 获取word选中内容
开发语言·c#·word
LENG_Lingliang15 天前
word出现由WPS切换后公式异常无法删除的情况处理
word·wps·mathtype