python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
leoufung17 小时前
题目介绍:LeetCode 79. Word Search
leetcode·word·深度优先
不坑老师2 天前
在Word、PPT中一键制作汉字笔顺分解步骤效果,自定义格子颜色、多种效果~
microsoft·word·powerpoint·wps·office
打小就很皮...4 天前
前端 Word 导出:自定义页眉表格的实现方案
前端·word·react·页眉设置
CodeCraft Studio4 天前
国产化Word处理组件Spire.DOC教程:通过Python将HTML转换为TXT文本
python·html·word·python编程·spire.doc·html转txt
Full Stack Developme4 天前
Java实现Word、Excel、PDF文件 在线预览
java·word·excel
清纯世纪6 天前
word设置的正文样式,按回车后变成了样式格式
word
ELI_He9996 天前
WPS制作论文三线表
word·论文
坚定信念,勇往无前6 天前
vue3图片,pdf,word,excel,ppt多格式文件预览组件Vue Doc Viewers Plus
pdf·word·excel
qq_296544657 天前
在怎么编辑PDF?专业级pdf转换教程,PDF在线编辑,Word转PDF使用方法
microsoft·pdf·word
jameszjd7 天前
解决WPS word主选项卡审阅栏消失问题
word·wps