python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
骆驼爱记录1 天前
WPS页码设置:第X页共Y-1页
自动化·word·excel·wps·新人首发
2301_816997881 天前
Word 清除格式的方法
word
微光feng2 天前
毕业论文word引用操作汇总
word·目录·公式·毕业论文·交叉引用·题注
2301_816997882 天前
Word 功能区与快速访问工具栏
word
halen3332 天前
Hellowordl: The Masters Tool for Word Puzzle Enthusiasts
word
lpfasd1232 天前
Markdown 导出 Word 文档技术方案
开发语言·c#·word
Cxiaomu2 天前
Python 文件解析: Excel / Word / PDF 的解析、处理、预览与下载
python·word·excel
bu_shuo2 天前
Word中插入文本内容控件并交叉引用
word·内容控件
缺点内向2 天前
C#中如何创建目录(TOC):使用Spire.Doc for .NET实现Word TOC自动化
c#·自动化·word·.net
2301_816997882 天前
Word 创建打开与保存文档
c#·word·xhtml