python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
裤裤兔1 天前
利用VBA批处理word 文档,使用宏对docx文件内容进行批量替换
c#·word·.net··vba·office·宏操作
gc_22991 天前
学习C#调用FreeSpire.Doc包将Word转换为html
c#·html·word·freespire.doc
gc_22992 天前
学习C#调用Microsoft.Office.Interop.Word将Word转换为html
c#·html·word·interop.word
梵克之泪2 天前
根据表格内容和模板文件批量创建word文件,一次性生成多个word文档和批量生成创建PDF文件
pdf·word
栗子~~3 天前
java-根据word模板灵活生成word文档-demo
java·开发语言·word
B博士3 天前
Word中Endnote引用参考文献时正文引用处字体如何标蓝色呢?
word·endnote·引用显示蓝色
RQ_ghylls4 天前
2.excel每3行计算一个均值,将高于均值的单元格设置背景红色
算法·均值算法·word·excel
我叫汪枫4 天前
Python 办公自动化入门:玩转 Excel 与 Word
python·word·excel
E_ICEBLUE4 天前
三步完成 Markdown 到 Word/PDF 的转换:Python 教程
python·pdf·word·markdown·格式转换
小马哥编程5 天前
word多级列表中,级别1为:模块一; 那么如何实现级别2编号的格式为:1.1
word