python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
belldeep4 小时前
python:markdown + python-docx 将 Markdown 文件格式转为 Word 文档
python·word·markdown·docx
gc_22996 小时前
学习C#调用OpenXml操作word文档的基本用法(16:学习文档脚注类)
word·openxml·脚注
Fighting_p8 小时前
【预览word文档】使用插件 docx-preview 预览线上 word 文档
开发语言·c#·word
薛定谔的猫-菜鸟程序员11 小时前
基于Node.js+Pandoc实现Markdown文件无损转换为Word文档的小工具
node.js·word·vim
森森-曦21 小时前
在word中如何设置从第二页开始页码编号
word
爱学习 爱分享1 天前
word中批量替换
word
selina89211 天前
word中脚注编号如何设置不显示?
word
叫我莫言鸭1 天前
关于word生成报告的POI学习
学习·word
AscendKing1 天前
java poi word首行插入文字
java·c#·word
旺仔nai糖1 天前
关于重装word后endnote无法正常使用的问题
word