python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
骆驼爱记录1 天前
Python打包命令全攻略
自动化·word·excel·新人首发
Charlie_lll1 天前
LibreOffice 实现 Word 转 PDF
java·spring boot·pdf·word
我的Doraemon1 天前
word 批量处理公式方案
word
不坑老师2 天前
小工具显出大才能——不坑盒子为教育数字化转型贡献“新方案”
microsoft·word·excel·ppt·office
骆驼爱记录2 天前
Python程序打包全攻略
自动化·word·excel·wps·新人首发
骆驼爱记录2 天前
Excel绿色箭头秒消指南
开发语言·自动化·word·新人首发
wtsolutions2 天前
WPS数据写入Word模版文档,批量生成文档
word·wps
response_L2 天前
PageOffice动态给word插入二维码(或条形码)图片
vue·word·开发工具·二维码·在线编辑
半空扫地僧一枚3 天前
解决word分栏问题
word
jiayong233 天前
Word表格高级应用指南
word