python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
小马哥编程20 小时前
word多级列表中,级别1为:模块一; 那么如何实现级别2编号的格式为:1.1
word
楚疏笃21 小时前
纯Python 实现 Word 文档转换 Markdown
python·word
心之伊始21 小时前
Java synchronized 锁升级全过程深度解析:从 Mark Word 到偏向锁、轻量级锁与重量级锁的 HotSpot 实现
java·开发语言·word
放飞自我的Coder1 天前
【html word富文本编辑器 gemini3pro】
html·word
renzao_ai2 天前
10秒完成WORD表格添加序号列
word
快乐的韭菜根根3 天前
Word进阶
word
黄色茶杯3 天前
解决WPS的word文件嵌入EXCEL无法双击打开
word·excel·wps
gc_22994 天前
学习C#调用OpenXml操作word文档的基本用法(7:Style类分析-5)
学习·word·openxml
Kuo-Teng4 天前
LeetCode 139: Word Break
java·算法·leetcode·职场和发展·word·动态规划
python_DONG4 天前
word中怎么查看插入的图片占用内存大小来压缩word文件整体大小
word