python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
蝈蝈噶蝈蝈噶20 小时前
poi-tl填充柱状图折线图无法指定y坐标轴导致重复数据
java·word
gc_229921 小时前
学习C#调用OpenXml操作word文档的基本用法(35:学习图形类-5)
word·openxml·图表·drawing
weixin_416660071 天前
Gemini 里的公式怎么转到 Word?保留公式、表格和排版的方法
word
诸葛大钢铁1 天前
知网CAJ格式文件如何转为Word/PDF?CAJ转Word的三个免费方法
pdf·word·知网·caj·caj转word
gc_22992 天前
学习C#调用OpenXml操作word文档的基本用法(34:学习图形类-4)
word·openxml·anchor·浮动式布局
yuhulkjv3352 天前
腾讯元宝公式粘贴word乱码
人工智能·chatgpt·word·deepseek·ai导出鸭
hef2883 天前
Java读取Word图片坐标的两种方法
java·开发语言·word
OEC小胖胖3 天前
ChatGPT导出Word怎么做?Chat2File 安装与使用教程
chatgpt·word·效率工具·ai工具·浏览器扩展
庖丁AI3 天前
合同比对工具怎么选?Word、PDF 和扫描件差异对比思路
pdf·word
你挚爱的强哥3 天前
【样式问题】将当前word所有文字样式、字体、字号大小 全局设置为以后任何一个新的空白文档都共享使用
word