python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
开开心心就好1 天前
Word转PDF工具,免费生成图片型文档
前端·网络·笔记·pdf·word·powerpoint·excel
艺杯羹1 天前
解决 Word四大烦:消标记、去波浪线、关首字母大写、禁中文引号
word·文档·1024程序员节·word技巧
程序员陆通2 天前
Cursor配置markdown转Word的MCP工具教程
word
shandianchengzi2 天前
【经验】Word/WPS|用邮件合并批量填写表格或教案,单个Word导出成多个文件
word·wps·邮件·办公·邮件合并
zstar-_2 天前
FreeP2W:一个PDF转Word的CLI工具
pdf·word
JXL18603 天前
CS224N-Lecture01-Word Vectors
nlp·word
java_logo3 天前
Docker 部署 WordPress 全流程
运维·docker·容器·word·php·1024程序员节
Red Red3 天前
本科/硕士毕业论文格式修改大全|word格式修改
word
離離原上譜3 天前
python-docx 安装与快速入门
python·word·python-docx·自动化办公·1024程序员节