python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
熟悉的新风景17 小时前
word,wps使用技巧
word·wps
2601_9584925518 小时前
Webmaster Notes: Deploying HTML5 Word Environments
前端·word·html5
wujian83111 天前
AI表格怎么导出word
人工智能·ai·word·豆包·deepseek·ai导出鸭
zh路西法1 天前
【Word自动目录使用指南】告别手动修改格式,一次设置成功!
word
软件富二代1 天前
— 批量转换Word题库到Excel的小工具
电脑·word·excel·排版·软件
gc_22993 天前
学习C#调用OpenXml操作word文档的基本用法(31:学习图形类-1)
word·openxml·run·drawing
XMJ20024 天前
解决包含visio图的Word文档转PDF后部分文字消失问题的一种方法
pdf·word
tedcloud1234 天前
OfficeCLI部署教程:让AI直接操作Word、Excel和PPT
服务器·人工智能·word·excel
才疏学浅7435 天前
批量下载鹏程实验室数据的方法
java·开发语言·word
开开心心就好5 天前
免费开源的网课教学屏幕画板工具
windows·eureka·计算机外设·word·excel·etcd·csdn开发云