python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
发际线的忧伤3 小时前
Word 的一个显示模式,页眉页脚数据丢失?
word
波尔德5 小时前
用nnunetv2跑通WORD数据集 详细记录
深度学习·计算机视觉·word
yiSty5 小时前
win10/win11安装Word、EXCEL、PPT、VISIO
word·powerpoint·excel
YuanYWRS18 小时前
word基础:关于处理插入身份证号等长串数字后,数字前面的字间距变宽的问题
word·长串数字·身份证号码
寂寞旅行2 天前
java敏感词过滤(sensitive-word)
java·开发语言·word
leoufung2 天前
Word Break:深度理解 DP 前缀结束点的核心思想
算法·word·动态规划
叫我莫言鸭3 天前
关于word生成报告的POI学习2循环标题内容
java·学习·word
教练、我想打篮球3 天前
127 apache poi3.11 写 word 中内嵌 表格换行的输出
word·excel·docx·换行
SiYuanFeng4 天前
【Word 排版】文本框/文字行间距异常偏大的解决方案
word
belldeep4 天前
python:markdown + python-docx 将 Markdown 文件格式转为 Word 文档
python·word·markdown·docx