python提取word文本和word图片

提取文本

docx只支持docx格式,所以如果想读取doc需要另存为docx格式即可

复制代码
import docx # pip3 install python-docx
复制代码
doc = docx.Document('three.docx')
for paragraph in doc.paragraphs:
    print(paragraph.text)

提取图片

复制代码
import zipfile
import os, re
复制代码
# docx本质上也是个压缩文件,使用zip我们就可以看到所有图片都被保存到了word/media里边
# 我们将该文件夹下的数据获取即可
with zipfile.ZipFile('one.zip', 'r') as zip_ref:
    for name in zip_ref.namelist():
        if len(re.findall(r'^word/media/', name)) > 0:
            zip_ref.extract(name, '')
相关推荐
ew452181 天前
【JAVA】实现word的DOCX/DOC文档内容替换、套打、支持表格内容替换。
java·开发语言·word
Echo flower1 天前
使用Java将HTML内容转换为Word文档
java·html·word
木头软件2 天前
批量将 Word 文档重命名为其标题
开发语言·c#·word
CodeCraft Studio3 天前
国产化Word处理组件Spire.DOC教程:使用Python将文件自动化批量附加到 Word文档
python·自动化·word·spire.doc·文档自动化·word文档中添加附件·文档批量处理
东方佑3 天前
使用Python实现Word文档与JSON格式双向转换:完整教程与代码解析
python·json·word
wtsolutions3 天前
Sheet-to-Doc: Automate Document Generation with Excel Data and Word Templates
word·excel·wtsolutions
jayson.h3 天前
word宏批量插入.csv格式的附件
windows·word
大卡拉米3 天前
前端组件库 PDF、word、Excel预览
前端·pdf·word
m5655bj4 天前
使用 C# 设置 Word 段落对齐样式
开发语言·c#·word
TextIn智能文档云平台4 天前
如何将公司内部知识库(Word/PDF)接入大模型?
pdf·word