用python实现提取word中的所有图片

你可以使用python-docx库来处理word文件,然后遍历文件中的所有形状,找到图片。

首先,你需要安装python-docx库。在命令行中输入以下命令进行安装:

复制代码

复制代码

|---|---------------------------|
| | pip install python-docx |

然后,你可以使用以下代码提取word文件中的所有图片:

复制代码

python复制代码

|---|---------------------------------------------|
| | from docx import Document |
| | from docx.shared import Inches |
| | |
| | def extract_images(filename): |
| | # 加载word文件 |
| | doc = Document(filename) |
| | |
| | # 存储图片路径的列表 |
| | image_paths = [] |
| | |
| | # 遍历文件中的所有形状 |
| | for shape in doc.shapes: |
| | # 如果形状是图片,则添加到列表中 |
| | if shape.has_image: |
| | image_paths.append(shape.image.filename) |
| | |
| | return image_paths |

这个函数会返回一个列表,其中包含word文件中所有图片的路径。

请注意,这个函数只能提取word文件中嵌入的图片,无法提取链接的图片。如果你需要提取链接的图片,你可能需要使用更复杂的工具或库,如python-docx的高级版python-docx-image-to-data。

相关推荐
ShineWinsu1 小时前
对于C++:继承的解析—上
开发语言·数据结构·c++·算法·面试·笔试·继承
小付同学呀2 小时前
C语言学习(五)——输入/输出
c语言·开发语言·学习
梦幻精灵_cq2 小时前
学C之路:不可或缺的main()主函数框架(Learn-C 1st)
c语言·开发语言
哈里谢顿2 小时前
Django 应用 OOM(Out of Memory)故障的定位思路和排查方法
python·django
消失的旧时光-19432 小时前
C++ 多线程与并发系统取向(二)—— 资源保护:std::mutex 与 RAII(类比 Java synchronized)
java·开发语言·c++·并发
甄心爱学习3 小时前
【python】获取所有长度为 k 的二进制字符串
python·算法
福大大架构师每日一题3 小时前
go-zero v1.10.0发布!全面支持Go 1.23、MCP SDK迁移、性能与稳定性双提升
开发语言·后端·golang
tuotali20263 小时前
氢气压缩机技术规范亲测案例分享
人工智能·python
嫂子的姐夫4 小时前
030-扣代码:湖北图书馆登录
爬虫·python·逆向
五阿哥永琪4 小时前
1. 为什么java不能用is开头来做布尔值的参数名,会出现反序列化异常。
java·开发语言