从Word/PDF/PPT/Excel批量提取图片：工具使用记录

琪伦的工具库2026-04-02 9:26

最近需要从一批混合格式的文档（Word、PDF、PPT、Excel）里批量提取内嵌图片，记录一下使用【批量提取文档图片】工具的过程。

公司有几百份产品文档，格式混杂，需要把所有文档里的产品图片提取出来建立素材库。手动操作不现实，需要批量处理方案。

文档格式：DOCX、PDF、PPTX、XLSX（需要对应的Python库，工具会自动检测是否支持）

图片格式过滤：可以只提取指定格式的图片（JPG/PNG/BMP/GIF/TIFF），或提取所有格式。

图片去重：基于MD5哈希判断，内容完全相同的图片只保存一份。对于有大量重复图片的文档集合（比如每份文档都有公司logo），这个功能能显著减少输出文件数量。

最小宽高过滤：设置最小宽度和最小高度，低于阈值的图片自动跳过。这个参数对于过滤文档里的小图标、装饰图、分隔线非常有用。我的经验是设最小宽度200px，能过滤掉大部分无用的小图片。

输出目录结构：每个文档的图片单独放在以文档名命名的子文件夹里。如果文件夹名重复，会自动加数字后缀。

测试文件：200份DOCX + 50份PDF + 30份PPTX，总大小约3GB

参数：最小宽度200px，图片去重开启，4线程

结果：

去重和尺寸过滤合计过滤掉了约38%的图片，素材库质量明显提升。