最近需要从一批混合格式的文档(Word、PDF、PPT、Excel)里批量提取内嵌图片,记录一下使用【批量提取文档图片】工具的过程。
需求背景
公司有几百份产品文档,格式混杂,需要把所有文档里的产品图片提取出来建立素材库。手动操作不现实,需要批量处理方案。
工具支持的格式
文档格式:DOCX、PDF、PPTX、XLSX(需要对应的Python库,工具会自动检测是否支持)
图片格式过滤:可以只提取指定格式的图片(JPG/PNG/BMP/GIF/TIFF),或提取所有格式。

关键参数说明
图片去重:基于MD5哈希判断,内容完全相同的图片只保存一份。对于有大量重复图片的文档集合(比如每份文档都有公司logo),这个功能能显著减少输出文件数量。
最小宽高过滤:设置最小宽度和最小高度,低于阈值的图片自动跳过。这个参数对于过滤文档里的小图标、装饰图、分隔线非常有用。我的经验是设最小宽度200px,能过滤掉大部分无用的小图片。
输出目录结构:每个文档的图片单独放在以文档名命名的子文件夹里。如果文件夹名重复,会自动加数字后缀。
实测数据
测试文件:200份DOCX + 50份PDF + 30份PPTX,总大小约3GB
参数:最小宽度200px,图片去重开启,4线程
结果:
- 处理耗时:约25分钟
- 提取图片总数:8,432张
- 去重后保留:5,217张
- 跳过(尺寸过小):2,891张
去重和尺寸过滤合计过滤掉了约38%的图片,素材库质量明显提升。
适用场景
- 从产品文档批量提取产品图片
- 从培训材料批量提取图表和截图
- 从合同/报告批量提取附件图片
- 建立文档图片素材库