(教程)用 Java 从 PDF 中提取嵌入的文件

PDF 文件有时会引用外部资源,例如图片或其他文档。为了增强这些 PDF 文件的可移植性和便于归档,可以将这些资源嵌入到 PDF 文件中。这些嵌入的资源被称为附件或嵌入文件。

如果你想通过 Java 提取 PDF 中的嵌入文件,需要使用第三方库,因为 Java 本身并不支持对 PDF 文件的直接处理。

在本教程中,我们将使用JPedal 库

如何通过编程方式从 PDF 中提取嵌入的文件

  • 将 JPedal 添加到项目的类路径或模块路径中(可以从官网下载试用版jar 文件
  • 运行以下代码:

ExtractEmbeddedFiles.extractAllFilesFromPdf("inputFile.pdf", "outputFolder");

如何使用命令行从 PDF 中提取嵌入的文件

  • 将 JPedal 添加到类路径或模块路径中(可以从官网下载试用版jar 文件
  • 运行以下命令:

java -cp jpedal.jar org.jpedal.examples.acroform.ExtractEmbeddedFiles inputFile.pdf outputFolder

更多学习资源

如果你希望进一步了解 PDF 格式的知识,可以阅读我们其他的相关文章。如果想了解某个特定的 PDF 术语,我们的PDF术语表涵盖了常见术语的详细解释。

相关推荐
飛_1 小时前
解决VSCode无法加载Json架构问题
java·服务器·前端
YGY Webgis糕手之路4 小时前
OpenLayers 综合案例-轨迹回放
前端·经验分享·笔记·vue·web
木棉软糖4 小时前
一个MySQL的数据表最多能够存多少的数据?
java
程序视点4 小时前
Java BigDecimal详解:小数精确计算、使用方法与常见问题解决方案
java·后端
愿你天黑有灯下雨有伞4 小时前
Spring Boot SSE实战:SseEmitter实现多客户端事件广播与心跳保活
java·spring boot·spring
Java初学者小白5 小时前
秋招Day20 - 微服务
java
狐小粟同学6 小时前
JavaEE--3.多线程
java·开发语言·java-ee
KNeeg_6 小时前
Spring循环依赖以及三个级别缓存
java·spring·缓存
AI_Gump7 小时前
【AI阅读】20250717阅读输入
java·spring boot·spring
找不到、了8 小时前
Java排序算法之<插入排序>
java·算法·排序算法