(教程)用 Java 从 PDF 中提取嵌入的文件

PDF 文件有时会引用外部资源,例如图片或其他文档。为了增强这些 PDF 文件的可移植性和便于归档,可以将这些资源嵌入到 PDF 文件中。这些嵌入的资源被称为附件或嵌入文件。

如果你想通过 Java 提取 PDF 中的嵌入文件,需要使用第三方库,因为 Java 本身并不支持对 PDF 文件的直接处理。

在本教程中,我们将使用JPedal 库

如何通过编程方式从 PDF 中提取嵌入的文件

  • 将 JPedal 添加到项目的类路径或模块路径中(可以从官网下载试用版jar 文件
  • 运行以下代码:

ExtractEmbeddedFiles.extractAllFilesFromPdf("inputFile.pdf", "outputFolder");

如何使用命令行从 PDF 中提取嵌入的文件

  • 将 JPedal 添加到类路径或模块路径中(可以从官网下载试用版jar 文件
  • 运行以下命令:

java -cp jpedal.jar org.jpedal.examples.acroform.ExtractEmbeddedFiles inputFile.pdf outputFolder

更多学习资源

如果你希望进一步了解 PDF 格式的知识,可以阅读我们其他的相关文章。如果想了解某个特定的 PDF 术语,我们的PDF术语表涵盖了常见术语的详细解释。

相关推荐
OpenC++1 分钟前
【C++QT】Layout 布局管理控件详解
c++·经验分享·qt·leetcode
木昜先生6 分钟前
知识点:深入理解 JVM 内存管理与垃圾回收
java·jvm·后端
115432031q9 分钟前
基于SpringBoot+Vue实现的旅游景点预约平台功能十三
java·前端·后端
战族狼魂13 分钟前
基于SpringBoot+PostgreSQL+ROS Java库机器人数据可视化管理系统
java·spring boot·postgresql
半个脑袋儿20 分钟前
Java线程控制: sleep、yield、join深度解析
java
小智疯狂敲代码24 分钟前
Spring MVC-DispatcherServlet 的源码解析
java·面试
int0x0325 分钟前
Java中的内存"瘦身术":揭秘String Deduplication
java
半个脑袋儿25 分钟前
Java日期格式化中的“YYYY”陷阱:为什么跨年周会让你的年份突然+1?
java·后端
A达峰绮33 分钟前
设计一个新能源汽车控制系统开发框架,并提供一个符合ISO 26262标准的模块化设计方案。
大数据·开发语言·经验分享·新能源汽车
CHQIUU39 分钟前
Java 设计模式心法之第25篇 - 中介者 (Mediator) - 用“中央协调”降低对象间耦合度
java·设计模式·中介者模式