(教程)用 Java 从 PDF 中提取嵌入的文件

PDF 文件有时会引用外部资源,例如图片或其他文档。为了增强这些 PDF 文件的可移植性和便于归档,可以将这些资源嵌入到 PDF 文件中。这些嵌入的资源被称为附件或嵌入文件。

如果你想通过 Java 提取 PDF 中的嵌入文件,需要使用第三方库,因为 Java 本身并不支持对 PDF 文件的直接处理。

在本教程中,我们将使用JPedal 库

如何通过编程方式从 PDF 中提取嵌入的文件

  • 将 JPedal 添加到项目的类路径或模块路径中(可以从官网下载试用版jar 文件
  • 运行以下代码:

ExtractEmbeddedFiles.extractAllFilesFromPdf("inputFile.pdf", "outputFolder");

如何使用命令行从 PDF 中提取嵌入的文件

  • 将 JPedal 添加到类路径或模块路径中(可以从官网下载试用版jar 文件
  • 运行以下命令:

java -cp jpedal.jar org.jpedal.examples.acroform.ExtractEmbeddedFiles inputFile.pdf outputFolder

更多学习资源

如果你希望进一步了解 PDF 格式的知识,可以阅读我们其他的相关文章。如果想了解某个特定的 PDF 术语,我们的PDF术语表涵盖了常见术语的详细解释。

相关推荐
SYC_MORE几秒前
无需 OCR,多模态大模型如何“读懂” PDF?——基于 GLM-4V-Flash 的智能文档解析原理剖析
人工智能·pdf·ocr
Nan_Shu_6144 分钟前
学习:Java (1)
java·开发语言·学习
花花无缺8 分钟前
搞清‘’时区设置‘’以及Mysql的`DATETIME` 和 `TIMESTAMP`
java·mysql
曹牧9 分钟前
Java:String.startsWith 方法
java·开发语言
jiayong2311 分钟前
海外求职平台与策略指南
java·spring
SadSunset18 分钟前
(37)全注解式开发AOP
java·spring
秃然想通20 分钟前
Java多态完全指南:深入理解“一个接口,多种实现”
java·开发语言
掌心向暖RPA自动化21 分钟前
如何用影刀RPA自动化采集公号对标账号历史文章?(上篇) | 选题库+标题库+案例库搭建必备
经验分享·自动化·新媒体运营·影刀rpa
TT哇21 分钟前
Optional<T>
java·spring boot·java-ee
李拾叁的摸鱼日常29 分钟前
Java泛型基本用法与PECS原则详解
java·后端·面试