如何将 PDF 文件中的文本提取为 YAML(教程)

这篇博客文章将向你展示如何将 PDF 转换为 YAML,通过提取带有结构标签的标记内容来实现。

什么是结构化 PDF?

一些 PDF 文件包含结构化内容,也称为带标签(tagged)或标记内容(marked content),这是一种语义信息,为文件的结构提供了意义。这类似于 HTML,文本被标签包裹,这些标签指示了文本的含义。

什么是 YAML?

YAML 是一种数据序列化格式,与 JSON 类似,因此在系统之间传输内容时非常有用。

与 JSON 和 XML 等其他标记语言相比,YAML 的一个关键区别在于:YAML 使用缩进而不是括号或标签来定义层级结构。

我可以将 PDF 转换为 YAML 吗?

如果一个 PDF 文件包含标记内容(如何判断?),那么你就可以处理这些结构标签并生成 YAML 输出。

我们的 PDF 库 JPedal 支持将带标签的 PDF 转换为 YAML 格式。你可以使用以下代码片段实现这一功能:

ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();

properties.setFileOutputMode(OutputModes.YAML);

ExtractStructuredText.

writeAllStructuredTextOutlinesToDir("inputFile.pdf", password, "outputFolder", null, null);

下载 Jar 包

如果你对 PDF 有更深入的兴趣,欢迎阅读我们的其他文章------我们已经与这种格式打交道超过十年!

我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

相关推荐
落魄江湖行16 分钟前
基础篇一 Java 有了 int 为什么还要 Integer?它们到底差在哪?
java·面试·八股文
LiLiYuan.1 小时前
【Java 6种线程状态】
java·开发语言
ICT_SOLIDWORKS2 小时前
SOLIDWORKS Composer 工业动画制作零基础教程
软件工程·composer
itzixiao2 小时前
L1-047 装睡 (5分)[java][python]
java·开发语言·python
chutao2 小时前
EasyPDF 转图片(EasyPdf2Image)—— 本地安全实用的PDF与图片双向互转工具
安全·职场和发展·pdf·创业创新·学习方法
用户298698530142 小时前
不用无头浏览器,Java 如何将 HTML 转成图片?
java·后端
Chengbei112 小时前
红队专属Bing Dork自动化工具,敏感信息侦察效率拉满、自动生成可视化信息泄露审计报告
java·人工智能·安全·web安全·网络安全·自动化·系统安全
花舞月咏潭2 小时前
日监测报表自动生成
经验分享
海绵宝宝的月光宝盒3 小时前
2-非金属材料
经验分享·笔记·学习·其他·职场和发展·课程设计·制造
敖正炀3 小时前
集合-Set深入解析
java