如何将 PDF 文件中的文本提取为 YAML(教程)

这篇博客文章将向你展示如何将 PDF 转换为 YAML,通过提取带有结构标签的标记内容来实现。

什么是结构化 PDF?

一些 PDF 文件包含结构化内容,也称为带标签(tagged)或标记内容(marked content),这是一种语义信息,为文件的结构提供了意义。这类似于 HTML,文本被标签包裹,这些标签指示了文本的含义。

什么是 YAML?

YAML 是一种数据序列化格式,与 JSON 类似,因此在系统之间传输内容时非常有用。

与 JSON 和 XML 等其他标记语言相比,YAML 的一个关键区别在于:YAML 使用缩进而不是括号或标签来定义层级结构。

我可以将 PDF 转换为 YAML 吗?

如果一个 PDF 文件包含标记内容(如何判断?),那么你就可以处理这些结构标签并生成 YAML 输出。

我们的 PDF 库 JPedal 支持将带标签的 PDF 转换为 YAML 格式。你可以使用以下代码片段实现这一功能:

ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();

properties.setFileOutputMode(OutputModes.YAML);

ExtractStructuredText.

writeAllStructuredTextOutlinesToDir("inputFile.pdf", password, "outputFolder", null, null);

下载 Jar 包

如果你对 PDF 有更深入的兴趣,欢迎阅读我们的其他文章------我们已经与这种格式打交道超过十年!

我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

相关推荐
Knight_AL2 分钟前
阿里《Java 开发手册》下的对象构建与赋值规范实践
java·开发语言
步步为营DotNet15 分钟前
深入理解.NET 中的IHostedService:后台任务管理的基石
java·网络·.net
独自破碎E39 分钟前
Leetcode862和至少为K的最短子数组
java·开发语言
To Be Clean Coder42 分钟前
【Spring源码】getBean源码实战(二)
java·后端·spring
帅次1 小时前
新年快乐:软件架构设计的软件架构概述、软件架构建模、软件架构风格
软件工程·软件构建·需求分析·代码规范·设计规范·规格说明书·代码复审
washingtin1 小时前
Get “https://registry-1.docker.io/v2/“: context deadline exceeded
java·开发语言
一路往蓝-Anbo1 小时前
C语言从句柄到对象 (七) —— 给对象加把锁:RTOS 环境下的并发安全
java·c语言·开发语言·stm32·单片机·嵌入式硬件·算法
月巴月巴白勺合鸟月半1 小时前
几种 HTML 转 PDF的方式
pdf·c#
利刃大大1 小时前
【SpringBoot】validation参数校验 && JWT鉴权实现 && 加密/加盐
java·spring boot·jwt·加密
北岛寒沫1 小时前
北京大学国家发展研究院 经济学辅修 经济学原理课程笔记(第十四课 寡头)
经验分享·笔记·学习