如何将 PDF 文件中的文本提取为 YAML(教程)

这篇博客文章将向你展示如何将 PDF 转换为 YAML,通过提取带有结构标签的标记内容来实现。

什么是结构化 PDF?

一些 PDF 文件包含结构化内容,也称为带标签(tagged)或标记内容(marked content),这是一种语义信息,为文件的结构提供了意义。这类似于 HTML,文本被标签包裹,这些标签指示了文本的含义。

什么是 YAML?

YAML 是一种数据序列化格式,与 JSON 类似,因此在系统之间传输内容时非常有用。

与 JSON 和 XML 等其他标记语言相比,YAML 的一个关键区别在于:YAML 使用缩进而不是括号或标签来定义层级结构。

我可以将 PDF 转换为 YAML 吗?

如果一个 PDF 文件包含标记内容(如何判断?),那么你就可以处理这些结构标签并生成 YAML 输出。

我们的 PDF 库 JPedal 支持将带标签的 PDF 转换为 YAML 格式。你可以使用以下代码片段实现这一功能:

ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();

properties.setFileOutputMode(OutputModes.YAML);

ExtractStructuredText.

writeAllStructuredTextOutlinesToDir("inputFile.pdf", password, "outputFolder", null, null);

下载 Jar 包

如果你对 PDF 有更深入的兴趣,欢迎阅读我们的其他文章------我们已经与这种格式打交道超过十年!

我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

相关推荐
Cherry的跨界思维2 分钟前
【AI测试全栈:质量】40、数据平权之路:Python+Java+Vue全栈实战偏见检测与公平性测试
java·人工智能·python·机器学习·ai测试·ai全栈·ai测试全栈
刀法如飞2 分钟前
从零手搓一个类Spring框架,彻底搞懂Spring核心原理
java·设计模式·架构设计
毕设源码-邱学长11 分钟前
【开题答辩全过程】以 基于java的办公自动化系统设计为例,包含答辩的问题和答案
java·开发语言
weixin1997010801612 分钟前
马可波罗 item_get - 获取商品详情接口对接全攻略:从入门到精通
java·大数据·人工智能
小北方城市网18 分钟前
Spring Boot 接口开发实战:RESTful 规范、参数校验与全局异常处理
java·jvm·数据库·spring boot·后端·python·mysql
千寻技术帮19 分钟前
10399_基于SpringBoot的智慧养老院管理系统
java·spring boot·后端·源码·安装·代码
sweetone21 分钟前
车行键车机(车载音响)DVD读碟故障小修
经验分享·音视频
m0_5649149224 分钟前
Altium Designer,AD如何修改原理图右下角图纸标题栏?如何自定义标题栏?自定义原理图模版的使用方法
java·服务器·前端
飞升不如收破烂~24 分钟前
# Spring Boot 跨域请求未到达后端问题排查记录
java·spring boot·后端
AllData公司负责人25 分钟前
【亲测好用】数据集成管理能力演示
java·大数据·数据库·开源