如何将 PDF 文件中的文本提取为 YAML(教程)

这篇博客文章将向你展示如何将 PDF 转换为 YAML,通过提取带有结构标签的标记内容来实现。

什么是结构化 PDF?

一些 PDF 文件包含结构化内容,也称为带标签(tagged)或标记内容(marked content),这是一种语义信息,为文件的结构提供了意义。这类似于 HTML,文本被标签包裹,这些标签指示了文本的含义。

什么是 YAML?

YAML 是一种数据序列化格式,与 JSON 类似,因此在系统之间传输内容时非常有用。

与 JSON 和 XML 等其他标记语言相比,YAML 的一个关键区别在于:YAML 使用缩进而不是括号或标签来定义层级结构。

我可以将 PDF 转换为 YAML 吗?

如果一个 PDF 文件包含标记内容(如何判断?),那么你就可以处理这些结构标签并生成 YAML 输出。

我们的 PDF 库 JPedal 支持将带标签的 PDF 转换为 YAML 格式。你可以使用以下代码片段实现这一功能:

ExtractStructuredTextProperties properties = new ExtractStructuredTextProperties();

properties.setFileOutputMode(OutputModes.YAML);

ExtractStructuredText.

writeAllStructuredTextOutlinesToDir("inputFile.pdf", password, "outputFolder", null, null);

下载 Jar 包

如果你对 PDF 有更深入的兴趣,欢迎阅读我们的其他文章------我们已经与这种格式打交道超过十年!

我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

相关推荐
晚安里7 分钟前
Spring 框架(IoC、AOP、Spring Boot) 的必会知识点汇总
java·spring boot·spring
爱隐身的官人18 分钟前
新后端漏洞(上)- Aapache Tomcat AJP 文件包含漏洞(CVE-2020-1938)
java·tomcat·ajp
小强先森java25 分钟前
疯狂星期四文案网第61天运营日记
经验分享·新媒体运营·网站运营·疯狂星期四·疯狂星期四文案
@CLoudbays_Martin1129 分钟前
为什么动态视频业务内容不可以被CDN静态缓存?
java·运维·服务器·javascript·网络·python·php
四谎真好看42 分钟前
Java 学习笔记(进阶篇2)
java·笔记·学习
上官浩仁1 小时前
springboot ioc 控制反转入门与实战
java·spring boot·spring
Access开发易登软件1 小时前
Access开发导出PDF的N种姿势,你get了吗?
后端·低代码·pdf·excel·vba·access·access开发
叫我阿柒啊1 小时前
从Java全栈到前端框架:一位程序员的实战之路
java·spring boot·微服务·消息队列·vue3·前端开发·后端开发
mqiqe2 小时前
架构-亿级流量性能调优实践
java·架构
SunnyDays10112 小时前
如何在 C# 中将文本转换为 Word 以及将 Word 转换为文本
经验分享