PDF 文件中的文本链接是如何定义的?

在查看 PDF 文件时,你可能会注意到其中有 蓝色的可点击链接,类似于网页中的超链接。这些链接在 PDF 中有两种定义方式:

1. 由 PDF 查看器自动生成的链接

一些 PDF 查看器会 自动识别页面上的文本,如果文本以 "http://" 或 "www." 开头,它们会 自动添加超链接。

但需要注意:

1 这种链接 并不存储在 PDF 文件本身,而是 查看器的临时解析结果。

2 不同的 PDF 查看器 处理方式不同,有的会识别多行 URL,而有的可能不会。

3 这种方法 不够精准,容易出现遗漏或错误。

2. PDF 文件中实际存在的链接

PDF 文件 可以包含真正的超链接,但这些链接 不是存储在文本中,而是作为 Annotations(注释对象) 存储的。这些注释对象是 PDF 文件中的独立对象,由 PDF 查看器渲染并绘制到页面上。

PDF 文件中的 Annotation(注释对象)

在 每个 PDF 页面 上,可能会有一个 注释对象列表(如果没有注释对象,则此列表为空)。注释对象使 PDF 能够支持 动画、交互、超链接 等功能。

PDF 有 多种类型的 Annotation(注释对象),但这里我们主要关注 /Subtype 为 Link 的注释对象(即超链接)。

PDF 超链接的原始数据示例

在 PDF 的内部数据中,链接可能如下所示:

23 0 obj<<

/F 4 /A<</URI(http://www.jpedal.org/link.html)/Type/Action/S/URI>>

/BS<</W 0>>

/Subtype/Link

/StructParent 1

/Rect[60.72 684 86.88 696]

>>

endobj

关键字段解析

1 /Subtype:

1 指定了注释的类型,这里是 "Link"(超链接)。

2 PDF 还支持 视频、音频、表单、弹出注释 等其他类型的注释。

2

/Rect:

1 这是 PDF 坐标,定义了一个 矩形区域。

2 当用户点击该区域时,超链接将被激活。

/A(Action):

1 这里定义了 链接的具体动作。

2 在这个示例中,/A 字段指向 一个 URL(http://www.jpedal.org/link.html)。

3 PDF 查看器会 在浏览器中打开该链接。

如何提取 PDF 文件中的超链接?

超链接数据可以 直接从 Annotation(注释对象)中提取。这正是我们的 JPedal 所提供的功能之一。

正如前文提到的:

1 PDF 的文本和超链接是分开存储的,因此要解析页面文本,必须 解析整个 PDF 页面。

2 由于 PDF 的 存储方式复杂,无法直接通过坐标精确定位文本,必须 解析整个页面内容 才能确定超链接周围的文本信息。

我们的主页:PDF 转 HTML5、Java 图像库、Java PDF SDK - IDRsolutions

相关推荐
李慕婉学姐6 小时前
【开题答辩过程】以《基于JAVA的校园即时配送系统的设计与实现》为例,不知道这个选题怎么做的,不知道这个选题怎么开题答辩的可以进来看看
java·开发语言·数据库
zhongvv7 小时前
8位应广单片机与32位M0单片机开发差异总结
经验分享·单片机·嵌入式硬件
奋进的芋圆8 小时前
Java 延时任务实现方案详解(适用于 Spring Boot 3)
java·spring boot·redis·rabbitmq
sxlishaobin8 小时前
设计模式之桥接模式
java·设计模式·桥接模式
model20058 小时前
alibaba linux3 系统盘网站迁移数据盘
java·服务器·前端
荒诞硬汉8 小时前
JavaBean相关补充
java·开发语言
提笔忘字的帝国8 小时前
【教程】macOS 如何完全卸载 Java 开发环境
java·开发语言·macos
2501_941882489 小时前
从灰度发布到流量切分的互联网工程语法控制与多语言实现实践思路随笔分享
java·开发语言
華勳全栈9 小时前
两天开发完成智能体平台
java·spring·go
alonewolf_999 小时前
Spring MVC重点功能底层源码深度解析
java·spring·mvc