PDFium 处理通用 `W` 数组的方式

文章目录

    • [PDFium 处理通用 `W` 数组的方式](#PDFium 处理通用 W 数组的方式)
      • [1. `W` 数组的结构与取值](#1. W 数组的结构与取值)
      • [2. PDFium 的通用处理逻辑](#2. PDFium 的通用处理逻辑)
      • 总结

PDFium 处理通用 W 数组的方式

W 数组结构不一定是 [1, 4, 1],PDFium 使用一套通用逻辑来处理各种情况。该逻辑的核心思想是:W 数组的三个值分别指定每个 XRef 条目中类型(Type)字段2(Field2)生成号(Generation Number) 的字节宽度,字段宽度为 0 时表示该字段在流中省略,使用默认值。解析器通过 WidthArray 存储这三个宽度值,并计算每个条目的总字节数,然后通过一个通用的 GetVarInt 函数来读取指定宽度的整数值。

1. W 数组的结构与取值

W 数组是一个包含三个整数的数组,如 [1 4 1],表示类型占 1 字节、字段2占 4 字节、生成号占 1 字节,每个条目共 6 字节。实际中,W 数组可能有各种组合,例如:

  • [0 4 1]: 类型字段宽度为 0,意味着流中不存储类型,应使用默认类型 1。
  • [1 2 1]: 字段2宽度为 2 字节,常用于对象数量较少的小文件。
  • [1 8 2]: 字段2宽度为 8 字节,用于支持超大文件中的偏移量。
  • [1 4 0]: 生成号字段宽度为 0,意味着生成号默认使用 0。
  • [0 8 0]: 类型字段默认 1,生成号默认 0,流中只存储一个 8 字节的字段2。

2. PDFium 的通用处理逻辑

PDFium 通过 LoadCrossRefV5 函数中的三段核心代码实现了对 W 数组的通用处理:

cpp 复制代码
// 从字典中读取 W 数组并存入 WidthArray
std::vector<uint32_t> WidthArray;
for (size_t i = 0; i < pArray->GetCount(); ++i)
    WidthArray.push_back(pArray->GetIntegerAt(i));
uint32_t totalWidth = WidthArray[0] + WidthArray[1] + WidthArray[2];

WidthArray 的每个值可以不同,totalWidth 是动态计算的。随后,GetVarInt 函数被用于解析条目中的整数值:

cpp 复制代码
uint32_t GetVarInt(const uint8_t* p, int32_t n) {
    uint32_t result = 0;
    for (int32_t i = 0; i < n; ++i)
        result = result * 256 + p[i];
    return result;
}

GetVarIntn 参数正是 WidthArray 中的某个值,如 WidthArray[0]WidthArray[1]WidthArray[2]。如果 n 为 0,函数不会执行循环,直接返回 result 的初始值 0。

在解析每个 XRef 条目时,PDFium 使用 WidthArray 来控制解析流程:

cpp 复制代码
const uint8_t* entrystart = segstart + j * totalWidth;
int32_t type = 1;
if (WidthArray[0])
    type = GetVarInt(entrystart, WidthArray[0]);

FX_FILESIZE field2 = GetVarInt(entrystart + WidthArray[0], WidthArray[1]);
int32_t gen = GetVarInt(entrystart + WidthArray[0] + WidthArray[1], WidthArray[2]);

这段代码的逻辑是:

  • 如果 WidthArray[0] 大于 0,则从流中读取 type;否则 type 保持默认值 1。
  • field2 的起始位置是 entrystart + WidthArray[0],读取的字节数是 WidthArray[1],值可以为 0。
  • gen 的起始位置是 entrystart + WidthArray[0] + WidthArray[1],读取的字节数是 WidthArray[2]

这意味着,只要按照 WidthArray 中指定的宽度去读取并解释每个字段,无论 W 数组是 [1,4,1][0,4,1] 还是其他组合,PDFium 都能正确解析。

总结

总结来说,PDFium 通过 动态解析 W 数组按字节流式读取使用通用整数转换 ,以及 对零宽度的字段使用默认值 的方式,实现了对任意 W 数组结构的通用处理,从而保证了其作为 PDF 解析库的兼容性。

如果对具体的字段默认值来源或者解析后的条目如何使用还有疑问,我们可以继续探讨。

相关推荐
lixinnnn.2 小时前
多源BFS:刺杀大使
算法·宽度优先
AI成长日志3 小时前
【笔面试算法学习专栏】堆与优先队列实战:力扣hot100之215.数组中的第K个最大元素、347.前K个高频元素
学习·算法·leetcode
北顾笙9803 小时前
day18-数据结构力扣
数据结构·算法·leetcode
阿Y加油吧3 小时前
LeetCode 中等难度 | 回溯法进阶题解:单词搜索 & 分割回文串
算法·leetcode·职场和发展
charliejohn3 小时前
计算机考研 408 数据结构 排序算法
数据结构
QH_ShareHub3 小时前
反正态分布算法
算法
王老师青少年编程3 小时前
csp信奥赛c++中的递归和递推研究
c++·算法·递归·递推·csp·信奥赛
Bczheng13 小时前
五.serialize.h中的CDataStream类
算法·哈希算法
小O的算法实验室3 小时前
2025年SEVC,考虑组件共享的装配混合流水车间批量流调度的多策略自适应差分进化算法,深度解析+性能实测
算法·论文复现·智能算法·智能算法改进