414. Java 文件操作基础 - 批量压缩与索引:将154首十四行诗高效存储为带目录的二进制文件

文章目录

  • [414. Java 文件操作基础 - 批量压缩与索引:将154首十四行诗高效存储为带目录的二进制文件](#414. Java 文件操作基础 - 批量压缩与索引:将154首十四行诗高效存储为带目录的二进制文件)
  • [📚 写入所有 Sonnet](#📚 写入所有 Sonnet)
    • [🎯 核心思路](#🎯 核心思路)
    • [✅ 示例代码](#✅ 示例代码)
    • [🔍 代码解析](#🔍 代码解析)
    • [📌 使用示例](#📌 使用示例)
    • [🚀 总结](#🚀 总结)

414. Java 文件操作基础 - 批量压缩与索引:将154首十四行诗高效存储为带目录的二进制文件

📚 写入所有 Sonnet

前面我们已经学会了如何压缩 单个 Sonnet 。但是莎士比亚总共有 154 首 Sonnet,我们需要把它们都写到一个二进制文件里,方便后续统一存储和读取。

问题是:如果把所有 Sonnet 压缩后直接拼接到一个文件里,后续怎么知道每一首的 位置(offset)长度(length) 呢?

👉 答案是:我们需要额外存储一个"目录表",告诉程序每首诗的起始位置和长度。


🎯 核心思路

最终生成的文件结构如下:

java 复制代码
-----------------------------------
|  Number of sonnets (int)        |
|  Offset[0] (int)                |
|  Length[0] (int)                |
|  Offset[1] (int)                |
|  Length[1] (int)                |
|  ...                            |
|  Offset[n-1] (int)              |
|  Length[n-1] (int)              |
-----------------------------------
|  Compressed sonnets bytes array |
-----------------------------------
  • Number of sonnets → 一共有多少首
  • Offset, Length → 每首 Sonnet 在压缩字节数组中的位置和大小
  • Compressed data → 154 首 Sonnet 的压缩内容

💡 注意:这里的 offset 是相对于 压缩字节数组的起始位置 (不是整个文件开头)。如果想让它相对于整个文件,需要加上 header 的大小:4 + 2*4*numberOfSonnets


✅ 示例代码

java 复制代码
int numberOfSonnets = sonnets.size();
Path sonnetsFile = Path.of("files/sonnets.bin");

try (var sonnetFile = Files.newOutputStream(sonnetsFile);
     var dos = new DataOutputStream(sonnetFile)) {

    List<Integer> offsets = new ArrayList<>();
    List<Integer> lengths = new ArrayList<>();
    byte[] encodedSonnetsBytesArray = null;

    // 第一步:压缩所有 Sonnet 并拼接到内存流
    try (ByteArrayOutputStream encodedSonnets = new ByteArrayOutputStream()) {
        for (Sonnet sonnet : sonnets) {
            byte[] sonnetCompressedBytes = sonnet.getCompressedBytes();

            offsets.add(encodedSonnets.size()); // 当前拼接流的大小就是下一个 Sonnet 的 offset
            lengths.add(sonnetCompressedBytes.length);
            encodedSonnets.write(sonnetCompressedBytes);
        }

        // 第二步:写入文件头
        dos.writeInt(numberOfSonnets);
        for (int index = 0; index < numberOfSonnets; index++) {
            dos.writeInt(offsets.get(index));
            dos.writeInt(lengths.get(index));
        }

        encodedSonnetsBytesArray = encodedSonnets.toByteArray();
    }

    // 第三步:写入所有压缩内容
    sonnetFile.write(encodedSonnetsBytesArray);

} catch (IOException e) {
    e.printStackTrace();
}

🔍 代码解析

  1. offsets.add(encodedSonnets.size())
    • encodedSonnets.size() 返回当前拼接流的长度,也就是下一首 Sonnet 在字节数组中的起始位置。
  2. lengths.add(sonnetCompressedBytes.length)
    • 存储当前 Sonnet 的压缩字节数。
  3. dos.writeInt(numberOfSonnets)
    • 写入总数(方便后续读取时知道有多少首)。
  4. dos.writeInt(offsets.get(index)); dos.writeInt(lengths.get(index));
    • 按顺序写入 offset 和 length,形成一个"索引表"。
  5. sonnetFile.write(encodedSonnetsBytesArray)
    • 最后把所有拼接好的字节流一次性写入文件。

📌 使用示例

运行代码后,会在 files/sonnets.bin 生成一个二进制文件。它的结构大概是这样的:

java 复制代码
[Header]
154 (总数)
0   120 (第1首起始=0, 长度=120字节)
120 130 (第2首起始=120, 长度=130字节)
...
[Body]
[GZIP压缩后的Sonnet字节内容...]

🚀 总结

  1. 单个 Sonnet 压缩 → getCompressedBytes()
  2. 所有 Sonnet 拼接 → ByteArrayOutputStream
  3. 索引表写入 → DataOutputStream
  4. 最终文件结构 = Header + Body

这样,我们就能高效存储所有 154 首 Sonnet,既节省空间,又能快速定位到任意一首诗。

相关推荐
themingyi21 小时前
Abaqus2024安装python包pandas
开发语言·python·pandas
阿坤带你走近大数据21 小时前
Linux中管道符的作用
java·linux·服务器
殇淋狱陌21 小时前
Python列表知识思维导图
开发语言·python·学习
码不停蹄的玄黓21 小时前
Spring Boot 实现过滤器(Filter)三种常用方式
java·spring boot·后端
惊鸿一博21 小时前
网络端口开放访问权限_Windows 11 上确保防火墙允许指定端口如3001可被访问
网络·windows
dualven_in_csdn21 小时前
一键起飞调用示例
android·java·javascript
Web极客码21 小时前
如何通过 Python + LLM 用最少的 Token 完成精准推荐任务
开发语言·人工智能·python·ai
TPBoreas21 小时前
AQS 是啥
java·开发语言
一晌小贪欢21 小时前
第26节:自动化办公——利用 Python 自动生成动态分析报告 (PPT/PDF)
开发语言·python·数据分析·自动化·powerpoint·pandas·数据可视化
宋哥转AI21 小时前
@Tool写了但tools/list为空?Spring AI MCP Server注册的两种路径和四个坑
java·agent·mcp