从nas硬盘大量解压缩zip文件的性能问题

"计算机科学领域的任何问题都可以通过增加一个间接的中间层来解决."

一个名人说的,也是我们解决问题主要的一种方式。我们总是想设计做到"透明"。提供很高的服务给下一层服务,你不需要管中间的细节,你调用就好了。

不会存在只有一面的硬币。记得读书的时候,计算机历史中就有人想把API调用都设计成一样的,本地调用和网络调用看起来是一样的,但是这期间的时间差,如果不仔细考虑,那么上层的代码就无法使用。(如果是网络调用,你需要读取很大的内容来反复处理,如果是从内存读取内容,就可以把代码写的更好读,一次一次遍历。)

这次的任务是在Linux服务器上,有很多zip文件需要进行解压缩任务,然后再copy到另一台nas机器上。文件一共是几百万左右,最开始就没什么都没想,只把工程完成就好了。然后就交给机器去跑。

但是第二天发现,工作的很慢,然后没想太多,想提供多线程去优化。反正就是改写到10个线程同时处理。然后发现还是没有想象的快。一直认为是apache zip是不是有什么性能问题。不理解为什么他们这么菜。哈哈

其实这里面还是涉及到太多的底层,有自己无法理解的地方。问了一下人工智能。它给出的方案是先copy到本地,然后再加压缩到目标nas。

我还是理解不了上诉方案,因为copy到本地在解压缩,就相当于。Nas硬盘->内存->网络->本机内存->本地硬盘。 然后再解压缩。

如果直接取数据不是相当于Nas硬盘->内存->网络->本机内存-> 然后直接处理了。减少了本机写硬盘的时间。(这个问题之前遇到过,也没想通。)

后来想看看nas的底层原理,使用mount看了一下是使用的什么协议。

xx.xxx.xxx.xxx:/ /SFTP on /xxxx type nfs4 (rw,relatime,vers=4.1,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,clientaddr=10.67.38.149,local_lock=none,addr=xx.xxx.xxx.xxx)
这是NFS协议的具体细节:

  • 协议版本: NFS v4.1(通过 vers=4.1 指定)。
  • 传输协议 : 使用 TCP(通过 proto=tcp 指定)。
  • 其他选项 :
    • / 写大小: rsize=1048576, wsize=1048576(每次读写数据块大小为1MB)。
    • 超时和重传: timeo=600, retrans=2(传输超时时间和重传次数)。
    • 安全: sec=sys(表示基于系统的安全方式)。

总之,所有的挂载路径都使用了NFS v4.1协议来进行网络存储访问。

看了以后发现自己的代码

byte [] buffer = new byte [1024];
try (ZipFile zipFile = new ZipFile(file)) {

使用的是1k的缓冲,但是nas使用的是1M的缓冲,那么用脑子想想(还没有进行验证)应该是造成了nas缓冲的大量浪费。如果把代码里面的缓冲设置成大于或者等于nas的缓冲就大可以大幅度提高效率。回来有机会可以试一下这次猜想。

还有就是任何一层都无法做到完全透明,如果你想做好,那么你就需要了解底层原理。但是还是会减少了大量的编码成本。而且在不在意效率的情况下,普遍还是工作很好的。

相关推荐
就叫_这个吧1 天前
Java实现线程间的通讯--使用synchronized关键字和JUC方式实现
java·开发语言
学习中.........1 天前
JVM 垃圾回收核心技术、演进全景与生产调优规范
java·jvm·测试工具
小小编程路1 天前
C++类作用域
java·jvm·c++
小江的记录本1 天前
【Java并发编程】锁机制:volatile:JMM内存模型、可见性/禁止指令重排、内存屏障、单例模式中的应用(附《思维导图》+《面试高频考点清单》)
java·后端·python·mysql·单例模式·面试·职场和发展
zandy10111 天前
2026嵌入式BI PaaS平台技术剖析与实现指南
java·运维·paas
这是谁的博客?1 天前
Python 异步编程核心原理与实践深度解析
java·网络·python·协程·asyncio·异步编程
奋斗的老史1 天前
LibreOffice封装文档转 PDF 工具类
java·pdf
AllData公司负责人1 天前
亲测丝滑,体验跃迁|AllData通过集成开源项目StreamPark,实时流任务调度更省心!
java·大数据·数据库·人工智能·算法·实时计算·实时开发平台
SunnyDays10111 天前
用Java打造交互式Excel仪表板:切片器的实战应用
java·excel
考虑考虑1 天前
JDK26支持Http3属性
java·后端·java ee