用Go写一个文件去重工具

文章首发于个人博客

背景

想自己做这个功能,主要是因为Duplicate Cleaner这个商业软件只有几天的试用时间,而且文件去重这个逻辑也非常简单。

{{}} graph TD a获取文件清单及大小 --> b按大小分组 --> c排除只有一个文件的组 --> d计算文件Hash值 --> e按Hash值分组 --> f排除只有一个文件的组 --> g选择需要删除的文件 --> h删除 {{}}

问题

计算文件Hash值,使用了hash.Hash接口,自然也用到了goroutine来缩短耗时,但是在测试的时候发现功能不太好用,时好时坏,准确说是有时能获取到重复列表,有时不能。

一点点排查,并且把代码段发给DeepSeek,最终确定是因为hash.Hash不是并发安全的。

修复方法很简单,只要在goroutine内实例化即可。修改之后达到了预期。

go 复制代码
func calcHashs(files []*FileInfo, hashName string) {
	g := sync.WaitGroup{}

	for _, file := range files {
		g.Add(1)
		go func(f *FileInfo) {
			defer g.Done()
			h := newHash(hashName)
			hashValue, err := calcHash(f.Path, h)
			if err != nil {
				log.Printf("计算文件 %s 的哈希值失败: %v", f.Path, err)
				return
			}
			f.Hash = hashValue
		}(file)
	}
	g.Wait()
}

TODO

以上存在一个隐患,即:当文件过多时,goroutine会爆炸,至于会有什么影响,没有进行测试,也没敢测试,担心把机器干翻。整体功能做完后,下一步进行这一处的优化。

题外话

计算Hash值这部分,专门准备了约15G的测试文件,和Duplicate Cleaner比较了一下,为此还用Lazarus写了同样的功能,三者一起比较。结果不得不令人叹服:

  • goLazarus的耗时非常接近,但Duplicate Cleaner只用了goLazarus一半的时间

  • go不同hash算法之间耗会有几十秒不等的差异,Duplicate Cleaner各算法耗时只有几秒的差异

看来收费果然是有收费的理由的!

相关推荐
IT_陈寒3 小时前
Python闭包里藏的这个坑,差点让我加班到凌晨
前端·人工智能·后端
IT_陈寒3 小时前
Java注解空指针?这个坑我踩得莫名其妙
前端·人工智能·后端
土狗TuGou3 小时前
SQL内功笔记 · 第8篇:事务的四大特性与隔离级别
数据库·笔记·后端·sql·mysql·oracle
ZengLiangYi4 小时前
React Query + REST API 最佳实践
javascript·后端·react.js
星浩AI4 小时前
项目实战:合同智能审批 · LangGraph + HITL 人机协同方案 [有源码]
后端·langchain·agent
JavaGuide4 小时前
Codex 接入第三方模型 DeepSeek、GLM、Kimi 教程:CC-Switch 和 Codex++ 两种方案对比
后端·ai编程
ZengLiangYi4 小时前
Fastify 加 Electron:把 Web 服务嵌进桌面应用
前端·javascript·后端
李白你好4 小时前
页面资产梳理 · 技术指纹识别 · Spring 端点探测
java·后端·spring
用户1753721240334 小时前
02《面向对象设计原则:SOLID原则实战解析》
后端
我是一颗柠檬4 小时前
【Java后端技术亮点】热Key探测与本地缓存二级防护:Redis热点问题的终极解决方案
java·redis·后端·缓存·中间件