处理.git文件夹过大出现臃肿问题

1、问题背景

在软件开发过程中，版本控制是一个至关重要的环节。Git 作为一种流行的分布式版本控制系统，被广泛应用于各种项目中。然而，近期我们发现在进行项目发版时，Git 克隆项目的时间显著增加，严重影响了发版的效率。经过分析，我们发现问题主要出在项目文件过大，导致克隆过程缓慢。

原因：开发误操作上传Jar包，导致项目变大，后面就算删除jar，但是有commit记录，依旧导致文件过大。

正常大小：226M

异常大小：2.6GB

2、环境介绍

项目名称: xxxx_adc_backend
代码托管平台: GitLab
主要分支: pre-fjfsim
清理工具: BFG Repo-Cleaner

3、清理原因

在开发过程中，项目中引入了一些大文件，这些文件不仅增加了代码库的体积，还影响了代码的推送和拉取效率。为了提高项目的整体性能和维护性，我们决定采用 BFG Repo-Cleaner 进行清理。

4、清理步骤

1. 开发人员禁止推送代码

在开始清理之前，需要确保所有开发人员停止推送代码，避免在清理过程中产生新的提交。

2. 运维备份代码

运维人员需要对 xxxx_adc_backend 项目进行备份，以便在清理过程中出现问题时可以快速回滚。

3、查询大文件记录

参考文档：https://blog.csdn.net/cysear/article/details/102823671

注意：记录是commit中，最好定位到有问题的分支，在问题分支上操作。比如我的大文件记录，在pre-fjfsim 上，所以我指定的是 pre-fjfsim

bash 复制代码

#克隆仓库的镜像
git clone --mirror -b pre-fjfsim git@gitlab.fujfu.com:ownit/ownit_test.git

`git clone --mirror`：克隆仓库的镜像。镜像克隆会克隆所有分支和标签，但不会克隆工作目录和历史记录。

-b pre-fjfsim：指定克隆的分支为 pre-fjfsim。
git@gitlab.fujfu.com:ownit/ownit_test.git：仓库的 URL。

bash 复制代码

#查找大文件的 SHA-1 哈希值
git rev-list --objects --all | grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -5 | awk '{print$1}')"

`git rev-list --objects --all`：列出所有对象的 SHA-1 哈希值。

复制代码

  grep "$(git verify-pack -v .git/objects/pack/*.idx | sort -k 3 -n | tail -5 | awk '{print$1}')"

：这部分是一个复杂的管道命令，用于过滤出大文件的 SHA-1 哈希值。

git verify-pack -v .git/objects/pack/*.idx：验证打包文件，并显示每个对象的详细信息。
sort -k 3 -n：根据第三列（文件大小）进行数字排序。
tail -5：显示排序后的最后五行，通常是最大的五个文件。
awk '{print$1}'：打印每行的第一个字段，即 SHA-1 哈希值。
grep：使用这些 SHA-1 哈希值作为搜索模式，从 git rev-list --objects --all 的输出中过滤出相关的对象。

4、使用 BFG 清理大文件

BFG Repo-Cleaner 是一个高效的工具，可以帮助我们快速清理 Git 历史中的大文件。以下是具体的清理步骤：

参考记录：https://rtyley.github.io/bfg-repo-cleaner/

克隆项目

bash 复制代码

git clone --mirror -b pre-fjfsim git@gitlab.xxxx.com:ownit/ownit_test.git

清除大文件

bash 复制代码

java -jar bfg.jar --delete-files xxxx_adc_backend_mac.tgz ownit_test.git
java -jar bfg.jar --delete-files xxxx_adc_backend_mac_2024_0202.tgz ownit_test.git

删除文件重构索引

bash 复制代码

cd ownit_test
git reflog expire --expire=now --all && git gc --prune=now --aggressive

查看容量

bash 复制代码

git count-objects -vH

更新远程

bash 复制代码

git push -f

5、开发人员检查

清理完成后，开发人员需要检查代码库是否正常。如果一切正常，则可以继续推送代码。如果发现异常，可以根据备份代码进行回滚。

5、总结

通过这次清理，我们成功地从 xxxx_adc_backend 项目中移除了不必要的大文件，不仅减轻了代码库的负担，还提高了代码管理的效率。BFG Repo-Cleaner 以其高效和稳定性，成为了我们清理 Git 历史大文件的首选工具。

处理.git文件夹过大出现臃肿问题

1、问题背景

2、环境介绍

3、清理原因

4、清理步骤

1. 开发人员禁止推送代码

2. 运维备份代码

3、查询大文件记录

git clone --mirror：克隆仓库的镜像。镜像克隆会克隆所有分支和标签，但不会克隆工作目录和历史记录。

git rev-list --objects --all：列出所有对象的 SHA-1 哈希值。

4、使用 BFG 清理大文件

克隆项目

清除大文件

删除文件重构索引

查看容量

更新远程

5、开发人员检查

5、总结

`git clone --mirror`：克隆仓库的镜像。镜像克隆会克隆所有分支和标签，但不会克隆工作目录和历史记录。

`git rev-list --objects --all`：列出所有对象的 SHA-1 哈希值。