深入理解 Git 底层机制:指针(Refs)、提交(Commit)与分支的关系

1. Git 的核心数据结构

Git 用几个核心对象来保存版本历史:

  • Blob(数据块):存储文件内容,不包含文件名。
  • Tree(树对象):存储目录结构,包含文件名和指向 blob 或其他 tree 的指针。
  • Commit(提交):指向一个 tree,并包含元信息(作者、时间、父提交等)。
  • Tag(标签):给某个提交打上易记的标记,通常用于发布版本。

这些对象用 SHA-1 哈希值唯一标识,内容不可变。


2. 指针(Refs):Git 版本历史的入口

Git 的历史是由大量 commit 组成的 DAG(有向无环图),这些 commit 是抽象的快照,指针(refs)就是用来"标记"这些提交的具体位置,方便我们快速定位和管理。

2.1 什么是 Refs?

Refs 是 Git 中用来指向某个 commit 的"指针",本质上是存储在 .git/refs 目录下的文本文件,内容是 commit 的哈希值。

常见的 refs 类型包括:

  • 分支(branch) :存在 .git/refs/heads/,例如 .git/refs/heads/master 文件里存的就是 master 分支当前指向的提交哈希。
  • 标签(tag) :存在 .git/refs/tags/,比如 v1.0 标签指向某个稳定的提交。
  • 远程分支(remote-tracking branch) :存在 .git/refs/remotes/,如 origin/master 指向远程仓库的 master 分支当前的提交。

2.2 HEAD:特殊的指针

HEAD 是一个特殊的引用,指示当前检出的分支或具体提交。通常它是一个符号引用,指向一个分支引用,比如:

复制代码
ref: refs/heads/master

也可以是一个具体的 commit(detached HEAD 状态)。


3. 分支其实就是指针

Git 的分支其实非常轻量,就是一个指向提交的 refs。比如 master 分支其实就是 .git/refs/heads/master 文件,里面写着一个 commit 的 SHA-1。

当我们新提交一次,Git 只会移动这个指针到最新的 commit。分支并不复制任何文件或者提交,只是"指向"不同的提交节点。


4. 合并和分叉点(fork point)与公共祖先(merge-base)

Git 的提交形成 DAG 结构,每个 commit 都有 0 或多个父提交。

  • 合并操作会产生一个有多个父节点的提交(merge commit)。
  • 分叉点即两个分支的最近公共祖先提交(merge-base),Git 会从这个公共祖先开始比较两个分支的变化。

4.1 什么是 merge-base?

merge-base 指的是两个提交的"最近共同祖先"(lowest common ancestor)。它是 Git 用来计算两个分支差异、进行三方合并的关键。

4.2 merge-base 是如何找到的?

Git 把提交看作 DAG(有向无环图),节点是提交,边是父子关系。

merge-base 的过程就是:

  • 从两个提交开始,往它们的父提交一路追溯。
  • 找到第一个(最近的)在两个路径中都出现的提交,即公共祖先。
  • 如果有多个公共祖先,Git 还会根据策略选出最佳的一个(或多个)。

简单说,就是在提交历史图中找到两个提交向上走时的"汇合点"

好的,关于 merge-base 是如何通过遍历 commit DAG 找两个提交"最近的共同祖先",我来详细讲讲具体原理和过程。

具体算法(高层伪代码)
python 复制代码
def find_merge_base(commitA, commitB):
    # 维护两个队列,分别用来从 commitA 和 commitB 向上遍历
    queueA = [commitA]
    queueB = [commitB]

    # 用集合存储访问过的提交,防止重复访问
    visitedA = set()
    visitedB = set()

    while queueA or queueB:
        # 向上遍历 commitA 的历史
        if queueA:
            currentA = queueA.pop(0)
            if currentA in visitedB:
                return currentA  # 找到共同祖先
            visitedA.add(currentA)
            queueA.extend(currentA.parents)

        # 向上遍历 commitB 的历史
        if queueB:
            currentB = queueB.pop(0)
            if currentB in visitedA:
                return currentB  # 找到共同祖先
            visitedB.add(currentB)
            queueB.extend(currentB.parents)

    return None  # 理论上不可能,git 是有根提交的

Git 底层的优化:

  • Git 实际实现时会用更高效的数据结构和算法,如标记、优先级队列等。
  • 它支持合并多个父节点(如合并提交有多个父),所以要处理多父节点的 DAG。
  • Git 会遍历两个提交的祖先链,用"颜色标记法"标记访问路径,找到第一个交叉点。

4.3 为什么要找 merge-base?

合并时,Git 用 merge-base 作为对比点:

  • 比较两个分支各自相对于 merge-base 的改动。
  • 自动合并两边改动,解决冲突。

比如:

复制代码
          A --- B --- C  (master)
         /
    D --- E --- F       (feature)

master 的最新提交是 Cfeature 的最新提交是 F,他们的 merge-baseE。Git 会比较 E->CE->F 的差异,合并后生成新的提交。

4.4 实际命令示例

bash 复制代码
git merge-base master feature
# 输出就是两个分支的最近公共祖先提交哈希
相关推荐
黎相思9 小时前
Git企业级项目管理实战
git·gitee
多一点灵性10 小时前
Git 命令
git
漫谈网络16 小时前
Git深入解析功能逻辑与核心业务场景流程
大数据·git
数据智能老司机16 小时前
理解 Argo CD
git·kubernetes·自动化运维
炒毛豆17 小时前
git 如何解决分支合并冲突(VS code可视化解决+gitLab网页解决)
git·gitlab
qx0919 小时前
git常用操作
git
等什么君!1 天前
git下载和安装(完整版)
git
小白写代码hh1 天前
Git入门到精通:30分钟掌握核心技巧
git·学习
CLO_se_1 天前
git的使用
git
F_D_Z1 天前
当前用户的Git全局配置情况:git config --global --list
git