深入理解 Git 底层机制:指针(Refs)、提交(Commit)与分支的关系

1. Git 的核心数据结构

Git 用几个核心对象来保存版本历史:

  • Blob(数据块):存储文件内容,不包含文件名。
  • Tree(树对象):存储目录结构,包含文件名和指向 blob 或其他 tree 的指针。
  • Commit(提交):指向一个 tree,并包含元信息(作者、时间、父提交等)。
  • Tag(标签):给某个提交打上易记的标记,通常用于发布版本。

这些对象用 SHA-1 哈希值唯一标识,内容不可变。


2. 指针(Refs):Git 版本历史的入口

Git 的历史是由大量 commit 组成的 DAG(有向无环图),这些 commit 是抽象的快照,指针(refs)就是用来"标记"这些提交的具体位置,方便我们快速定位和管理。

2.1 什么是 Refs?

Refs 是 Git 中用来指向某个 commit 的"指针",本质上是存储在 .git/refs 目录下的文本文件,内容是 commit 的哈希值。

常见的 refs 类型包括:

  • 分支(branch) :存在 .git/refs/heads/,例如 .git/refs/heads/master 文件里存的就是 master 分支当前指向的提交哈希。
  • 标签(tag) :存在 .git/refs/tags/,比如 v1.0 标签指向某个稳定的提交。
  • 远程分支(remote-tracking branch) :存在 .git/refs/remotes/,如 origin/master 指向远程仓库的 master 分支当前的提交。

2.2 HEAD:特殊的指针

HEAD 是一个特殊的引用,指示当前检出的分支或具体提交。通常它是一个符号引用,指向一个分支引用,比如:

复制代码
ref: refs/heads/master

也可以是一个具体的 commit(detached HEAD 状态)。


3. 分支其实就是指针

Git 的分支其实非常轻量,就是一个指向提交的 refs。比如 master 分支其实就是 .git/refs/heads/master 文件,里面写着一个 commit 的 SHA-1。

当我们新提交一次,Git 只会移动这个指针到最新的 commit。分支并不复制任何文件或者提交,只是"指向"不同的提交节点。


4. 合并和分叉点(fork point)与公共祖先(merge-base)

Git 的提交形成 DAG 结构,每个 commit 都有 0 或多个父提交。

  • 合并操作会产生一个有多个父节点的提交(merge commit)。
  • 分叉点即两个分支的最近公共祖先提交(merge-base),Git 会从这个公共祖先开始比较两个分支的变化。

4.1 什么是 merge-base?

merge-base 指的是两个提交的"最近共同祖先"(lowest common ancestor)。它是 Git 用来计算两个分支差异、进行三方合并的关键。

4.2 merge-base 是如何找到的?

Git 把提交看作 DAG(有向无环图),节点是提交,边是父子关系。

merge-base 的过程就是:

  • 从两个提交开始,往它们的父提交一路追溯。
  • 找到第一个(最近的)在两个路径中都出现的提交,即公共祖先。
  • 如果有多个公共祖先,Git 还会根据策略选出最佳的一个(或多个)。

简单说,就是在提交历史图中找到两个提交向上走时的"汇合点"

好的,关于 merge-base 是如何通过遍历 commit DAG 找两个提交"最近的共同祖先",我来详细讲讲具体原理和过程。

具体算法(高层伪代码)
python 复制代码
def find_merge_base(commitA, commitB):
    # 维护两个队列,分别用来从 commitA 和 commitB 向上遍历
    queueA = [commitA]
    queueB = [commitB]

    # 用集合存储访问过的提交,防止重复访问
    visitedA = set()
    visitedB = set()

    while queueA or queueB:
        # 向上遍历 commitA 的历史
        if queueA:
            currentA = queueA.pop(0)
            if currentA in visitedB:
                return currentA  # 找到共同祖先
            visitedA.add(currentA)
            queueA.extend(currentA.parents)

        # 向上遍历 commitB 的历史
        if queueB:
            currentB = queueB.pop(0)
            if currentB in visitedA:
                return currentB  # 找到共同祖先
            visitedB.add(currentB)
            queueB.extend(currentB.parents)

    return None  # 理论上不可能,git 是有根提交的

Git 底层的优化:

  • Git 实际实现时会用更高效的数据结构和算法,如标记、优先级队列等。
  • 它支持合并多个父节点(如合并提交有多个父),所以要处理多父节点的 DAG。
  • Git 会遍历两个提交的祖先链,用"颜色标记法"标记访问路径,找到第一个交叉点。

4.3 为什么要找 merge-base?

合并时,Git 用 merge-base 作为对比点:

  • 比较两个分支各自相对于 merge-base 的改动。
  • 自动合并两边改动,解决冲突。

比如:

复制代码
          A --- B --- C  (master)
         /
    D --- E --- F       (feature)

master 的最新提交是 Cfeature 的最新提交是 F,他们的 merge-baseE。Git 会比较 E->CE->F 的差异,合并后生成新的提交。

4.4 实际命令示例

bash 复制代码
git merge-base master feature
# 输出就是两个分支的最近公共祖先提交哈希
相关推荐
海上生明月丿9 小时前
Git介绍 && 常用命令
git
力Mer17 小时前
【Git】git reset 和 git revert 的用法及示例讲解
git
角砾岩队长18 小时前
Windows系统下的Git安装(2025年6月更新)
windows·git
焚膏油以继晷,恒兀兀以穷年1 天前
git 基础命令学习
git·版本管理工具
一只游鱼1 天前
大文件推送到git仓库
git·git lfs
2401_884810742 天前
git知识点
git
小牛itbull3 天前
从 Vercel 构建失败谈 Git 大小写敏感性问题:一个容易被忽视的跨平台陷阱
git
chainbees3 天前
Git账号配置 SSH 密钥
运维·git·ssh
Brian Xia3 天前
Lazygi - 让git操作不再困难
git
wdfk_prog3 天前
`git rm --cached`:如何让文件“脱离”版本控制
大数据·linux·c语言·笔记·git·学习·elasticsearch