Git核心概念总结
Git是一个分布式版本控制系统,用于高效地处理任何大小的项目。其核心概念可以总结为以下几个方面:
Git对象:
Git中的所有数据都存储在Git对象中,每个对象都有一个唯一的SHA-1校验和作为标识符。这些对象可以表示文件内容、目录结构或版本历史等。
Git树:
Git树是由Git对象组成的一个目录结构,用于保存文件夹、文件和子树的信息。每个树对象都包含一个或多个子对象的引用。
提交历史链:
每次提交都会生成一个新的提交对象,这个对象可以有一个或多个父对象,从而形成一个提交历史链。通过这个链,Git可以跟踪每个文件的修改历史,并方便地进行版本回滚、分支合并等操作。
Git分支:
分支是指向Git仓库中某一次提交的一个指针,即指向提交历史的引用。每个分支都包含了仓库中的一个提交对象,这个对象指向了项目的一个特定状态。分支是Git中并行开发的重要工具。
Git暂存区:
暂存区是一个临时的存储区域,用于存储将要提交的文件和修改。在执行git add命令时,修改的文件会被保存到暂存区中。
Git工作区:
工作区是文件的实际工作目录,是用户在电脑上看到的目录。在执行git add命令前,工作区的文件修改和添加不会被Git跟踪。
Git远程仓库:
远程仓库是指存储在远程服务器上的Git仓库,用于多人协作开发、备份和共享代码。Git支持多种协议进行远程仓库之间的数据传输。
Git标签:
Git支持标签管理,可以给代码库中的某个版本打上标签,方便以后查找和回滚到指定版本。
Git钩子:
Git的钩子是一种脚本,可以在Git命令执行前或执行后自动触发,用于实现自定义的功能。Git支持多种钩子,如提交钩子、合并钩子等。
Git子模块:
Git的子模块是一种管理外部代码库的方式,可以将外部代码库嵌入到主代码库中,方便管理和维护。
Git工作流:
Git支持多种工作流,如集中式工作流、功能分支工作流、Gitflow工作流等,可以根据项目需求选择不同的工作流进行代码管理和版本控制。
这些核心概念共同构成了Git强大的版本控制和团队协作能力。掌握这些概念,对于理解和使用Git进行高效的代码管理至关重要。
版本控制
什么是版本控制
版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。 除了项目源代码,你可以对任何类型的文件进行版本控制。
为什么要版本控制
有了它你就可以将某个文件回溯到之前的状态,甚至将整个项目都回退到过去某个时间点的状态,你可以比较文件的变化细节,查出最后是谁修改了哪个地方,从而找出导致怪异问题出现的原因,又是谁在何时报告了某个功能缺陷等等。
本地版本控制系统
许多人习惯用复制整个项目目录的方式来保存不同的版本,或许还会改名加上备份时间以示区别。 这么做唯一的好处就是简单,但是特别容易犯错。 有时候会混淆所在的工作目录,一不小心会写错文件或者覆盖意想外的文件。
为了解决这个问题,人们很久以前就开发了许多种本地版本控制系统,大多都是采用某种简单的数据库来记录文件的历次更新差异。
集中化的版本控制系统
接下来人们又遇到一个问题,如何让在不同系统上的开发者协同工作? 于是,集中化的版本控制系统(Centralized Version Control Systems,简称 CVCS)应运而生。
集中化的版本控制系统都有一个单一的集中管理的服务器,保存所有文件的修订版本,而协同工作的人们都通过客户端连到这台服务器,取出最新的文件或者提交更新。
这么做虽然解决了本地版本控制系统无法让在不同系统上的开发者协同工作的诟病,但也还是存在下面的问题:
- 单点故障: 中央服务器宕机,则其他人无法使用;如果中心数据库磁盘损坏又没有进行备份,你将丢失所有数据。本地版本控制系统也存在类似问题,只要整个项目的历史记录被保存在单一位置,就有丢失所有历史更新记录的风险。
- 必须联网才能工作: 受网络状况、带宽影响。
分布式版本控制系统
于是分布式版本控制系统(Distributed Version Control System,简称 DVCS)面世了。 Git 就是一个典型的分布式版本控制系统。
这类系统,客户端并不只提取最新版本的文件快照,而是把代码仓库完整地镜像下来。 这么一来,任何一处协同工作用的服务器发生故障,事后都可以用任何一个镜像出来的本地仓库恢复。 因为每一次的克隆操作,实际上都是一次对代码仓库的完整备份。
分布式版本控制系统可以不用联网就可以工作,因为每个人的电脑上都是完整的版本库,当你修改了某个文件后,你只需要将自己的修改推送给别人就可以了。但是,在实际使用分布式版本控制系统的时候,很少会直接进行推送修改,而是使用一台充当"中央服务器"的东西。这个服务器的作用仅仅是用来方便"交换"大家的修改,没有它大家也一样干活,只是交换修改不方便而已。
分布式版本控制系统的优势不单是不必联网这么简单,后面我们还会看到 Git 极其强大的分支管理等功能。
认识 Git
Git 简史
Linux 内核项目组当时使用分布式版本控制系统 BitKeeper 来管理和维护代码。但是,后来开发 BitKeeper 的商业公司同 Linux 内核开源社区的合作关系结束,他们收回了 Linux 内核社区免费使用 BitKeeper 的权力。 Linux 开源社区(特别是 Linux 的缔造者 Linus Torvalds)基于使用 BitKeeper 时的经验教训,开发出自己的版本系统,而且对新的版本控制系统做了很多改进。
[Git 与其他版本管理系统的主要区别](#Git 与其他版本管理系统的主要区别)
Git 在保存和对待各种信息的时候与其它版本控制系统有很大差异,尽管操作起来的命令形式非常相近,理解这些差异将有助于防止你使用中的困惑。
下面我们主要说一个关于 Git 与其他版本管理系统的主要差别:对待数据的方式。
Git 采用的是直接记录快照的方式,而非差异比较。我后面会详细介绍这两种方式的差别。
大部分版本控制系统(CVS、Subversion、Perforce、Bazaar 等等)都是以文件变更列表的方式存储信息,这类系统将它们保存的信息看作是一组基本文件和每个文件随时间逐步累积的差异。
具体原理如下图所示,理解起来其实很简单,每当我们提交更新一个文件之后,系统都会记录这个文件做了哪些更新,以增量符号 Δ(Delta)表示。
我们怎样才能得到一个文件的最终版本呢?
很简单,高中数学的基本知识,我们只需要将这些原文件和这些增加进行相加就行了。
这种方式有什么问题呢?
比如我们的增量特别特别多的话,如果我们要得到最终的文件是不是会耗费时间和性能。
Git 不按照以上方式对待或保存数据。 反之,Git 更像是把数据看作是对小型文件系统的一组快照。 每次你提交更新,或在 Git 中保存项目状态时,它主要对当时的全部文件制作一个快照并保存这个快照的索引。 为了高效,如果文件没有修改,Git 不再重新存储该文件,而是只保留一个链接指向之前存储的文件。 Git 对待数据更像是一个 快照流。
[Git 的三种状态](#Git 的三种状态)
Git 有三种状态,你的文件可能处于其中之一:
- 已提交(committed):数据已经安全的保存在本地数据库中。
- 已修改(modified):已修改表示修改了文件,但还没保存到数据库中。
- 已暂存(staged):表示对一个已修改文件的当前版本做了标记,使之包含在下次提交的快照中。
由此引入 Git 项目的三个工作区域的概念:Git 仓库(.git directory) 、工作目录(Working Directory) 以及 暂存区域(Staging Area) 。
基本的 Git 工作流程如下:
- 在工作目录中修改文件。
- 暂存文件,将文件的快照放入暂存区域。
- 提交更新,找到暂存区域的文件,将快照永久性存储到 Git 仓库目录。
Git 使用快速入门
[获取 Git 仓库](#获取 Git 仓库)
有两种取得 Git 项目仓库的方法。
- 在现有目录中初始化仓库: 进入项目目录运行
git init
命令,该命令将创建一个名为.git
的子目录。 - 从一个服务器克隆一个现有的 Git 仓库:
git clone [url]
自定义本地仓库的名字:git clone [url] directoryname
记录每次更新到仓库
- 检测当前文件状态 :
git status
- 提出更改(把它们添加到暂存区 ):
git add filename
(针对特定文件)、git add *
(所有文件)、git add *.txt
(支持通配符,所有 .txt 文件) - 忽略文件 :
.gitignore
文件 - 提交更新:
git commit -m "代码提交信息"
(每次准备提交前,先用git status
看下,是不是都已暂存起来了, 然后再运行提交命令git commit
) - 跳过使用暂存区域更新的方式 :
git commit -a -m "代码提交信息"
。git commit
加上-a
选项,Git 就会自动把所有已经跟踪过的文件暂存起来一并提交,从而跳过git add
步骤。
- 移除文件 :
git rm filename
(从暂存区域移除,然后提交。) - 对文件重命名 :
git mv README.md README
(这个命令相当于mv README.md README
、git rm README.md
、git add README
这三条命令的集合)
[一个好的 Git 提交消息](#一个好的 Git 提交消息)
一个好的 Git 提交消息如下:
标题行:用这一行来描述和解释你的这次提交
主体部分可以是很少的几行,来加入更多的细节来解释提交,最好是能给出一些相关的背景或者解释这个提交能修复和解决什么问题。
主体部分当然也可以有几段,但是一定要注意换行和句子不要太长。因为这样在使用 "git log" 的时候会有缩进比较好看。
提交的标题行描述应该尽量的清晰和尽量的一句话概括。这样就方便相关的 Git 日志查看工具显示和其他人的阅读。
推送改动到远程仓库
-
如果你还没有克隆现有仓库,并欲将你的仓库连接到某个远程服务器,你可以使用如下命令添加:
git remote add origin <server>
,比如我们要让本地的一个仓库和 GitHub 上创建的一个仓库关联可以这样git remote add origin https://github.com/Snailclimb/test.git
-
将这些改动提交到远端仓库:
git push origin master
(可以把 master 换成你想要推送的任何分支)如此你就能够将你的改动推送到所添加的服务器上去了。
远程仓库的移除与重命名
- 将 test 重命名为 test1:git
remote rename test test1
- 移除远程仓库 test1:
git remote rm test1
查看提交历史
在提交了若干更新,又或者克隆了某个项目之后,你也许想回顾下提交历史。 完成这个任务最简单而又有效的工具是 git log
命令。git log
会按提交时间列出所有的更新,最近的更新排在最上面。
可以添加一些参数来查看自己希望看到的内容:
只看某个人的提交记录:
git log --author=bob
撤销操作
有时候我们提交完了才发现漏掉了几个文件没有添加,或者提交信息写错了。 此时,可以运行带有 --amend
选项的提交命令尝试重新提交:
git commit --amend
取消暂存的文件
git reset filename
撤消对文件的修改:
git checkout -- filename
假如你想丢弃你在本地的所有改动与提交,可以到服务器上获取最新的版本历史,并将你本地主分支指向它:
git fetch origin
git reset --hard origin/master
分支
分支是用来将特性开发绝缘开来的。在你创建仓库的时候,master 是"默认"的分支。在其他分支上进行开发,完成后再将它们合并到主分支上。
我们通常在开发新功能、修复一个紧急 bug 等等时候会选择创建分支。单分支开发好还是多分支开发好,还是要看具体场景来说。
创建一个名字叫做 test 的分支
git branch test
切换当前分支到 test(当你切换分支的时候,Git 会重置你的工作目录,使其看起来像回到了你在那个分支上最后一次提交的样子。 Git 会自动添加、删除、修改文件以确保此时你的工作目录和这个分支最后一次提交时的样子一模一样)
git checkout test
你也可以直接这样创建分支并切换过去(上面两条命令的合写)
git checkout -b feature_x
切换到主分支
git checkout master
合并分支(可能会有冲突)
git merge test
把新建的分支删掉
git branch -d feature_x
将分支推送到远端仓库(推送成功后其他人可见):
git push origin