它是一种由美国国家安全局(NSA)设计,并由美国国家标准与技术研究院(NIST)发布的**密码散列函数(Cryptographic Hash Function)**标准。
简单来说,SHA 就像是一个**"数据的指纹机"**。
1. 它是如何工作的?
你可以把 SHA 想象成一个"单向搅拌机":
- 输入: 无论你输入的是一个字母("a"),还是一整部《红楼梦》,甚至是一个几百 GB 的硬盘镜像。
- 处理: SHA 算法会对这些数据进行极其复杂的数学运算(位移、异或、循环置换等)。
- 输出: 它会固定吐出一串长度固定的字符串(即"散列值"或"摘要")。
核心特点:
- 长度固定: 不管输入多大,SHA-256 永远输出 64 个字符的十六进制字符串。
- 雪崩效应: 输入数据哪怕只变动一个字节(比如把字母 'a' 变成 'A'),输出的指纹会发生翻天覆地的变化。
- 单向性(不可逆): 你可以通过"数据"算出"指纹",但绝不可能通过"指纹"还原出原始的"数据"。
- 抗碰撞性: 理论上,找不到两份不同的数据能产生完全相同的指纹(虽然理论上有极小的概率,但在实际应用中可以忽略)。
2. SHA 家族成员
SHA 并不是一个单一的算法,而是一系列演进的版本:
- SHA-0 和 SHA-1:
- SHA-1 输出 160 位(20 字节)。
- 现状: 已经被学术界破解。现在如果你在代码里用 SHA-1,编译器通常会警告你"不安全"。
- SHA-2 (SHA-256, SHA-512):
- 目前互联网的标准。SHA-256 是最常用的,比如你的手机固件校验、HTTPS 证书校验、比特币地址生成等。
- SHA-3:
- 它是最现代的版本,内部构造和 SHA-2 完全不同(Keccak 算法)。它还没被广泛大规模普及,但安全性更高。
3. 生活中的 SHA 应用场景
你每天都在用 SHA,只是你没意识到:
- 文件完整性验证: 当你从官网下载一个安装包(如 Linux 镜像)时,网站通常会提供一个
SHA256 checksum。你下载完后,计算一下文件的 SHA256 值,如果和官网的一模一样,说明文件在下载过程中没有被损坏或被黑客植入木马。 - 区块链(比特币): 比特币的"挖矿"本质上就是在进行大量的 SHA-256 运算,目的是为了寻找一个符合条件的哈希值,从而生成区块。
- HTTPS 证书: 浏览器检查网页的安全性时,会利用 SHA 算法验证网站证书的指纹。
- Git 版本控制: 你在 Git 里看到的
commit id(比如a1b2c3d...)其实就是该次提交内容的 SHA-1 哈希值。
4. 再次强调:它不是加密!
很多人以为"把文字变成一堆乱码就是加密"。
- 加密 (Encryption): 是为了保护隐私,目的是解密。你给老板发文件,你加密,老板能解密。
- 哈希 (Hashing/SHA): 是为了保护完整性,目的是验证。你给老板发文件,附带一个哈希值,老板计算一下文件,看看指纹对不对,就能确认文件没被中间人修改过。
总结:
SHA 是一个"摘要生成器"。如果你想证明一份数据是原汁原味的、没有被别人动过手脚,SHA 就是你最好的防伪标签。