安全算法（一）：安全技术、加密的基础知识、哈希函数的简单介绍

通过互联网交换数据时，数据要经过各种各样的网络和设备才能传到对方那里。数据在传输过程中有可能会经过某些恶意用户的设备，从而导致内容被盗取。

因此，要想安全地使用互联网，安全技术是不可或缺的。

除了被第三者篡改外,通信故障导致的数据损坏也可能会使消息内容发生变化。

这种情况会导致互联网上的商业交易或合同签署无法成立。这种行为便是"事后否认"。

问题和相应的解决方法总结：

*"数字签名"技术存在"无法确认公开密钥的制作者"这一问题。要想解决这个问题，可以使用"数字证书"技术。

在传输数据中，数据可能会被第三者恶意窃听。我们需要给想要保密的数据加密。加密后的数据被称为**"密文"**。

B 收到密文后，需要解除加密才能得到原本的数据。把密文恢复为原本数据的操作就叫作**"解密"**。

计算机会用由 0 和 1 这两个数字表示的二进制来管理所有数据

对计算机来说,数据就是一串有意义的数字罗列。密文也是数字罗列,只不过它是计算机无法理解的无规律的数字罗列。也就是说,加密就是数据经过某种运算后,变成计算机无法理解的数的过程。

加密技术的定义：将数据变成第三者的计算机无法理解的形式,然后再将其恢复成原本数据的一系列操作就是加密技术

哈希函数可以把给定的数据转换成固定长度的无规律数值。转换后的无规律数值可以作为数据摘要应用于各种各样的场景。

我们可以把哈希函数想像成搅拌机，将数据输入到哈希函数后，输出固定长度的无规律数值。输出的无规律数值就是"哈希值"。哈希值虽然是数字，但多用十六进制来表示。

计算机会用由0和1这两个数字表示的二进制来管理所有的数据。虽然哈希值是用十六进制表示的，但它也是数据，在计算机内部同样要用二进制来进行管理。也就是说，哈希函数实际上是在计算机内部进行着某种运算的。

1、无论输出的数据大小，哈希值长度相同。（十位）

2、如果输入的数据相同,那么输出的哈希值也必定相同**（使用同一个哈希算法）**

3、输入相似的数据并不会导致输出的哈希值也相似。

4、输入的两个数据完全不同,输出的哈希值也有可能是相同的,虽然出现这种情况的概率比较低。这种情况叫作**"哈希冲突"**。

5、输出和输入不可逆：不可能从哈希值反向推算出原本的数据。

6、求哈希值的计算相对容易

*哈希函数的算法中具有代表性的是 MD5 、SHA-1和 SHA-2 等。其中 SHA-2 是现在应用较为广泛的一个,而 MD5 和 SHA-1 存在安全隐患,不推荐使用。

（MD5: Message Digest Algorithm 5; SHA: Secure Hash Algorithm)

不同算法的计算方式也会有所不同，比如 SHA-1 需要经过数百次的加法和移位运算才能生成哈希值。

若使用的算法不同,那么就算输入的数据相同,得到的哈希值不同。

将用户输入的密码保存到服务器时也需要用到哈希函数。

如果把密码直接保存到服务器，可能会被第三者窃听，因此需要算出密码的哈希值，并只存储哈希值。当用户输入密码时，先算出该输入密码的哈希值，再把它和服务器中的哈希值进行比对。这样一来，就算保存的哈希值暴露了，鉴于上文中提到的哈希函数的第五个特征（输入输出不可逆），第三者也无法得知原本的密码。

密码的哈希值，并只存储哈希值。当用户输入密码时，先算出该输入密码的哈希值，再把它和服务器中的哈希值进行比对。这样一来，就算保存的哈希值暴露了，鉴于上文中提到的哈希函数的第五个特征（输入输出不可逆），第三者也无法得知原本的密码。

就像这样，使用哈希函数可以更安全地实现基于密码的用户认证。

参考资料：我的第一本算法书 (石田保辉宮崎修一)