【Linux第二十二章】https

前言 🚀

在学完 HTTP 之后，再看 HTTPS，最关键的一步不是去背几个加密名词，而是先把问题想清楚：如果 HTTP 明文传输，请求和响应在路上被别人看到、修改甚至伪造，会发生什么？

答案就是：通信双方虽然"看起来"还在正常交互，但中间已经多了一个第三方。这个第三方既能偷看数据，也能篡改数据，甚至还能伪装成服务端或客户端继续和双方通信。这就是 HTTPS 要解决的根本问题。

所以，HTTPS 不是简单地给 HTTP 套上一层"加密外壳"，而是在 HTTP 与 TCP 之间加入了 TLS/SSL 安全层，用来解决机密性、完整性、身份可信性 这三个核心问题。真正理解了这一点，再去看对称加密、非对称加密、摘要、数字签名、证书与 CA，整条链路就会顺起来。

一. `HTTPS` 到底解决了什么问题 🧠

HTTPS 仍然属于应用层协议，本质上还是在传输 HTTP 报文，只不过它不再让这些内容以明文形式直接在网络中裸奔，而是引入一层加密与认证机制。

如果只有 HTTP，那么客户端发送的请求、服务端返回的响应，都会以明文方式在网络中传输。这样一来，只要通信链路中的某个节点或攻击者能够截获流量，就可能看到甚至修改里面的内容。

1.1 `HTTPS` 的三个核心目标

从本质上看，HTTPS 主要解决三件事：

机密性：别人即使截获了数据，也看不懂原文。
完整性：别人不能悄悄篡改数据而不被发现。
身份可信性：客户端要确认自己拿到的公钥，确实属于目标服务端，而不是攻击者伪造的。

所以，HTTPS 真正难的地方，不是"如何加密"，而是"如何安全地建立一条可信的加密通信关系"。

二. 中间人攻击：为什么单纯的明文 `HTTP` 不够安全 🔍

理解 HTTPS，一定要先理解中间人攻击（MITM，Man-In-The-Middle）。

所谓中间人攻击，就是攻击者插到通信双方中间，形成这样一条链路：

客户端 -> 攻击者 -> 服务端

表面上看，客户端以为自己在和服务端直接通信；服务端也以为自己在和正常客户端通信；但实际上，请求和响应都经过了攻击者中转。

2.1 中间人攻击的核心动作

这种攻击通常包含三步：

拦截通信：先截获请求或响应。
伪装身份：向客户端假装自己是服务端，向服务端假装自己是客户端。
窃取或篡改数据：在转发前读取、修改或伪造数据。

2.2 常见场景

你的笔记中提到了几个典型场景：

虚假 Wi-Fi 热点
ARP 欺骗
HTTPS 降级攻击
会话劫持

这些场景形式不同，但本质都在做同一件事：想办法让通信先经过攻击者之手。

2.3 为什么明文传输一定扛不住

如果通信内容是明文，那么攻击者一旦拿到流量，就可以直接读取内容；如果没有额外的完整性校验，攻击者甚至还可以改完再转发，双方还未必能第一时间察觉。

💡 避坑指南：
HTTPS 的出发点，不只是"防偷看"，还包括防伪造、防篡改、防公钥被冒充 。

只记住"加密"两个字，是不够的。

三. 加密体系为什么不能只靠一种算法 🧱

很多人第一次接触 HTTPS 时，会下意识地想：既然要保密，那直接把所有数据都用一种加密算法处理掉不就行了吗？

问题就在于，不同加密方式擅长解决的问题并不一样。实际工程里，HTTPS 之所以看起来复杂，就是因为它并没有指望一种机制包打天下，而是把几种能力拼接在了一起。

3.1 对称加密：快，但密钥分发难

对称加密的特点是：加密和解密使用同一个密钥。

它的优点很明显：

算法效率高
加解密速度快
适合处理大量实际业务数据

因此，真正大规模传输网页内容、接口数据、图片、视频时，更适合用对称加密。

但它有一个致命问题：双方怎么安全地共享同一把密钥？

如果这个密钥在传输过程中被截获，那么后续所有加密内容都等于白做。

3.2 非对称加密：能安全传钥匙，但速度慢

非对称加密采用公钥和私钥配对机制：

公钥可以公开
私钥只能自己持有

在加密语境下，通常是"公钥加密，私钥解密"；在签名语境下，则是"私钥签名，公钥验证"。

它的优势在于可以安全地解决"密钥怎么给对方"的问题，但劣势也很明显：运算开销大，速度慢，不适合直接拿大量业务数据全程加密。

3.3 数据摘要：不是加密，而是完整性指纹

数据摘要（Hash）不是传统意义上的加密，因为它没有对应"解密"过程。它的作用是：对原始数据做一次单向散列，得到一个固定长度的摘要值。

摘要的关键意义在于：

原文变一点，摘要就会明显变化
可以快速检测数据是否被篡改

所以，摘要主要服务于完整性校验，而不是保密。

3.4 数字签名：用来证明"这份内容是谁确认过的"

数字签名不是"把整份明文重新加密一遍"，而是：

先对明文计算摘要
再用私钥对摘要做签名
接收方用公钥验证签名，并重新计算摘要进行对比

这样一来，接收方不仅能知道内容有没有被改过，还能知道它是不是由对应私钥持有者签出来的。

四. `HTTPS` 的主流方案：非对称传密钥，对称传数据 🗺️

既然对称加密快、非对称加密安全，那最自然的方案就是把两者结合起来。

这就是 HTTPS 最核心的设计思路：

非对称加密用于安全传输对称密钥，对称加密用于后续实际业务数据加密。

4.1 整体流程

可以把这个过程理解成下面几步：

客户端先拿到服务端的公钥。
客户端随机生成一个临时对称密钥。
客户端用服务端公钥加密这个对称密钥，并发送给服务端。
服务端用自己的私钥解密，恢复出该对称密钥。
之后双方都用这个对称密钥去加密和解密真正的业务数据。

4.2 为什么不能直接全程都用非对称加密

因为非对称加密太慢。如果把网页内容、接口数据、图片资源全部都交给非对称加密去处理，性能开销会非常大，实际系统难以承受。

所以，非对称加密在 HTTPS 中更像是在完成"安全交换钥匙"这件事；真正大规模的数据传输，还是交给高效的对称加密。

五. 只做到"公钥交换"还不够，真正的问题是公钥真假 🧩

到这里，很多人会觉得问题已经解决了：服务端给我公钥，我拿它加密对称密钥，后面不就安全了吗？

但这恰恰是 HTTPS 最核心的坑点之一：

客户端凭什么相信自己拿到的那个公钥，真的属于目标服务端？

5.1 中间人可以替换公钥

假设攻击者处在通信链路中间，那么完全可能发生下面这件事：

客户端请求服务端公钥。
攻击者拦截请求。
攻击者不把服务端真正的公钥给客户端，而是给客户端发自己伪造的一把公钥。
客户端误以为拿到了服务端公钥，于是用这把假公钥加密对称密钥。
攻击者用自己的私钥解密，拿到对称密钥。
攻击者再与真实服务端重新建立另一套加密关系。

这样一来，看起来链路上有加密，实际上攻击者依然能看到明文。因为他已经把"公钥入口"劫持掉了。

5.2 所以问题不只是"有没有加密"，而是"加密对象是否可信"

这就是为什么 HTTPS 必须再往前迈一步：不仅要传公钥，还要证明这个公钥确实属于对应的网站。

六. 证书为什么能解决公钥可信问题 💻

为了解决"公钥真假无法确认"的问题，HTTPS 引入了数字证书机制。

可以把证书理解成网络世界里的"身份证明文件"，里面不是只有一把公钥，而是把多种信息一起打包起来，形成一份可验证的可信材料。

6.1 证书里一般有什么

你的笔记里提到，证书里通常会包含这些信息：

域名
申请者信息
公钥
有效期
签发机构信息
数字签名

6.2 证书是怎么来的

服务端并不是自己随便写一份"我这个公钥是真的"就发给客户端，而是要先向 CA（证书颁发机构）申请证书。

大致过程可以理解为：

申请者整理域名、公钥、主体信息等内容。
把这些信息打包形成 CSR（证书签名请求）文件。
申请者先用自己的私钥对 CSR 内容签名。
提交给 CA 进行审核。
CA 审核通过后，用自己的私钥对证书明文信息的摘要进行签名。
最终形成正式证书。

6.3 客户端为什么能验证证书

关键点在于：浏览器或操作系统内部，已经预置了一批权威 CA 的公钥。

所以客户端收到证书后，可以做这几件事：

用内置 CA 公钥验证证书上的签名。
对证书明文信息重新计算摘要。
将自己算出来的摘要，与签名验证出来的摘要做对比。
再检查域名是否匹配、有效期是否过期。

如果这些都一致，客户端就能确认：

证书没被篡改
证书确实由受信任的 CA 签发
证书里的公钥可信
这个公钥属于当前访问的目标域名

6.4 为什么攻击者改不了证书里的公钥

因为证书签名是对明文信息摘要做出来的。如果攻击者把证书中的公钥改了，那么明文内容就变了，客户端重新计算出来的摘要就一定和原本 CA 签名对应的摘要不一致。

这样一来，验证过程就会失败，浏览器也就会提示证书不可信或已被篡改。

💡 避坑指南：

证书不是"用来存公钥的壳子"，它的真正价值在于：
把公钥、域名、主体身份和 CA 的签名绑定在一起，让客户端能验证公钥的合法性。

七. 主流 `HTTPS` 方案为什么一定是"CA + 证书 + 非对称 + 对称" ⚠️

看到这里，其实就能明白为什么现代 HTTPS 的主流方案一定是组合拳，而不是单靠某一个技术点：

对称加密：负责后续大量业务数据的高效加密
非对称加密：负责安全交换对称密钥
摘要与签名：负责校验完整性与签发者身份
证书：负责把公钥与域名、身份绑定
内置 CA 公钥：负责让客户端有可信的验证起点

这几部分缺一不可。因为它们分别在解决不同问题：

机制	主要解决的问题
对称加密	数据传输效率
非对称加密	密钥交换安全
摘要	数据完整性检测
数字签名	证明签发者身份
证书	绑定公钥与网站身份
内置 `CA` 公钥	提供信任根

八. `HTTPS` 协商主线可以怎么理解 📌

把整个 HTTPS 协商流程压缩成一条主线，可以这样看：

客户端请求建立 HTTPS 连接。
服务端返回数字证书。
客户端验证证书合法性。
若验证通过，客户端生成随机对称密钥。
客户端用证书里的服务端公钥加密该对称密钥。
服务端用私钥解密，恢复出对称密钥。
双方之后都使用这个对称密钥加密实际网页内容或接口数据。

所以你可以把 HTTPS 整体记成一句话：

先验证公钥是不是你的，再用它安全交换对称密钥，最后再用对称密钥高效传输业务数据。

总结 📝

HTTPS 之所以比 HTTP 复杂，不是因为它故意叠概念，而是因为它要真正解决开放网络环境下的安全通信问题。单靠明文传输肯定不行，单靠加密也不行，单靠公钥交换还是不行，最终只能把多种机制组合起来，分别处理不同层面的风险。

整套逻辑串起来之后，其实主线非常清晰：

HTTP 明文传输，容易被中间人窃听和篡改
于是需要加密，先引入对称加密
但对称密钥分发不安全，于是引入非对称加密
但公钥可能被替换，于是引入证书
但证书也要有人背书，于是引入 CA 与数字签名
最终形成主流的 HTTPS 方案：内置 CA 公钥 + 证书 + 非对称密钥交换 + 对称数据加密

所以，从学习角度看，HTTPS 不是"HTTP + 加密"这么简单，而是：

HTTPS = 在 HTTP 通信之上，建立一条经过身份验证、可检测篡改、且具备机密性的安全传输通道。

当这条主线真正建立起来之后，后面继续学习 TLS 握手细节、证书链、浏览器信任模型，甚至前端安全与接口鉴权时，就不会再把这些知识点看成零散补丁，而会自然落到同一套安全通信框架里。