读《图解HTTP》：代理、网关、隧道与缓存到底是什么？

本文是阅读《图解HTTP》第 5 章后的学习整理，结合个人理解做了少量补充。文中的流程图和表格用于概括本章概念，不使用原书截图，也不替代原书内容。

这篇文章解决什么问题

我们平时访问一个网站时，直觉上会以为浏览器直接连到了目标服务器。实际情况往往更复杂：请求可能先经过代理服务器，也可能经过网关、隧道、缓存服务器，最后才到达真正保存资源的服务器。

这一章主要讨论的就是这些与 HTTP 协作的 Web 服务器组件：

一台服务器如何承载多个网站：虚拟主机
HTTP 请求在中途可能遇到哪些角色：代理、网关、隧道
为什么缓存能减少访问源服务器的次数
缓存服务器和客户端缓存分别是什么

一台服务器为什么能放多个网站：虚拟主机

HTTP/1.1 允许一台 HTTP 服务器搭建多个 Web 站点。物理上可能只有一台服务器，但使用虚拟主机功能后，表面上可以像多台服务器一样，分别承载不同域名的网站。

问题在于：多个域名经过 DNS 解析后，可能指向同一个 IP 地址。当请求到达服务器时，服务器需要知道客户端到底想访问哪个域名下的网站。

这个判断依赖 HTTP 请求中的 Host 首部。

http 复制代码

GET /index.html HTTP/1.1
Host: blog.example.com

可以把虚拟主机的访问过程理解成这样：
flowchart LR A $"域名 A"$ --> C $"DNS 解析到同一台服务器"$ B $"域名 B"$ --> C C --> D $"HTTP 请求携带 Host 首部"$ D --> E $"服务器根据 Host 区分目标网站"$

所以，虚拟主机的核心不是"一台机器真的变成了多台机器"，而是服务器根据请求里的 Host 首部，把同一个 IP 上的不同域名区分开。

HTTP 请求路上的中间角色

HTTP 通信时，除了客户端和服务器，还可能存在一些用于转发通信数据的应用程序。书中重点介绍了三类：代理、网关、隧道。

它们都可以把请求转发给通信线路上的下一站服务器，也可以接收下一站服务器返回的响应，再转发给客户端。

代理：替客户端转发请求

代理是一种有转发功能的应用程序，扮演客户端和服务器之间的"中间人"角色。

它的基本行为是：
flowchart LR A $"客户端"$ -->|请求| B $"代理服务器"$ B -->|不改变请求 URI，转发请求| C $"源服务器"$ C -->|响应| B B -->|响应| A

持有资源实体的服务器被称为源服务器。代理从客户端接收请求后，会把请求转发给前方持有资源的目标服务器；源服务器返回的响应也会先经过代理，再传给客户端。

在 HTTP 通信中，可以级联多台代理服务器。每次通过代理转发请求或响应时，需要追加 Via 首部，用来标记经过的主机信息。
flowchart LR A $"客户端"$ --> B $"代理 proxy1"$ B --> C $"代理 proxy2"$ C --> D $"源服务器"$ D --> C C --> B B --> A

使用代理服务器的理由包括：

利用缓存减少网络带宽流量
在组织内部针对特定 URI 进行访问控制
获取访问日志

书中还按两个维度给代理分类：

分类维度	类型	含义
是否使用缓存	缓存代理	转发响应时预先保存资源副本，再次收到相同资源请求时可直接返回缓存
是否修改报文	透明代理	转发请求或响应时不对报文做任何加工
是否修改报文	非透明代理	转发请求或响应时会对报文内容进行加工

网关：让 HTTP 连接到非 HTTP 服务

网关和代理的工作机制很相似，也会转发其他服务器的通信数据。不同的是，网关能让通信线路上的服务器提供非 HTTP 协议服务。

书中举到的例子包括：

网关连接数据库，使用 SQL 语句查询数据
Web 购物网站通过网关和信用卡结算系统联动

网关还能提高通信的安全性，例如在客户端与网关之间的通信线路上加密，以确保连接安全。

隧道：建立一条安全通信线路

隧道是在相隔较远的客户端和服务器之间进行中转，并保持双方通信连接的应用程序。

它的目的，是按要求建立一条与其他服务器的通信线路，并使用 SSL 等加密手段进行通信，确保客户端能与服务器安全通信。
flowchart LR A $"客户端"$ --> B $"隧道"$ B --> C $"服务器"$ A <-. "通过隧道建立安全通信线路" .-> C

隧道本身不会解析 HTTP 请求，而是把请求保持原样中转给之后的服务器。通信双方断开连接时，隧道也会结束。

代理、网关、隧道的区别

这三个概念容易混在一起，可以用下面这张表快速区分：

概念	书中核心描述	典型作用
代理 Proxy	位于客户端和服务器之间，接收客户端请求并转发给源服务器，再把响应转发给客户端	缓存、访问控制、访问日志
网关 Gateway	转发其他服务器的通信数据，让服务器提供非 HTTP 协议服务	连接数据库、连接信用卡结算系统、提高通信安全性
隧道 Tunnel	在客户端和服务器之间中转并保持通信连接，本身不解析 HTTP 请求	使用 SSL 等加密手段建立安全通信线路

一句话记忆：

代理偏"转发"，网关偏"转换"，隧道偏"透明传输"。

缓存为什么能让 Web 更快

缓存是指代理服务器或客户端本地磁盘内保存的资源副本。

利用缓存，可以减少对源服务器的访问，从而节省通信流量和通信时间。缓存服务器属于代理服务器的一种，也就是缓存代理。

缓存服务器的基本工作方式可以概括为：
flowchart TD A $"客户端请求资源"$ --> B{"缓存服务器内是否已有资源副本？"} B -- "没有缓存" --> C $"向源服务器请求资源"$ C --> D $"转发响应时复制资源并保存"$ D --> E $"返回给客户端"$ B -- "已有缓存" --> F{"缓存是否仍然有效？"} F -- "有效" --> E F -- "需要确认或已失效" --> G $"向源服务器确认有效性"$ G --> H $"必要时重新获取新资源"$ H --> E

缓存的优势在于：如果某个资源已经被缓存，客户端就可以从缓存服务器获取资源，源服务器也不必反复处理相同请求。

但缓存并不是只要存在就一定能直接使用。书中强调，即使缓存服务器中有缓存，也可能因为客户端要求、缓存有效期、源服务器资源更新等因素，需要向源服务器确认资源的有效性。若判断缓存失效，缓存服务器会再次从源服务器获取新资源。

客户端也有缓存

缓存不仅可以存在于缓存服务器内，也可以存在于客户端浏览器中。

浏览器缓存如果有效，就不必再向服务器请求相同资源，可以直接从本地磁盘读取。和缓存服务器一样，当浏览器判断缓存过期后，也会向源服务器确认资源有效性；如果缓存已经失效，就会再次请求新资源。

补充理解：缓存相关首部要到后面一起看

第 5 章主要讲"缓存是什么、缓存服务器和客户端缓存怎么工作"。具体的缓存控制细节，会在 HTTP 首部相关内容里展开。

实际排查缓存问题时，常见会关注这些字段：

Cache-Control
Expires
ETag
Last-Modified
Age

其中 no-cache 和 no-store 很容易混淆：no-cache 不是"完全不缓存"，而是"使用缓存前需要确认有效性"；真正不保存内容的是 no-store。

实践：用 curl 观察 Host、代理和缓存首部

下面是结合开发场景的补充实践，不是原书中的命令示例。

1. 通过 Host 首部模拟访问虚拟主机

bash 复制代码

curl -H "Host: www.example.com" http://192.168.1.100/
curl -H "Host: blog.example.com" http://192.168.1.100/

同一个 IP 地址可以因为 Host 不同而路由到不同站点。

2. 通过 HTTP 代理发送请求

bash 复制代码

curl -x http://proxy.example.com:8080 -v http://www.example.com/

如果链路中存在代理，可以重点观察是否出现 Via 等字段。

3. 查看缓存相关响应首部

bash 复制代码

curl -I https://www.example.com/ \
  | grep -i "cache-control\|expires\|etag\|last-modified\|age"

常见需要关注的字段包括：

Cache-Control
Expires
ETag
Last-Modified
Age

实际开发中怎么用这些知识

下面这部分是结合开发场景的补充理解，不属于第 5 章原文逐条展开的内容。

配置反向代理时

需要关注：

Host 是否正确传给后端
是否存在多层代理
是否需要通过代理层记录访问日志
是否存在缓存导致资源没有及时更新

排查缓存问题时

可以按这个顺序看：

响应里有没有缓存相关首部
浏览器或代理是否命中缓存
缓存是否已经过期
是否向源服务器确认过资源有效性
源服务器是否返回了新资源

小结

第 5 章虽然篇幅不长，但它把 HTTP 从"客户端和服务器的两点通信"扩展到了更真实的 Web 通信链路里。

可以这样记：

虚拟主机 ：一台服务器承载多个站点，核心靠 Host 区分
代理：位于客户端和源服务器之间，负责转发请求和响应
网关：让 HTTP 通信连接到非 HTTP 服务，也可提高通信安全性
隧道：建立安全通信线路，本身不解析 HTTP 请求
缓存：保存资源副本，减少源服务器访问和通信时间

理解这些概念后，再看 Web 服务器、代理缓存、浏览器缓存和网关类系统，就能更清楚它们在 HTTP 通信链路里到底扮演什么角色。

不过，到这里我们其实还留下了一个更细的问题：代理为什么知道自己要追加 Via？缓存为什么知道资源什么时候过期？浏览器和服务器又是靠什么传递这些控制信息的？

答案都藏在 HTTP 报文的"标签"里，也就是下一篇要看的重点：HTTP 首部。如果说前面几章是在看 HTTP 怎么跑起来，那下一篇就要开始拆它身上贴满的说明书了。

《图解HTTP》--第5章-与HTTP协作的Web服务器

读《图解HTTP》：代理、网关、隧道与缓存到底是什么？

这篇文章解决什么问题

一台服务器为什么能放多个网站：虚拟主机

HTTP 请求路上的中间角色

代理：替客户端转发请求

网关：让 HTTP 连接到非 HTTP 服务

隧道：建立一条安全通信线路

代理、网关、隧道的区别

缓存为什么能让 Web 更快

客户端也有缓存

补充理解：缓存相关首部要到后面一起看

实践：用 curl 观察 Host、代理和缓存首部

1. 通过 Host 首部模拟访问虚拟主机

2. 通过 HTTP 代理发送请求

3. 查看缓存相关响应首部

实际开发中怎么用这些知识

配置反向代理时

排查缓存问题时

小结