【第一节】Python爬虫基础-HTTP基本原理

前言

一、URI和URL是什么

二、什么是超文本

三、HTTP和HTTPS的区别

四、HTTP请求过程

五、请求

六、响应

前言

在着手开发爬虫程序之前，我们需要先掌握一些基础概念。本节将详细讲解HTTP的基本工作原理，重点分析从浏览器输入网址到获取网页内容的全过程。理解这些知识对后续掌握爬虫原理具有重要意义。

一、URI和URL是什么

首先需要明确URI和URL的概念。URI全称为统一资源标志符（Uniform Resource Identifier）；URL全称为统一资源定位符（Universal Resource Locator）。

举例说明，https://img-home.csdnimg.cn/images/20201124032511.png 是csdn网站图标地址，它既是URL也是URI。这个链接明确指出了访问该图标资源的具体方式，包括使用的https协议、根目录"/"路径以及资源名称20201124032511.png。通过这样的链接，我们就能在互联网上准确定位到目标资源，这正是URL/URI的核心功能。

需要说明的是，URL实际上是URI的一个子集。也就是说，所有URL都属于URI，但并非所有URI都是URL。那么什么样的URI不属于URL呢？URI还有一个子类别叫URN（统一资源名称，Universal Resource Name）。URN仅对资源进行命名而不提供定位信息，例如urn:isbn:0451450523这个ISBN编号可以唯一标识一本书，但没有说明在哪里能找到这本书。URL、URN和URI之间的关系可以通过下图直观展示。

不过在当前的互联网环境中，URN的使用非常罕见，因此绝大多数URI实际上都是URL。日常使用的网页链接，既可以称为URL也可以称为URI，个人更习惯使用URL这个称呼。

二、什么是超文本

接下来介绍超文本（hypertext）的概念。我们在浏览器中看到的网页，实际上就是由超文本解析呈现的。网页源代码由HTML代码构成，包含各种标签元素，比如显示图片的img标签、定义段落的p标签等。浏览器解析这些标签后，就形成了我们日常浏览的网页界面，而这些HTML源代码就是所谓的超文本。

实际操作中，以淘宝首页为例，在Chrome浏览器中打开页面后，右键点击选择"检查"选项（或直接按F12键），即可调出开发者工具。在Elements标签页中，可以看到当前网页的源代码，这些代码都属于超文本范畴，如下图所示。

三、HTTP和HTTPS的区别

观察淘宝首页https://www.taobao.com/的URL开头部分，可以看到http或https前缀，这表示访问资源所使用的协议类型。除此之外，我们还可能遇到以ftp、sftp、smb等开头的URL，它们也代表不同的协议类型。在爬虫工作中，主要处理的是基于http或https协议的页面。下面重点介绍这两种协议。

HTTP全称为超文本传输协议（Hyper Text Transfer Protocol），主要用于将超文本数据从网络传输到本地浏览器，确保文档能够高效准确地传输。该协议由万维网协会（World Wide Web Consortium）和互联网工程任务组（IETF）共同制定，目前普遍使用的是HTTP1.1版本。

HTTPS全称是安全超文本传输协议（Hyper Text Transfer Protocol over Secure Socket Layer），简单理解就是在HTTP基础上增加了SSL安全层。HTTPS的安全基础是SSL加密，所有通过它传输的数据都会经过加密处理。其主要功能包括：建立安全的信息传输通道确保数据安全；验证网站的真实性。使用HTTPS的网站，用户可以通过点击浏览器地址栏的锁形图标查看网站认证信息，也可以通过CA机构颁发的安全签章进行验证。近年来，越来越多的网站和应用都转向使用HTTPS协议，例如：

（1）苹果公司要求所有iOS应用在2017年1月1日前必须改用HTTPS加密，否则无法上架App Store。

（2）谷歌从2017年1月发布的Chrome56版本开始，会对未使用HTTPS加密的网站显示"不安全"警告。

（3）微信小程序开发规范要求后台必须使用HTTPS进行网络通信，不符合要求的域名和协议将无法发起请求。

需要注意的是，有些网站虽然使用了HTTPS协议，但浏览器仍会提示不安全。例如很早以前访问12306官网https://www.12306.cn/时，Chrome浏览器会显示"您的连接不是私密连接"的警告（如下图所示）。

这是因为12306的CA证书是由中国铁道部自行签发的，以前没有得到CA机构的信任，导致证书验证失败，现在应该没啥问题了。但实际上数据传输仍然是经过SSL加密的。在爬取这类网站时，需要设置忽略证书选项，否则会出现SSL连接错误。

四、HTTP请求过程

当我们在浏览器地址栏输入URL并回车后，就能看到网页内容。实际上这个过程包含了多个步骤：浏览器向网站服务器发送请求，服务器接收并处理请求后返回响应，响应中包含网页源代码等内容，浏览器解析后最终呈现网页界面。这个过程的基本模型如下图所示。

在这个模型中，客户端指的是用户使用的浏览器（PC端或移动端），服务器则是托管目标网站的服务器。

为了更直观地观察这个过程，我们可以使用Chrome浏览器的开发者工具中的Network面板。它能完整记录访问网页时发生的所有网络请求和响应。具体操作方法是：打开Chrome浏览器，右键选择"检查"调出开发者工具，访问百度首页http://www.baidu.com/，在Network面板中可以看到一系列请求记录，每个记录代表一次完整的请求-响应过程，如下图所示。

以第一个请求（www.baidu.com）为例，各列信息含义如下：

Name：请求名称，通常取自URL的最后部分。
Status：响应状态码，200表示请求成功。
Type：请求的文档类型，document表示请求的是HTML文档。
Initiator：标记请求的发起来源。
Size：从服务器下载的资源大小，若从缓存获取则显示from cache。
Time：从发起请求到接收响应所花费的总时间。
Waterfall：以瀑布流形式可视化展示请求过程。

点击具体条目可以查看详细信息（如下图所示）：

General部分包含Request URL（请求地址）、Request Method（请求方法）、Status Code（状态码）、Remote Address（服务器地址和端口）以及Referrer Policy（来源策略）。下方还分别列出了Response Headers（响应头）和Request Headers（请求头）。请求头包含浏览器标识、Cookies、Host等重要信息，服务器通过这些信息判断请求的合法性。响应头则包含服务器类型、文档类型、日期等信息，浏览器接收后会据此解析响应内容。

下面我们分别详细介绍请求和响应的组成要素。