网络爬虫基础介绍

什么是爬虫

Web 爬虫，也称为网络蜘蛛或网络机器人，是一种用于自动化访问和抓取网页内容的程序。爬虫通过模拟用户访问网页的行为，从互联网上获取数据，并将其存储或进一步处理。

爬虫的应用场景

搜索引擎索引：如 Google、Bing，构建和更新搜索引擎的网页索引。

数据挖掘和分析：如价格监控、市场研究、新闻聚合等。

内容聚合：如新闻聚合网站、比价网站，从多个来源抓取内容并汇总。

竞争情报：监控竞争对手网站的变化，获取最新的市场动向。

爬虫的类型

通用爬虫（General Web Crawler）

描述：抓取尽可能多的网页，不针对特定的网站或内容。

应用：搜索引擎（如 Googlebot、Bingbot）。

特点：广泛抓取，覆盖整个互联网，遵循网站的 robots.txt 文件。

聚焦爬虫（Focused Crawler）

描述：根据特定主题或关键词抓取相关网页。

应用：研究特定领域的信息、监控特定主题的动态。

特点：目标明确，抓取范围较狭窄，但深入特定领域。

增量爬虫（Incremental Crawler）

描述：只抓取和更新自上次爬取以来发生变化的网页。

应用：保持索引的最新状态，减少重复抓取。

特点：高效更新，节省带宽和资源。

深度爬虫（Deep Web Crawler）

描述：抓取深网内容，包括动态生成的页面、需要表单提交才能访问的内容。

应用：获取非公开网页、数据库内容、需要认证访问的资源。

特点：复杂度高，可能需要模拟用户行为（如登录、表单提交）。

垂直爬虫（Vertical Crawler）

描述：专注于特定行业或领域的网站内容抓取。

应用：电商比价网站、招聘信息聚合、房产信息收集。

特点：聚焦于某一行业，抓取深度较深，内容质量较高。

动态爬虫（Dynamic Crawler）

描述：能够抓取动态生成的内容，通过模拟浏览器行为执行 JavaScript。

应用：抓取现代 Web 应用（如单页应用，SPA）的内容。

特点：复杂度高，需要使用工具如 Selenium、Puppeteer。

爬虫关注的请求头

Host：指定请求的目标主机和端口号。例如：Host: www.example.com

Content-Type：告诉服务器请求中包含的内容的类型，以便服务器正确解析和处理请求主体。常见的值有 application/json，application/x-www-form-urlencoded，multipart/form-data 等。例如：Content-Type: application/json

Connection：决定客户端和服务器之间的网络连接是否保持打开，或者在请求完成后关闭。常见的值有 keep-alive 和 close。例如：Connection: keep-alive

Upgrade-Insecure-Requests：用于告知服务器，客户端愿意接收通过 HTTPS 提供的资源，而不是通过 HTTP。例如：Upgrade-Insecure-Requests: 1

User-Agent：标识请求的客户端应用程序类型、操作系统、软件版本等。帮助服务器识别请求的客户端，有时服务器会根据 User-Agent 返回不同的内容或进行特定的处理。例如：User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36

Referer：指示请求的来源页面的 URL。用于告诉服务器当前请求来自哪个页面。服务器有时会根据 Referer 进行分析或防止跨站请求伪造（CSRF）攻击。例如：Referer: https://www.example.com/previous-page

Cookie：包含客户端存储的所有 cookie 数据。用于在请求中传递与服务器会话相关的数据，比如用户登录状态、首选项等。服务器可以使用这些 cookie 来识别和跟踪用户。例如：Cookie: sessionId=abc123; theme=light

Authorization：包含身份验证信息。用于提供凭据，以证明请求用户的身份。常见的值有 Basic（基本认证）和 Bearer（通常用于 JWT 或 OAuth 令牌）。例如：Authorization: Bearer <token>

Accept-Language：指定客户端期望接收的语言（如 en-US, zh-CN）。帮助服务器返回本地化的内容。例如：Accept-Language: zh-CN

Accept-Encoding：指定客户端可以处理的内容编码（如 gzip, deflate），使用何种压缩方法传输数据以节省带宽。例如：Accept-Encoding: gzip, deflate

爬虫关注的响应头

Content-Type：指示响应内容的 MIME 类型，告诉客户端如何解释响应内容。例如，text/html 表示 HTML 文档，application/json 表示 JSON 数据。例如：Content-Type: application/json

Content-Length：指示响应内容的字节长度。例如：Content-Length: 348

Set-Cookie：用于设置客户端的 cookie，服务器通过此头部向客户端发送 cookie，客户端会在后续请求中携带这些 cookie。例如：Set-Cookie: sessionId=abc123; Path=/; HttpOnly

Server：提供服务器相关信息，但过多的详细信息可能会暴露安全风险。例如：Server: Apache/2.4.41 (Ubuntu)

Cache-Control：指示缓存策略，控制客户端和中间代理的缓存行为，常见的值包括 no-cache, no-store, max-age=3600。例如：Cache-Control: no-cache

Content-Encoding：指示响应内容的编码方式。常见的编码方式有 gzip, deflate, br。例如：Content-Encoding: gzip

Location：指示重定向的目标 URL。用于重定向响应，通常与状态码 3xx 一起使用，告知客户端要重定向到的新位置。例如：Location: https://www.example.com/new-page

Access-Control-Allow-Origin：控制跨域资源共享（CORS），指定哪些域名可以访问资源。* 表示允许所有域名访问。例如：Access-Control-Allow-Origin: *

爬虫对响应状态码的处理建议

常见状态码

1xx 信息响应（Informational Responses）

100 Continue

描述：请求已收到，客户端可以继续发送请求体。

应用：适用于较大请求体的分段传输。

2xx 成功响应（Successful Responses）

200 OK

描述：请求成功，服务器已返回所请求的数据。

应用：抓取成功的页面。

201 Created

描述：请求成功，并且服务器创建了新的资源。

应用：POST 请求后，资源成功创建时的响应。

204 No Content

描述：请求成功，但没有内容返回。

应用：DELETE 请求后，资源成功删除时的响应。

3xx 重定向响应（Redirection Responses）

301 Moved Permanently

描述：请求的资源已永久移动到新 URL。

应用：更新爬虫的 URL 记录，抓取新的地址。

302 Found

描述：请求的资源临时移动到新 URL。

应用：跟随重定向抓取新地址，但不更新 URL 记录。

304 Not Modified

描述：请求的资源未修改，可以使用缓存版本。

应用：减少不必要的抓取，使用本地缓存数据。

4xx 客户端错误响应（Client Error Responses）

400 Bad Request

描述：请求无效，服务器无法处理。

应用：检查请求的构建，修正错误。

401 Unauthorized

描述：请求需要身份验证。

应用：提供必要的认证信息，如 Token 或 Cookie。

403 Forbidden

描述：服务器拒绝请求，无权访问资源。

应用：可能需要更改策略或提供认证信息。

404 Not Found

描述：请求的资源不存在。

应用：记录该 URL，不再尝试抓取。

429 Too Many Requests

描述：请求频率过高，被服务器限流。

应用：调整抓取频率，遵守网站的请求速率限制。

5xx 服务器错误响应（Server Error Responses）

500 Internal Server Error

描述：服务器内部错误，无法完成请求。

应用：通常是服务器端问题，可能重试请求。

502 Bad Gateway

描述：网关或代理服务器从上游服务器接收到无效响应。

应用：可能是暂时性问题，重试请求。

503 Service Unavailable

描述：服务器目前无法处理请求，通常是暂时性的。

应用：通常由于服务器过载或维护，稍后重试。

504 Gateway Timeout

描述：网关或代理服务器等待上游服务器响应超时。

应用：可能是暂时性问题，重试请求。

处理建议

成功状态码（2xx）：正常处理，提取和存储数据。

重定向状态码（3xx）：跟随重定向，确保抓取正确的最终 URL。

客户端错误状态码（4xx）：分析和调整请求，避免无效请求。

服务器错误状态码（5xx）：适当重试请求，但要设置重试次数上限，防止无限重试。

状态码不是绝对可信的，例如：一些网站为了防止爬虫过度抓取，会故意返回错误的状态码，如 403、404、429、503等。一切以是否从响应中获取到数据为准，network中得到的源码是判断依据，elements中的源码是渲染之后的，不能作为判断依据。

爬虫的法律问题

数据访问权限：

爬虫必须遵守目标网站的使用条款和服务协议。某些网站可能明确禁止自动化访问或数据抓取。

解决方案：确保在合法授权或许可的范围内进行数据访问和抓取。

著作权和数据所有权：

爬虫抓取的内容可能受到版权保护。对于未经许可的数据抓取，可能侵犯原作者的著作权。

解决方案：尊重版权法，仅抓取公开或允许使用的数据，或者获取数据使用许可。

反竞争行为：

爬虫抓取竞争对手的价格信息或商业机密，可能构成不正当竞争或侵犯商业秘密。

解决方案：遵守竞争法规定，避免获取或使用未公开的商业机密信息。

隐私保护：

爬虫抓取的数据可能涉及个人隐私，如用户信息或敏感数据。未经授权地收集和处理这些数据可能违反隐私法规。

解决方案：遵守数据保护法律，确保在合法和透明的条件下处理个人数据。

网络攻击和破坏：

爬虫不得用于未经授权的网络攻击或破坏行为，如对目标网站进行拒绝服务攻击（DDoS）或其他恶意行为。

解决方案：遵守计算机犯罪法，确保使用爬虫技术不会损害他人的网络安全和正常运作。