【爬虫基础】第二部分爬虫基础理论 P3/3

爬虫相关文档，希望互相学习，共同进步

前言

1.知识点碎片化：每个网站实现的技术相似但是有区别，要求我们根据不同的网站使用不同的应对手段。主要是常用的一些网站爬取技术。

2.学习难度：入门比web简单，但后期难度要比web难，在于爬虫工程师与网站开发及运维人员的对抗。比如你写了爬虫但是被网站运维人员发现后添加反爬，那么就要解决反爬。即平台更新换代，爬虫策略需要实时更新。

3.学习特点：以摸个网站爬虫为讲解对象，即一个技术点的案例。

4.后续发展：要求掌握的东西多，工作中根据工作需要涉及到更多没有接触的知识。

5.法律层面：爬虫相关工作属于灰色地带，目前国内现行法律对于爬虫相关评判还没有明确制度。

6.建议：好记性不如烂笔头，建议多找网站进行爬取联系，同时做好笔记。

1.概述

爬虫通常会遵循一定的规则和算法，以确保能够高效地遍历互联网并收集到所需的数据。

本节章节：

第一节爬虫理论原理

第二节 http协议

第三节 chrome浏览器抓包说明（本文）

第一节爬虫理论原理见：【爬虫基础】第二部分爬虫基础理论 P1/3-CSDN博客

第二节 http协议见：【爬虫基础】第二部分爬虫基础理论 P2/3-CSDN博客

2.进入开发者模式

**开发者工具使用：**以Google Chrome浏览器为例，Windows和Linux平台按F12， macOS选择视图 ->开发者 ->开发者工具或直接使用alt+command+i快捷键，另一通用操作是在网页右击选择检查。

右击检查-开发者工具-network,刷新后列出的是刷新时访问这个网络地址所发送的所有请求。随便点击一个网络包，header时，找到请求头。重点观察请求头部分。

常用标签选项说明

Elements：元素，用于查看或修改HTML标签

Console：控制台，执行js代码，显示脚本输出的调试信息

Sources：源代码，查看静态资源文件，断点调试js代码

Network：网络，查看http协议的通信过程，http请求的详细信息，如请求头、响应头等

3. chrome浏览器抓包说明

知识点：

1.headers请求头说明

2.无痕窗口

3.开发者工具工作簿(网络)

1.preserve log

2.filter过滤

3.类别区筛选

4.放大镜搜索

5.search搜索

6.console控制台

7.sources来源

8.element元素

3.1 headers 请求头说明

复制代码

Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9
Cache-Control: max-age=0
Connection: keep-alive
Cookie: BIDUPSID=D18E0CF343C1DC46DC0CA99A16BE18C3; PSTM=1682317572; BD_UPN=12314753; newlogin=1; BAIDUID=35D056484E32488A12B4E189D11FA2CE:FG=1; BAIDUID_BFESS=35D056484E32488A12B4E189D11FA2CE:FG=1; COOKIE_SESSION=15_8_6_8_5_11_0_0_6_4_30_3_2781_82656_3_0_1682604006_1682590568_1682604003%7C9%2382625_24_1682590530%7C6; ZFY=9ZFyWo7Lo:BUAL:ASW4KskwxGRSb0pDGxJPrZe1i0sXKc:C; B64_BOT=1; ariaDefaultTheme=undefined; RT="z=1&dm=baidu.com&si=099661dc-c724-4b0c-9509-1fe74c89ab54&ss=lh0aynxo&sl=1&tt=1rl&bcn=https%3A%2F%2Ffclog.baidu.com%2Flog%2Fweirwood%3Ftype%3Dperf&ld=2js&nu=4u4ak2th&cl=74vq&ul=9fq9&hd=9fqp"; BA_HECTOR=8ha0a1a4a5258h8k002k212t1i4pokq1m; BDORZ=FFFB88E999055A3F8A630C64834BD6D0; channel=www.2345.com; baikeVisitId=831ddf12-d1d1-425e-aa33-fb8119db1e31; ab_sr=1.0.1_Y2U3YzkxYjRmN2Q2MTFkMjhiZTVlZTU3NDFhYjQ0NTBjNDhlNWFmM2VhNGUzNDg1NzZkZGIwNTFmNWM5ODY5NDQ3YjMxMjc4NWNmM2Y3ODhiNmUxMGQ0MTE0NDM2NDgwODM2OTIyYmI5NzJmYTJhYTNiMDJiY2YwN2I0ODc4ODFmZDg4Yjg5N2E0ZDRjNmM1MDVjN2QyOWZiMDBlODc4NQ==; BD_HOME=1; H_PS_PSSID=38516_36545_38529_38469_38538_38468_38486_37923_37709_26350_38544
Host: www.baidu.com
sec-ch-ua: "Chromium";v="112", "Google Chrome";v="112", "Not:A-Brand";v="99"
sec-ch-ua-mobile: ?0
sec-ch-ua-platform: "Windows"
Sec-Fetch-Dest: document
Sec-Fetch-Mode: navigate
Sec-Fetch-Site: none
Sec-Fetch-User: ?1
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36

说明：

user_agent：浏览器的身份，目的：欺骗服务器

Cookie：用户(浏览器)的缓存，缓存的用户信息(身份信息)或者是浏览记录信息

身份信息在库中，有一部分是记录权限信息、加密信息等权限机制

Host：服务器的域名

referer：来源，目的是告诉对方服务器，本请求的来源。

3.2 无痕窗口

（1）进入无痕模式

在浏览器，点击右键或者浏览器右上角，点击"打开新的无痕模式窗口"，即可进入。

（2）说明

Chrome 不会保存：

1.您的浏览记录

2.Cookie 和网站数据

3.在表单中填写的信息

重点：

无痕模式下：

对地址访问成功，代表该地址的headers只需要一个ua一个键值对

通过无痕模式来判断地址的访问需要那些headers的键值对

非无痕模式下：

打开一个新的浏览器窗口，访问地址，能够访问，说明header中需要ua，cookie即可

除上述操作，地址还是不能够访问，则需要携带referer字段