Python爬虫

目录

1.网络爬虫

2.爬虫的分类

①通用爬虫

②聚焦爬虫

③增量式爬虫

3.反爬机制&反反爬策略

4.HTML网页(详细复习前面web知识)

5.网络请求

6.请求头常见参数

①User-Agent

②Referer

③Cookie

7.常见响应状态码

[8.URL(host、port、path ...)](#8.URL(host、port、path ...))

9.网页分类

①表层网页

②深层网页


1.网络爬虫

网络爬虫是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。

网页一般由html语言进行编写,抓取其中的数据就相当于在html中找到相应的内容进行抓取。

将网页中的数据和信息保存到本地就是网络爬虫。

2.爬虫的分类

①通用爬虫

抓取系统重要组成部分。(抓取的是一整网页的数据)

②聚焦爬虫

是建立在通用爬虫的基础之上。(抓取的是页面中特定的局部内容)

③增量式爬虫

是检测网站中数据更新的情况。(只会抓取网站中最新更新的数据)

3.反爬机制&反反爬策略

反爬机制:门户网站,可以通过制定相应的策略或者技术手段,防止爬虫程序进行网站数据的爬取。

反反爬策略:爬虫程序可以通过制定相关的策略或者技术手段,破解门户网站中具有的反爬机制,从而获取门户网站。

4.HTML网页(详细复习前面web知识)

HTML网页主要由标签构成。

标签分为闭合标签和自闭和标签。

标签还包含有标签属性。

5.网络请求

已知ip想服务器发送了ip,即访问请求,服务器返回html的过程称为网络请求。

常见协议:(GET和POST最为常用)

GET:发送请求来获得服务器上的资源。

POST:向服务器提交资源让服务器处理。

HEAD:主要用来检查资源或者超链接的有效性或者是否可以打开,检查网页是否被篡改或者更新。

PUT:向指定资源位置上上传最新内容

DELETE、CONNECT、OPTIONS、TRACE...

6.请求头常见参数

①User-Agent

浏览器的名称。

②Referer

表明网页是从哪个网站转跳而来。

③Cookie

HTTP协议是无状态的。当多次请求同时发送时,使用Cookie作为区分。

7.常见响应状态码

状态码 含义

200 请求成功

301 永久重定向,资源(网页等)被永久转移到其他URL

404 请求的资源(网页)不存在

500 内部服务器错误

8.URL(host、port、path ...)

URL表示统一资源定位符,俗称网址。

每一个信息资源在网上都有唯一的一个网址,这就是URL。

URL遵守以下法则:scheme-定义因特网服务类型,即访问因特网的协议。常见协议有:https、http、ftp、file。

  • http:明文传输,不安全,容易被截取到相关信息。

  • https:加密传输,相对安全。

  • ftp:qq传输文件时,就会遵循ftp协议。

  • file:本地文件访问时遵循的协议。

host:主机名、域名

port:定义主机上的端口号(http默认端口号是80;https默认端口号443)

path:定义服务器上的路径

9.网页分类

网页按存在方式可以分为两类:

①表层网页

传统引擎可以索引的页面,主要以超链接就可以达到的静态网页构成的网页。

②深层网页

深层网页是指大部分内容无法通过静态链接获取,只能通过用户提交的一些 关键词才能获取。

相关推荐
逸模4 小时前
告别熬夜手工整理台账,逸模智能归集实现项目数据自动化存档
大数据·运维·人工智能·笔记·其他·信息可视化·自动化
z落落4 小时前
C# 泛型方法(原理、类型推断、多泛型参数)+泛型效率(普通类型 VS Object装箱 VS 泛型)
开发语言·c#
L_09074 小时前
【C++】异常
开发语言·c++
世辰辰辰5 小时前
批量修改图片/文本名子
开发语言·python·批量修改文件名
audyxiao0016 小时前
ICLR 2026论文分享 | WorldGym:用世界模型打造机器人策略评估新范式
大数据·人工智能·大模型·智能体·世界模型
Rubin智造社6 小时前
Anthropic安全白皮书2|三级成熟度模型:你的AI智能体该配哪级安全?
大数据·安全·沙箱隔离·零信任成熟度模型·三级安全框架·jit权限·不可变审计
ACP广源盛139246256737 小时前
GSV2221 显示转换芯片@ACP#赋能 RTX Spark 端侧 AI 设备,构建多屏全模态视觉交互新生态
大数据·人工智能·嵌入式硬件·gpt·spark·电脑·音视频
myenjoy_17 小时前
MQTT 与 Sparkplug B——从车间到云端的最后一公里
网络·python
字节跳动开源7 小时前
你的 Agent 每次都“失忆”?这个工具彻底治好了我的前端开发焦虑
大数据·开源·agent
z落落7 小时前
C# 四种特殊类:抽象类、密封类、静态类、部分类
开发语言·c#