爬虫的流程

Islucas2024-09-24 16:52

爬虫的流程

获取网页
提取信息
保存数据
自动化程序
能爬怎样的数据

获取网页

获取网页就是获取网页的源代码，源代码里包含了网页的部分有用信息，所以只要把源代码获取下来，就可以从中提取想要的信息
浏览器访问网页的本质：浏览器向服务器发送请求 ------>返回的响应体便是网页源代码------>浏览器解析源代码呈现页面
python访问网页的本质：python利用urllib、requests等库实现HTTP请求------>由response等库获取响应，得到响应之后需要解析数据结构中的 body 部分得到网页的源代码------>。。。

提取信息

由于网页的结构有一定的规则，所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
利用正则表达式来提取想要的数据

保存数据

提取信息后，我们一般会将提取到的数据保存到某处以便后续使用
保存形式：可以简单保存为 TXT 文本或 JSON 文本，也可以保存到数据库，如 MySQL

自动化程序

自动化程序：意思是说爬虫可以代替人来完成这些操作。（数量特别大时）

能爬怎样的数据

能对应URL，基于HTTP或HTTPS协议的，都可以抓取

上一篇：Java框架学习（Spring）（tx）（03）

下一篇：质量全面管控——N0.1项目管理

热门推荐

01GitHub 镜像站点 02Codex 接入 DeepSeek API 完整配置文档 03【踩坑记录 | 第一篇】微软商店无法使用时，如何手动安装 OpenAI Codex？附`.msix`文件系统错误解决方法 04裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 05CC-Switch & Claude 基于 Linux 服务器安装使用指南 06【AI】2026 年具身智能模型和世界模型总结 07几个好用的ip纯净度检测网站 08Codegraph 实战：用知识图谱让 AI 编程效率翻倍 09装上就回不去了：CodeGraph 让 AI 编程效率飙升 92%，它到底做了什么？10Cursor 接入 DeepSeek‑V4‑Pro 完整指南（2026 实测）