爬虫的流程

爬虫的流程

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求 ------>返回 的响应体便是网页源代码------>浏览器解析 源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求------>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码------>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取

相关推荐
维他奶糖619 小时前
Python 实战:Boss 直聘职位信息爬虫开发全解析
开发语言·爬虫·python
xcLeigh9 小时前
Python高效数据采集实战:基于IPIDEA代理的全方位教程
爬虫·python·数据采集·代理·request·ipidea
深蓝电商API9 小时前
Scrapy信号机制:监控爬虫全生命周期
爬虫·python·scrapy
天天进步20151 天前
从脚本到服务:5 分钟通过 Botasaurus 将你的爬虫逻辑转化为 Web API
前端·爬虫
深蓝电商API1 天前
Scrapy 爬虫异常处理与重试机制优化
爬虫·python·scrapy
SEO_juper1 天前
精准控制爬虫抓取:Robots.txt 核心配置解析与常见避坑指南
人工智能·爬虫·seo·数字营销
MoonPointer-Byte2 天前
【Python爬虫实战】用 Flet 把爬虫做成手机 App
爬虫·python·智能手机
深蓝电商API2 天前
Scrapy CrawlSpider规则提取器深度实战
爬虫·python·scrapy
写代码的【黑咖啡】2 天前
深入了解 Python 中的 Scrapy:强大的网络爬虫框架
爬虫·python·scrapy
上海云盾-高防顾问2 天前
WAF规则自定义实战指南:精准防护零误判
爬虫·安全·web安全