爬虫的流程

爬虫的流程

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求 ------>返回 的响应体便是网页源代码------>浏览器解析 源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求------>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码------>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取

相关推荐
马哥python说44 分钟前
【效率软件】抖音转换工具:主页链接和抖音号一键批量互转
爬虫·python
XiaoLeisj3 小时前
【智能协同云图库】智能协同云图库第七弹:基于 Jsoup 爬虫实现以图搜图、颜色搜图、批量操作
spring boot·爬虫·servlet·java-ee·mybatis·门面模式·jsoup
小白学大数据2 天前
基于Python的新闻爬虫:实时追踪行业动态
开发语言·爬虫·python
小白iP代理2 天前
动态IP+AI反侦测:新一代爬虫如何绕过生物行为验证?
人工智能·爬虫·tcp/ip
叫我:松哥2 天前
基于网络爬虫的在线医疗咨询数据爬取与医疗服务分析系统,技术采用django+朴素贝叶斯算法+boostrap+echart可视化
人工智能·爬虫·python·算法·django·数据可视化·朴素贝叶斯
bksheng3 天前
【SSL证书校验问题】通过 monkey-patch 关掉 SSL 证书校验
网络·爬虫·python·网络协议·ssl
叫我:松哥3 天前
优秀案例:基于python django的智能家居销售数据采集和分析系统设计与实现,使用混合推荐算法和LSTM算法情感分析
爬虫·python·算法·django·lstm·智能家居·推荐算法
xnglan3 天前
使用爬虫获取游戏的iframe地址
开发语言·爬虫·python·学习
荼蘼4 天前
python爬虫实战-小案例:爬取苏宁易购的好评
开发语言·爬虫·python
香蕉可乐荷包蛋4 天前
爬虫基础概念
爬虫