爬虫的流程

爬虫的流程

获取网页

  • 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
  • 浏览器访问网页的本质:浏览器向服务器发送请求 ------>返回 的响应体便是网页源代码------>浏览器解析 源代码呈现页面
  • python访问网页的本质:python利用urllib、requests等库实现HTTP请求------>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码------>。。。

提取信息

  • 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
  • 利用正则表达式来提取想要的数据

保存数据

  • 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
  • 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL

自动化程序

  • 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)

能爬怎样的数据

能对应URL,基于HTTP或HTTPS协议的,都可以抓取

相关推荐
亿牛云爬虫专家几秒前
优化分布式采集的数据同步:一致性、去重与冲突解决的那些坑与招
分布式·爬虫·数据采集·爬虫代理·代理ip·数据同步·房地产
深蓝电商API16 小时前
静态网页 vs 动态网页:爬虫该如何选择抓取策略?
爬虫
B站_计算机毕业设计之家1 天前
数据分析:Python懂车帝汽车数据分析可视化系统 爬虫(Django+Vue+销量分析 源码+文档)✅
大数据·爬虫·python·数据分析·汽车·可视化·懂车帝
孤狼warrior1 天前
爬虫+卷积神经网络项目实战解析——对图像狗的识别分类
人工智能·爬虫·神经网络·cnn·卷积神经网络
嫂子的姐夫2 天前
11-py调用js
javascript·爬虫·python·网络爬虫·爬山算法
kunge1v52 天前
学习爬虫第五天:自动化爬虫
爬虫·python·自动化
楼田莉子2 天前
python学习:爬虫+项目测试
后端·爬虫·python·学习
kunge1v52 天前
学习爬虫第三天:数据提取
前端·爬虫·python·学习
kunge1v53 天前
学习爬虫第四天:多任务爬虫
爬虫·python·学习·beautifulsoup
你也渴望鸡哥的力量么3 天前
爬虫学习笔记
笔记·爬虫·学习