爬虫的流程
获取网页
- 获取网页就是获取网页的源代码,源代码里包含了网页的部分有用信息,所以只要把源代码获取下来,就可以从中提取想要的信息
- 浏览器访问网页的本质:浏览器向服务器发送请求 ------>返回 的响应体便是网页源代码------>浏览器解析 源代码呈现页面
- python访问网页的本质:python利用urllib、requests等库实现HTTP请求------>由response等库获取响应,得到响应之后需要解析数据结构中的 body 部分得到网页的源代码------>。。。
提取信息
- 由于网页的结构有一定的规则,所以还有一些根据网页节点属性、CSS 选择器或 XPath 来提取网页信息的库
- 利用正则表达式来提取想要的数据
保存数据
- 提取信息后,我们一般会将提取到的数据保存到某处以便后续使用
- 保存形式:可以简单保存为 TXT 文本或 JSON 文本,也可以保存到数据库,如 MySQL
自动化程序
- 自动化程序:意思是说爬虫可以代替人来完成这些操作。(数量特别大时)
能爬怎样的数据
能对应URL,基于HTTP或HTTPS协议的,都可以抓取