巨细!【python爬虫实战案例】

这篇是纯干货分享,对python感兴趣的可以认真看起来!

一、爬虫的基本概述

1、基本概念

爬虫(又称为网页蜘蛛,网络机器人,在 FOAF 社区中间,更经常的称为网页追逐者);它是一种按照一定的规则,自动地抓取网络信息的程序或者脚本。如果我们把互联网比作一张大的蜘蛛网,那一台计算机上的数据便是蜘蛛网上的一个猎物,而爬虫程序就是一只小蜘蛛,他们沿着蜘蛛网抓取自己想要的猎物/数据。

2、基本流程

3、爬虫核心技巧

3.1 请求库

请求库有:requests、selenium、urllib、aiohttp,我个人比较推荐新手小白掌握urllib和requests请求库。

3.2 抓包工具分析网络请求

抓取工具主要有chrome firefox fidder appium,其中fidder基本可以说目前最为全面和强大的抓包工具。

3.3 解析数据库

解析库有非常多可以选择,比如CSS、pyqery、re、xpath等,比较建议掌握Beautiful Soup和Xpath

3.4 保存数据

小规模数据可以使用txt文件、json文件、csv文件等方式来保存文件。

大规模数据就需要使用数据库像mysql,mongodb、redis等,就比较方便查询管理。

二、代码分解

首先,导入需要用到的库:

然后,定义各个国家的请求地址:

定义一个请求头request header:

解析每个字段信息:

最后,保存Excel数据:

相关推荐
无须logic ᭄5 分钟前
CrypTen项目实践
python·机器学习·密码学·同态加密
百流17 分钟前
scala文件编译相关理解
开发语言·学习·scala
Channing Lewis18 分钟前
flask常见问答题
后端·python·flask
蘑菇丁19 分钟前
ansible批量生产kerberos票据,并批量分发到所有其他主机脚本
java·ide·eclipse
Channing Lewis19 分钟前
如何保护 Flask API 的安全性?
后端·python·flask
水兵没月1 小时前
钉钉群机器人设置——python版本
python·机器人·钉钉
呼啦啦啦啦啦啦啦啦1 小时前
【Redis】持久化机制
java·redis·mybatis
Evand J1 小时前
matlab绘图——彩色螺旋图
开发语言·matlab·信息可视化
我想学LINUX2 小时前
【2024年华为OD机试】 (A卷,100分)- 微服务的集成测试(JavaScript&Java & Python&C/C++)
java·c语言·javascript·python·华为od·微服务·集成测试