巨细！【python爬虫实战案例】

电商数据girl2024-02-21 15:01

这篇是纯干货分享，对python感兴趣的可以认真看起来！

爬虫（又称为网页蜘蛛，网络机器人，在 FOAF 社区中间，更经常的称为网页追逐者）；它是一种按照一定的规则，自动地抓取网络信息的程序或者脚本。如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，他们沿着蜘蛛网抓取自己想要的猎物/数据。

3.1 请求库

请求库有：requests、selenium、urllib、aiohttp，我个人比较推荐新手小白掌握urllib和requests请求库。

3.2 抓包工具分析网络请求

抓取工具主要有chrome firefox fidder appium，其中fidder基本可以说目前最为全面和强大的抓包工具。

3.3 解析数据库

解析库有非常多可以选择，比如CSS、pyqery、re、xpath等，比较建议掌握Beautiful Soup和Xpath

3.4 保存数据

小规模数据可以使用txt文件、json文件、csv文件等方式来保存文件。

大规模数据就需要使用数据库像mysql，mongodb、redis等，就比较方便查询管理。

首先，导入需要用到的库：

然后，定义各个国家的请求地址：

定义一个请求头request header：

解析每个字段信息：

最后，保存Excel数据：