如何使用Web Scraper爬虫抓取数据？

Python大数据分析@2024-08-21 17:58

Web Scraper是一个基于Chrome/火狐浏览器的插件，能够在网页上自动爬取数据，提供了丰富的配置，支持自动翻页、登录认证、JavaScript渲染等等，可以解决多数爬虫难题。

Web Scraper的安装也很简单，在Chrome应用商店里搜索"Web Scraper"，找到该插件并点击"添加至Chrome"按钮。

安装好Web Scraper后，需要在开发者工具中使用它，按F12键打开开发者模式能找到Web Scraper功能区，在这里可以新建并配置爬虫，你也不需要写任何代码就能抓取数据。

下面讲讲如何用Web Scraper爬取抖音评论数据。

先F12打开开发者界面，点击Web Scraper按钮，会进入到操作界面。

接下来新建Sitemap name项目名称，英文随意取，Start URL就是想要爬取的网站的URL，输入完点击Create Sitemap。

然后点击"添加新的Selector"按钮，在网页中选择要爬取的数据所在的区域（如"抖音视频"模块中的评论区）。注意必须勾选Multiple，因为字样才会批量爬取。

这样对于评论的简单抓取设置就可以了，最后保存并导出评论数据。

使用Web Scraper需要对HTML结构有一定的了解，需要自己一步步去配置，可能对于初学者还有些门槛，适合IT从业者。而且Web Scraper抓取的数据形式有限，适合文本这样简单的数据需求，对于图片、视频就会比较困难。