有了 25k Star 的MediaCrawler爬虫库加持，三分钟搞定某红书、某音等平台爬取！

大家好，我是程序员凌览 。

今天给大家介绍一个超实用的Python爬虫实战项目------MediaCrawler。

这个项目可以实现小红书、抖音、快手、B站和微博的爬虫功能，覆盖了当下热门的自媒体平台。

它能够高效抓取这些平台上的视频、图片、评论、点赞和转发等信息。

MediaCrawler 支持的平台及功能如下图：

快速开始

访问 MediaCrawler GitHub 仓库，点击"Code"按钮下载项目代码。

项目代码结构：

如果尚未安装 Python，推荐使用 uv 软件包管理器进行安装。uv 是一款便捷的工具，可以简化 Python 的安装过程。安装 uv 的方法如下：

bash 复制代码

curl -LsSf https://astral.sh/uv/install.sh | sh

更多安装方式和详细信息请参考 uv 安装文档。如果已有 Python 环境，可跳过此步骤。

切换到MediaCrawler ，项目目录，运行以下命令安装依赖库：

bash 复制代码

pip install -r requirements.txt

为了确保爬虫正常运行，需要安装 Playwright 浏览器驱动。运行以下命令完成安装：

bash 复制代码

playwright install

在运行爬虫之前，可以根据需要对爬虫进行配置。具体的配置选项可以在 base_config.py 文件中修改。例如，可以启用或禁用评论爬取功能、设置IP代理池等。请根据项目需求进行相应配置。

环境搭建完成后，就可以运行爬虫程序了。根据需要选择对应的平台和功能，执行以下命令：

bash 复制代码

python main.py --platform <平台名称> --lt <登录方式> --type <爬取类型>

例如，爬取小红书的帖子信息和评论：

bash 复制代码

python main.py --platform xhs --lt qrcode --type search

更多使用方法可以通过运行 python main.py --help 查看。

以小红书作为例子，命令行运行代码，保存的数据如下：

数据存储支持 MySQL 数据库 、CSV 文件 和 JSON 文件 。如果选择存储为 CSV 文件 或 JSON 文件 ，文件将被自动放置在项目根目录下的 data/ 文件夹中。

MediaCrawler仓库地址：github.com/NanmiCoder/...

给大家推荐几款超实用的工具:

对了，我还会不定时分享更多好玩、有趣的 GitHub 开源项目，欢迎持续关注哦！