有了 25k Star 的MediaCrawler爬虫库加持,三分钟搞定某红书、某音等平台爬取!

大家好,我是程序员凌览

今天给大家介绍一个超实用的Python爬虫实战项目------MediaCrawler

这个项目可以实现小红书、抖音、快手、B站和微博的爬虫功能,覆盖了当下热门的自媒体平台。

它能够高效抓取这些平台上的视频、图片、评论、点赞和转发等信息。

MediaCrawler 支持的平台及功能如下图:

快速开始

下载项目代码

访问 MediaCrawler GitHub 仓库,点击"Code"按钮下载项目代码。

项目代码结构:

安装 Python 环境

如果尚未安装 Python,推荐使用 uv 软件包管理器进行安装。uv 是一款便捷的工具,可以简化 Python 的安装过程。安装 uv 的方法如下:

bash 复制代码
curl -LsSf https://astral.sh/uv/install.sh | sh

更多安装方式和详细信息请参考 uv 安装文档。如果已有 Python 环境,可跳过此步骤。

安装项目依赖

切换到MediaCrawler ,项目目录,运行以下命令安装依赖库:

bash 复制代码
pip install -r requirements.txt

安装 Playwright 浏览器驱动

为了确保爬虫正常运行,需要安装 Playwright 浏览器驱动。运行以下命令完成安装:

bash 复制代码
playwright install

配置爬虫参数

在运行爬虫之前,可以根据需要对爬虫进行配置。具体的配置选项可以在 base_config.py 文件中修改。例如,可以启用或禁用评论爬取功能、设置IP代理池等。请根据项目需求进行相应配置。

执行爬虫代码

环境搭建完成后,就可以运行爬虫程序了。根据需要选择对应的平台和功能,执行以下命令:

bash 复制代码
python main.py --platform <平台名称> --lt <登录方式> --type <爬取类型>

例如,爬取小红书的帖子信息和评论:

bash 复制代码
python main.py --platform xhs --lt qrcode --type search

更多使用方法可以通过运行 python main.py --help 查看。

实验

以小红书作为例子,命令行运行代码,保存的数据如下:

数据存储支持 MySQL 数据库CSV 文件JSON 文件 。如果选择存储为 CSV 文件JSON 文件 ,文件将被自动放置在项目根目录下的 data/ 文件夹中。

MediaCrawler仓库地址:github.com/NanmiCoder/...

最后

给大家推荐几款超实用的工具:

  • 密码管家 是一款 utools 插件,能帮你轻松管理各种繁杂的账号和密码,再也不用担心忘记密码啦!
  • 微信公众号排版编辑器 是专为微信公众号运营者设计的排版工具,无论是图文排版,还是格式调整,都能轻松搞定,让你的文章看起来更加专业、美观。

对了,我还会不定时分享更多好玩、有趣的 GitHub 开源项目,欢迎持续关注哦!

相关推荐
Csvn16 小时前
OpenSpec 详细使用教程
前端
明月_清风16 小时前
加密解密系统完全指南:原理剖析与 Go 实践
后端
风吹夏回17 小时前
Python 全局异常处理:从“满屏 try-except”到优雅兜底
开发语言·python
小熊Coding17 小时前
Python爬取当当网二手图书项目实战!
开发语言·爬虫·python·beautifulsoup·requests·二手图书
之歆17 小时前
Day19_LESS 完全指南——从入门到工程实践
前端·css·less
秋917 小时前
Java项目运行5天左右自动宕机:系统性定位与解决方案
java·开发语言·python
小江的记录本17 小时前
【JVM虚拟机】垃圾回收GC:垃圾收集器:CMS:核心原理、回收流程、优缺点、废弃原因(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·spring·面试·maven
云水一下18 小时前
HTML5 从入门到精通:实战收官——从零搭建完整静态网站,综合运用所有知识
前端·html5
不总是18 小时前
Windows 系统 Node.js 免安装版(zip)安装与配置教程(2026 最新)
前端·windows·node.js
田里的水稻18 小时前
OE_ubuntu26.04与宿主机之间复制粘贴内容
人工智能·python·机器人