基于MediaCrawler爬取热点视频

介绍

由于业务需要,想了解目前主要社交短视频平台热点内容,提高业务的曝光点,基于此我们可以爬取目前主流短视频平台的热搜内容,来了解当下最热门的信息

技术实现

主要是采用成熟的爬虫技术来实现,本文主要是以开源的框架MediaCrawler来介绍

环境搭建

下载代码

bash 复制代码
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawle

修改配置,以mysql数据库形式保存爬取的内容

bash 复制代码
vim /config/base_config.py
修改配置项:SAVE_DATA_OPTION值为"db",默认是json
新增配置项:RELATIONAL_DB_TYPE = "mysql" 
vim /config/db_config.py
修改mysql的如下配置:
MYSQL_DB_PWD = os.getenv("MYSQL_DB_PWD", "Test2025!!!!")
MYSQL_DB_USER = os.getenv("MYSQL_DB_USER", "root")
MYSQL_DB_HOST = os.getenv("MYSQL_DB_HOST", "localhost")
MYSQL_DB_PORT = os.getenv("MYSQL_DB_PORT", 3306)
MYSQL_DB_NAME = os.getenv("MYSQL_DB_NAME", "media_crawler")

安装虚拟环境:

bash 复制代码
uv sync
uv run playwright install

初始化数据库

bash 复制代码
# 初始化 MySQL 数据库
uv run main.py --init_db mysql

运行爬虫程序-爬取xhs热点内容

bash 复制代码
uv run main.py --platform xhs --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

运行爬虫程序-爬取dy热点内容

bash 复制代码
uv run main.py --platform dy --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

相关推荐
A懿轩A几秒前
【Java 基础编程】Java 变量与八大基本数据类型详解:从声明到类型转换,零基础也能看懂
java·开发语言·python
Tansmjs16 分钟前
使用Python自动收发邮件
jvm·数据库·python
m0_5613596719 分钟前
用Python监控系统日志并发送警报
jvm·数据库·python
idwangzhen33 分钟前
GEO优化系统哪个功能强大
python·信息可视化
许泽宇的技术分享1 小时前
第 1 章:认识 Claude Code
开发语言·人工智能·python
AIFQuant1 小时前
如何利用免费股票 API 构建量化交易策略:实战分享
开发语言·python·websocket·金融·restful
TracyCoder1231 小时前
ElasticSearch内存管理与操作系统(一):内存分配底层原理
大数据·elasticsearch·搜索引擎
布局呆星1 小时前
SQLite数据库的介绍与使用
数据库·python
2401_838472511 小时前
用Python和Twilio构建短信通知系统
jvm·数据库·python
weixin_452159551 小时前
如何从Python初学者进阶为专家?
jvm·数据库·python