基于MediaCrawler爬取热点视频

介绍

由于业务需要,想了解目前主要社交短视频平台热点内容,提高业务的曝光点,基于此我们可以爬取目前主流短视频平台的热搜内容,来了解当下最热门的信息

技术实现

主要是采用成熟的爬虫技术来实现,本文主要是以开源的框架MediaCrawler来介绍

环境搭建

下载代码

bash 复制代码
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawle

修改配置,以mysql数据库形式保存爬取的内容

bash 复制代码
vim /config/base_config.py
修改配置项:SAVE_DATA_OPTION值为"db",默认是json
新增配置项:RELATIONAL_DB_TYPE = "mysql" 
vim /config/db_config.py
修改mysql的如下配置:
MYSQL_DB_PWD = os.getenv("MYSQL_DB_PWD", "Test2025!!!!")
MYSQL_DB_USER = os.getenv("MYSQL_DB_USER", "root")
MYSQL_DB_HOST = os.getenv("MYSQL_DB_HOST", "localhost")
MYSQL_DB_PORT = os.getenv("MYSQL_DB_PORT", 3306)
MYSQL_DB_NAME = os.getenv("MYSQL_DB_NAME", "media_crawler")

安装虚拟环境:

bash 复制代码
uv sync
uv run playwright install

初始化数据库

bash 复制代码
# 初始化 MySQL 数据库
uv run main.py --init_db mysql

运行爬虫程序-爬取xhs热点内容

bash 复制代码
uv run main.py --platform xhs --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

运行爬虫程序-爬取dy热点内容

bash 复制代码
uv run main.py --platform dy --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

相关推荐
zone77392 小时前
001:简单 RAG 入门
后端·python·面试
F_Quant3 小时前
🚀 Python打包踩坑指南:彻底解决 Nuitka --onefile 配置文件丢失与重启报错问题
python·操作系统
允许部分打工人先富起来4 小时前
在node项目中执行python脚本
前端·python·node.js
IVEN_4 小时前
Python OpenCV: RGB三色识别的最佳工程实践
python·opencv
haosend5 小时前
AI时代,传统网络运维人员的转型指南
python·数据网络·网络自动化
曲幽5 小时前
不止于JWT:用FastAPI的Depends实现细粒度权限控制
python·fastapi·web·jwt·rbac·permission·depends·abac
武子康5 小时前
大数据-239 离线数仓 - 广告业务实战:Flume 导入日志到 HDFS,并完成 Hive ODS/DWD 分层加载
大数据·后端·apache hive
IVEN_1 天前
只会Python皮毛?深入理解这几点,轻松进阶全栈开发
python·全栈
Ray Liang1 天前
用六边形架构与整洁架构对比是伪命题?
java·python·c#·架构设计
AI攻城狮1 天前
如何给 AI Agent 做"断舍离":OpenClaw Session 自动清理实践
python