基于MediaCrawler爬取热点视频

介绍

由于业务需要,想了解目前主要社交短视频平台热点内容,提高业务的曝光点,基于此我们可以爬取目前主流短视频平台的热搜内容,来了解当下最热门的信息

技术实现

主要是采用成熟的爬虫技术来实现,本文主要是以开源的框架MediaCrawler来介绍

环境搭建

下载代码

bash 复制代码
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawle

修改配置,以mysql数据库形式保存爬取的内容

bash 复制代码
vim /config/base_config.py
修改配置项:SAVE_DATA_OPTION值为"db",默认是json
新增配置项:RELATIONAL_DB_TYPE = "mysql" 
vim /config/db_config.py
修改mysql的如下配置:
MYSQL_DB_PWD = os.getenv("MYSQL_DB_PWD", "Test2025!!!!")
MYSQL_DB_USER = os.getenv("MYSQL_DB_USER", "root")
MYSQL_DB_HOST = os.getenv("MYSQL_DB_HOST", "localhost")
MYSQL_DB_PORT = os.getenv("MYSQL_DB_PORT", 3306)
MYSQL_DB_NAME = os.getenv("MYSQL_DB_NAME", "media_crawler")

安装虚拟环境:

bash 复制代码
uv sync
uv run playwright install

初始化数据库

bash 复制代码
# 初始化 MySQL 数据库
uv run main.py --init_db mysql

运行爬虫程序-爬取xhs热点内容

bash 复制代码
uv run main.py --platform xhs --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

运行爬虫程序-爬取dy热点内容

bash 复制代码
uv run main.py --platform dy --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

相关推荐
兵慌码乱3 小时前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2
大大大大晴天5 小时前
Hudi技术内幕:Key Generation原理与实践
大数据
luckdewei6 小时前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化
python
aqi0012 小时前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
Csvn13 小时前
`functools.lru_cache` —— 一行代码搞定缓存加速
后端·python
金銀銅鐵1 天前
[Python] 从《千字文》中随机挑选汉字
后端·python
cup111 天前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill
aqi002 天前
15天学会AI应用开发(七)有了大模型为什么还要引入RAG
人工智能·python·大模型·ai编程·ai应用