基于MediaCrawler爬取热点视频

介绍

由于业务需要,想了解目前主要社交短视频平台热点内容,提高业务的曝光点,基于此我们可以爬取目前主流短视频平台的热搜内容,来了解当下最热门的信息

技术实现

主要是采用成熟的爬虫技术来实现,本文主要是以开源的框架MediaCrawler来介绍

环境搭建

下载代码

bash 复制代码
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawle

修改配置,以mysql数据库形式保存爬取的内容

bash 复制代码
vim /config/base_config.py
修改配置项:SAVE_DATA_OPTION值为"db",默认是json
新增配置项:RELATIONAL_DB_TYPE = "mysql" 
vim /config/db_config.py
修改mysql的如下配置:
MYSQL_DB_PWD = os.getenv("MYSQL_DB_PWD", "Test2025!!!!")
MYSQL_DB_USER = os.getenv("MYSQL_DB_USER", "root")
MYSQL_DB_HOST = os.getenv("MYSQL_DB_HOST", "localhost")
MYSQL_DB_PORT = os.getenv("MYSQL_DB_PORT", 3306)
MYSQL_DB_NAME = os.getenv("MYSQL_DB_NAME", "media_crawler")

安装虚拟环境:

bash 复制代码
uv sync
uv run playwright install

初始化数据库

bash 复制代码
# 初始化 MySQL 数据库
uv run main.py --init_db mysql

运行爬虫程序-爬取xhs热点内容

bash 复制代码
uv run main.py --platform xhs --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

运行爬虫程序-爬取dy热点内容

bash 复制代码
uv run main.py --platform dy --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

相关推荐
maqr_1109 分钟前
HTML怎么生成订单预览_HTML只读订单信息结构【操作】
jvm·数据库·python
sg_knight26 分钟前
设计模式实战:责任链模式(Chain of Responsibility)
python·设计模式·责任链模式
2301_8038756133 分钟前
如何通过phpMyAdmin给WordPress所有用户发送全站通知_系统表插入
jvm·数据库·python
学弟1 小时前
【内涵】深度学习中的三种变量及pytorch中对应的三种tensor
人工智能·pytorch·python
2301_777599371 小时前
mysql如何进行数据库容量规划_评估磁盘空间增长趋势
jvm·数据库·python
aq55356001 小时前
PHP vs Python:30秒看懂核心区别
开发语言·python·php
深圳市九鼎创展科技2 小时前
MT8883 vs RK3588 开发板全面对比:选型与场景落地指南
大数据·linux·人工智能·嵌入式硬件·ubuntu
m0_377618232 小时前
Redis怎样应对大规模集群的重启风暴_分批次重启节点并等待集群状态恢复绿灯后再继续操作
jvm·数据库·python
心态与习惯2 小时前
Julia 初探,及与 C++,Java,Python 的比较
java·c++·python·julia·比较
ZC跨境爬虫2 小时前
3D 地球卫星轨道可视化平台开发 Day8(分步渲染200颗卫星+ 前端分页控制)
前端·python·3d·重构·html