基于MediaCrawler爬取热点视频

介绍

由于业务需要,想了解目前主要社交短视频平台热点内容,提高业务的曝光点,基于此我们可以爬取目前主流短视频平台的热搜内容,来了解当下最热门的信息

技术实现

主要是采用成熟的爬虫技术来实现,本文主要是以开源的框架MediaCrawler来介绍

环境搭建

下载代码

bash 复制代码
git clone https://github.com/NanmiCoder/MediaCrawler.git
cd MediaCrawle

修改配置,以mysql数据库形式保存爬取的内容

bash 复制代码
vim /config/base_config.py
修改配置项:SAVE_DATA_OPTION值为"db",默认是json
新增配置项:RELATIONAL_DB_TYPE = "mysql" 
vim /config/db_config.py
修改mysql的如下配置:
MYSQL_DB_PWD = os.getenv("MYSQL_DB_PWD", "Test2025!!!!")
MYSQL_DB_USER = os.getenv("MYSQL_DB_USER", "root")
MYSQL_DB_HOST = os.getenv("MYSQL_DB_HOST", "localhost")
MYSQL_DB_PORT = os.getenv("MYSQL_DB_PORT", 3306)
MYSQL_DB_NAME = os.getenv("MYSQL_DB_NAME", "media_crawler")

安装虚拟环境:

bash 复制代码
uv sync
uv run playwright install

初始化数据库

bash 复制代码
# 初始化 MySQL 数据库
uv run main.py --init_db mysql

运行爬虫程序-爬取xhs热点内容

bash 复制代码
uv run main.py --platform xhs --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

运行爬虫程序-爬取dy热点内容

bash 复制代码
uv run main.py --platform dy --lt qrcode --type search --keywords "热点"

保存的数据在数据库中的表:

相关推荐
计算机安禾28 分钟前
【算法分析与设计】第26篇:参数化算法与固定参数可解性理论
大数据·人工智能·算法·机器学习·剪枝
liushangzaibeijing31 分钟前
Superpower 使用大纲
大数据·elasticsearch·搜索引擎
卡次卡次11 小时前
vibecoding起步注意点:插件、Skills、MCP、Hooks
服务器·数据库·python·oracle
Elastic 中国社区官方博客1 小时前
每次操作一个 API 调用:Elastic Cloud Hosted 如何让大规模部署管理变得可行
大数据·运维·数据库·elasticsearch·搜索引擎·serverless
我的xiaodoujiao1 小时前
API 接口自动化测试详细图文教程学习系列24--如何用Pytest去设计接口测试用例并执行
python·学习·测试工具·pytest
zhangfeng11332 小时前
ai 模型加密,强化版终极防盗方案 支持烧录的显卡列表
人工智能·pytorch·python
半个落月2 小时前
深入理解 Python dict 与 set:从哈希表底层到高性能实战
python
带派擂总2 小时前
Python全栈开发 Day10_用户管理系统
python
databook2 小时前
用 SymPy 解决 Manim 曲线绘制速度不均的问题
python·数学·动效
宇宙无敌程序员菜鸟2 小时前
浅玩CRUD Agent
python