python爬虫爬取视频

python爬虫爬取视频

1.导入模块

pip install requests

pip install DrissionPage

注意:项目文件不要放在中文目录下

使用到了自启动谷歌浏览器,记得安装一个谷歌浏览器

DrissionPage是Python第三方模块,可以用

来操作网页、抓取内容、模拟登录、处理JavaScript页面等

2.找到想要爬取的界面

需要注意我标注的地方

需要获取请求头中cookie,referer,user-agent

和响应回来的response中视频的链接地址,我有用黄圈圈出出来

可以看到视频地址在aweme_list下的video下的play_addr下的url_list中3条视频地址都可以用分别对应索引中的0,1,2


版权声明:本文为CSDN博主「摸鱼的泡泡糖」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

原文链接:https://blog.csdn.net/weixin_56387846/article/details/153113568

3.代码

这里cookie和referer太长,自己打开开发者工具复制就行

爬取视频的主页不同记得换下主页地址就是换Google.get和监听Google.listen.start后的内容

bash 复制代码
import requests
from DrissionPage import ChromiumPage #自动化模块
import re
import os
os.makedirs("video") #创建video目录
headers={
    "cookie":"",
    "referer":"",
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/141.0.0.0 Safari/537.36 Edg/141.0.0.0"
}
Google=ChromiumPage()#自动打开谷歌浏览器
Google.listen.start("aweme/post") #监听要在进入网页前
Google.get("https://www.douyin.com/user/MS4wLjABAAAAgYoK0D4ylp521CQGksm8fCuXosKQqqTMThdChuSzveET2Hdmiy6SmH-eEj9HJX_I?from_tab_name=main&vid=7520453386236349706")#爬取视频的主页
sjb = Google.listen.wait() #等待监听数据包的加载   等待start

JSON = sjb.response.body #获得网页响应数据

data = JSON["aweme_list"]
for i in data:
    v_url = i["video"]["play_addr"]["url_list"][0]#找到视频地址
    title = i["desc"]#获取视频标题
    title_re = re.sub("[<>?/`~_+=.]","",title)#去除标题中多余的符号
    res = requests.get(url=v_url,headers=headers).content
    with open("video\\"+title_re +"video.mp4","wb") as f:
        f.write(res)
        print(title_re)
相关推荐
梵刹古音7 小时前
【C语言】 字符数组相关库函数
c语言·开发语言·算法
AAD5558889912 小时前
数字仪表LCD显示识别与读数:数字0-9、小数点及单位kwh检测识别实战
python
微风中的麦穗13 小时前
【MATLAB】MATLAB R2025a 详细下载安装图文指南:下一代科学计算与工程仿真平台
开发语言·matlab·开发工具·工程仿真·matlab r2025a·matlab r2025·科学计算与工程仿真
2601_9491465313 小时前
C语言语音通知API示例代码:基于标准C的语音接口开发与底层调用实践
c语言·开发语言
开源技术13 小时前
Python Pillow 优化,打开和保存速度最快提高14倍
开发语言·python·pillow
学嵌入式的小杨同学14 小时前
从零打造 Linux 终端 MP3 播放器!用 C 语言实现音乐自由
linux·c语言·开发语言·前端·vscode·ci/cd·vim
Li emily14 小时前
解决港股实时行情数据 API 接入难题
人工智能·python·fastapi
wfeqhfxz258878215 小时前
农田杂草检测与识别系统基于YOLO11实现六种杂草自动识别_1
python
mftang15 小时前
Python 字符串拼接成字节详解
开发语言·python
0思必得015 小时前
[Web自动化] Selenium设置相关执行文件路径
前端·爬虫·python·selenium·自动化