爬某网站延禧宫率第一集视频

python 复制代码
import requests
import re
from tqdm import tqdm
# 网址链接:https://v.ijujitv.cc/play/24291-1-1.html
url = 'https://v6.1080pzy.co/20220801/urxniJCN/hls/index.m3u8'
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
    "Referer":"https://jx.ijujitv.cc/"
}

m3u8_data = requests.get(url=url,headers=headers).text
m3u8_data = re.sub("#EXTM3U",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-VERSION:\d",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-TARGETDURATION:\d",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-PLAYLIST-TYPE:VOD",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-MEDIA-SEQUENCE:\d",'',m3u8_data)
m3u8_data = re.sub("#EXTINF:\d\.\d+,",'',m3u8_data)
m3u8_data = re.sub("#EXTINF:\d,",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-ENDLIST",'',m3u8_data).split()
for m3u8_url in tqdm(m3u8_data):
    content = requests.get(url=m3u8_url,headers=headers).content
    with open('延禧宫率'+'.mp4',mode='ab') as f:
        f.write(content)

爬取的页面如下:

爬取步骤:

又点击检查-network-xhr,发现有许多ts文件,复制浏览即会下载。-在搜索框搜索m3u8,找到一个html的包,如下。

点开后发现其为:

得到了所有ts的包,进行访问提取所有的ts路径代码。

相关推荐
hugh_oo1 小时前
100 天学会爬虫 · Day 11:如何合理控制爬虫请求频率?让访问行为更像真人
开发语言·爬虫·python
Wpa.wk3 小时前
自动化测试 - 文件上传 和 弹窗处理
开发语言·javascript·自动化测试·经验分享·爬虫·python·selenium
逆向新手4 小时前
js逆向-某省特种设备aes加密研究
javascript·爬虫·python·逆向·js
sugar椰子皮6 小时前
【node阅读-1】node架构了解
爬虫
Caco.D6 小时前
Aneiang.Pa 高阶用法:动态爬虫 SDK 详解与实战
爬虫·aneiang.pa
有味道的男人7 小时前
淘宝图片搜索(拍立淘)+ 店铺全商品爬虫 深度实战指南(Python)
开发语言·爬虫·python
一招定胜负21 小时前
网络爬虫(第三部)
前端·javascript·爬虫
interception1 天前
爬虫逆向:瑞数5(华能电子)
爬虫
光算科技1 天前
商品颜色/尺码选项太多|谷歌爬虫不收录怎么办
java·javascript·爬虫
是Yu欸1 天前
扫描网站结构的SEO元数据抓取方案
爬虫·seo·亮数据·brightdata