爬某网站延禧宫率第一集视频

python 复制代码
import requests
import re
from tqdm import tqdm
# 网址链接:https://v.ijujitv.cc/play/24291-1-1.html
url = 'https://v6.1080pzy.co/20220801/urxniJCN/hls/index.m3u8'
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
    "Referer":"https://jx.ijujitv.cc/"
}

m3u8_data = requests.get(url=url,headers=headers).text
m3u8_data = re.sub("#EXTM3U",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-VERSION:\d",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-TARGETDURATION:\d",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-PLAYLIST-TYPE:VOD",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-MEDIA-SEQUENCE:\d",'',m3u8_data)
m3u8_data = re.sub("#EXTINF:\d\.\d+,",'',m3u8_data)
m3u8_data = re.sub("#EXTINF:\d,",'',m3u8_data)
m3u8_data = re.sub("#EXT-X-ENDLIST",'',m3u8_data).split()
for m3u8_url in tqdm(m3u8_data):
    content = requests.get(url=m3u8_url,headers=headers).content
    with open('延禧宫率'+'.mp4',mode='ab') as f:
        f.write(content)

爬取的页面如下:

爬取步骤:

又点击检查-network-xhr,发现有许多ts文件,复制浏览即会下载。-在搜索框搜索m3u8,找到一个html的包,如下。

点开后发现其为:

得到了所有ts的包,进行访问提取所有的ts路径代码。

相关推荐
bigfootyazi7 小时前
python爬虫-基本库-urllib库(常用速查)
开发语言·爬虫·python
时寒的笔记16 小时前
LF11期_day19~20 补环境(三)案例
爬虫·webpack·node.js
跨境数据猎手1 天前
Superbuy淘宝代购集运系统架构拆解,复刻方案参考
爬虫·架构·系统架构
Smartdaili China2 天前
OpenClaw赋能AI智能体:实时联网与网页抓取
人工智能·爬虫·ai·爬取·openclaw·open claw
IP搭子来一个2 天前
爬虫使用代理 IP 频繁失效,该如何定位问题?
网络·爬虫·tcp/ip
weixin_468466853 天前
Crawl4Ai 智能数据采集与场景化应用指南
大数据·人工智能·爬虫·python·数据分析
小熊Coding3 天前
Python爬取当当网二手图书项目实战!
开发语言·爬虫·python·beautifulsoup·requests·二手图书
IP搭子来一个3 天前
爬虫采集大量返回 403、429,到底卡在哪一环?
网络·爬虫·python
小白学大数据3 天前
Playwright 爬虫:Python 爬取 JS 渲染的 JSP 网站
开发语言·javascript·爬虫·python·数据分析
遇事不決洛必達4 天前
【爬虫随笔】常见加密算法特征总结
javascript·爬虫·逆向·加密算法