爬取m3u8视频

网址:https://www.bhlsm.com/cupfoxplay/609-3-1/

相关代码:

python 复制代码
#采集网址:https://www.bhlsm.com/cupfoxplay/609-3-1/
#正常视频网站:完整视频内容
# pip install pycryptodomex
#流媒体文件:M3U8(把完整的视频内容,分割成N个视频片段,ts文件)
"""
第一次请求:获取m3u8文件链接  / 视频标题
    1.发送请求:
        - 请求网址:视频播放页面链接
    2.获取数据:
        - 服务器返回响应数据
    3.解析数据:
        - 提取么u3u8文件链接 / 视频标题
AES-128:
    1. key:密钥 enc.key https://v.gsuus.com/play/QBY0yWKa/enc.key
"""
import requests
#导入正则表达式模块
import re
#导入加密模块
from Cryptodome.Cipher import AES
#模拟浏览器
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
    }
#请求网址
for page in range(1,4):
    url = f'https://www.bhlsm.com/cupfoxplay/609-3-{page}/'
    #发送请求
    response = requests.get(url=url,headers=headers)
    # print(response)
    html_data = response.text
    #解析数据,提取视频标题 -> re.findall('匹配数据','数据源')
    # re.findall('<h1 class="movie-list-title">(斗罗大陆1 第01集)在线播放</h1>')
    title = re.findall('<h1 class="movie-list-title">(.*?)在线播放</h1>',html_data)[0]
    #提取m3u8链接
    m3u8_url = re.findall('"url":"(.*?)","url_next":',html_data)[0].replace('\/','/')

    print(title,m3u8_url)

    #获取密钥(每一集的密钥不相同)
    # key_url = 'https://v.gsuus.com/play/QBY0yWKa/enc.key'
    key_url = f'https://v.gsuus.com/play/{m3u8_url.split("/")[-2]}/enc.key'
    key = requests.get(url=key_url,headers=headers).content
    #解码器
    ci = AES.new(key,AES.MODE_CBC)
    # print(html_data)

    # print(title)
    """
    第二次请求:获取所有ts文件链接
    1.发送请求:
        - 请求网址:m3u8文件链接
    2.获取数据:
        - 服务器返回响应数据
    3.解析数据:
        - 提取  ts文件链接(230个视频片段)
    """
    #发送请求 + 获取数据
    m3u8_data = requests.get(url=m3u8_url,headers=headers).text
    #解析数据,提取ts链接
    ts_list = re.findall(',\n(.*?)\n#',m3u8_data)


    """
    ,
    https://gs.gszyi.com:999/hls/46/20230223/1034032/plist-00001.ts
    #
    """
    # print(m3u8_data)
    #for循环遍历,提取列表里面元素

    # print(ts_list)

    for ts in ts_list:
        """
        第三次请求:获取视频内容
            1.发送请求:
                - 请求网址:ts文件链接
            2.获取数据:
                - 获取视频内容
            3.保存数据:
                - 把所有视频派那段保存成一个完整的视频内容
        
        """
        # print(ts)
        #发送请求ts链接+ 获取视频数据
        ts_content = requests.get(url=ts,headers=headers).content
        #进行解码
        content = ci.decrypt(ts_content)
        with open('video\\' + title + '.mp4',mode='ab') as f:
            f.write(content)
        print(ts)
        #break

爬取过程:

查找url:

相关推荐
爱睡懒觉的焦糖玛奇朵2 小时前
【从视频到数据集:焦糖玛奇朵的魔法工具使用说明】
人工智能·python·深度学习·学习·算法·yolo·音视频
yangshicong3 小时前
第11章:结构化输出与数据提取 —— 让 AI 直接返回你想要的数据格式
数据库·人工智能·redis·python·langchain·ai编程
言之。3 小时前
【Python】免费的中文 AI 配音方案
开发语言·人工智能·python
Warson_L3 小时前
python dict key详解
python
天天进步20153 小时前
Python全栈项目:从零手操一个高性能 API 网关
开发语言·python
安生生申4 小时前
使用pygame实现2048
开发语言·python·pygame
潜创微科技5 小时前
IT68353:双 DP1.4a+HDMI2.0 转 HDMI2.0 单芯片 KVM 切换方案
嵌入式硬件·音视频
徐图图不糊涂5 小时前
搭建简易版的Rag系统
python·pycharm
灰灰勇闯IT5 小时前
pyasc:用 Python 调用 CANN 的推理能力
开发语言·python
沐禾安信6 小时前
同一画面,如何两个视频同时播放,两个方法
电脑·音视频·分屏·视频转换