爬取m3u8视频完整教程

爬取步骤:

1.先找到网页源代码

2.从网页源代码中拿到m3u8

3.下载m3u8

4.读取m3u8文件,下载视频

5.合并视频

首先我们来爬取一个星辰影院的电影:

下面我以这个为例:

我们需要在源代码中找到m3u8这个url:

紧接着我们利用下面的方法来进行视频的爬取:

输入网站的url:

python 复制代码
url="https://www.xcyy44.com/play/16166_1.html"

打印一下看一下是否有我们要的数据:

python 复制代码
resp=requests.get(url)
print(resp.text)

在搜索框中搜索一下发现正是我们要的url:

再利用正则表达式提取一下m3u8的地址:

python 复制代码
obj=re.compile(r"url: '(?P<url>.*?)',",re.S) 

得到m3u8的地址并打印:

python 复制代码
m3u8_url=obj.search(resp.text).group("url")
print(m3u8_url) 

接下来把m3u8文件下载下来:

用resp2来接受一下m3u8的地址,并把resp2写入到test文件中:

python 复制代码
resp2=requests.get(m3u8_url)

with open("test.m3u8","wb") as f:
    f.write(resp2.content)

resp2.close()
print('下载完毕')

然后将得到的这些m3u8进行解析:

先将test文件打开读取里面的内容,在利用循环便利一下里面的内容,在利用strip()去除空白,判断是否有#,如果有就继续遍历,找到没有的写入到video中完成一个打印一个:

python 复制代码
n=1
with open('test.m3u8','r',encoding='utf-8') as f:
    for line in f:
        line = line.strip()   
        if line.startswith('#'):   
            continue
        resp3=requests.get(line)
        f=open(f'video/{n}.ts','wb')
        f.write(resp3.content)
        f.close()
        resp3.close()
        n+=1
        print('完成一个')

最后在把视频片段合并在一起就ok了

完整代码:

python 复制代码
import requests
import re

obj=re.compile(r"url: '(?P<url>.*?)',",re.S)  #用来提取m3u8的地址

url="https://www.xcyy44.com/play/16166_1.html"

resp=requests.get(url)
m3u8_url=obj.search(resp.text).group("url")  #拿到m3u8的地址
# print(resp.text)
# print(m3u8_url)
resp.close()

#下载m3u8文件
resp2=requests.get(m3u8_url)

with open("test.m3u8","wb") as f:
    f.write(resp2.content)

resp2.close()
print('下载完毕')
#
# #解析m3u8文件
n=1
with open('test.m3u8','r',encoding='utf-8') as f:
    for line in f:
        line = line.strip()   #去掉空白
        if line.startswith('#'):   #如果以#开头则会继续循环
            continue

        #下载视频片段
        resp3=requests.get(line)
        f=open(f'video/{n}.ts','wb')
        f.write(resp3.content)
        f.close()
        resp3.close()
        n+=1
        print('完成一个')
相关推荐
haokan_Jia7 分钟前
【MyBatis-Plus 动态数据源的默认行为】
java·开发语言·mybatis
扫地的小何尚3 小时前
NVIDIA Dynamo深度解析:如何优雅地解决LLM推理中的KV缓存瓶颈
开发语言·人工智能·深度学习·机器学习·缓存·llm·nvidia
yi碗汤园4 小时前
【一文了解】C#的StringSplitOptions枚举
开发语言·前端·c#
无敌最俊朗@6 小时前
C++ 序列容器深度解析:vector、deque 与 list
开发语言·数据结构·数据库·c++·qt·list
Da Da 泓6 小时前
LinkedList模拟实现
java·开发语言·数据结构·学习·算法
Humbunklung6 小时前
VC++ 使用OpenSSL创建RSA密钥PEM文件
开发语言·c++·openssl
Humbunklung6 小时前
填坑:VC++ 采用OpenSSL 3.0接口方式生成RSA密钥
开发语言·c++·rsa·openssl 3.0
zl21878654488 小时前
Playwright同步、异步、并行、串行执行效率比较
开发语言·python·测试工具
larance8 小时前
asyncio数据流
python
Tony Bai8 小时前
【Go开发者的数据库设计之道】05 落地篇:Go 语言四种数据访问方案深度对比
开发语言·数据库·后端·golang