m3u8网页视频文件爬取与视频合成

文章目录

m3u8网页视频文件爬取与视频合成

我们经常在网络上找到的自己想要的视频素材却无法下载,并且打开控制台一看视频是通过分割成一份份的.ts文件发送过来的。

下载m3u8文件

这时我们先双击下载m3u8文件, 这是一种用于传输流媒体的文本格式文件 , 主要用于描述和组织视频流的各个部分 。 m3u8文件作为播放列表,列出了构成视频流的所有TS(Transport Stream)片段。每个片段都是视频的一部分 。简单来说有了这些列表和对应的TS文件就可以合成完整的视频了。

下载m3u8文件列表所对应的ts文件

右键复制一个.ts文件的url。发现所有ts文件的url地址的前段一致,后缀不同。这时可以通过python进行url拼接然后批量化下载。

以下是完整python代码

python 复制代码
# My Python
# 测试时间:2024/9/8 23:46
import os
import time
import requests

# 定义基本URL
base_url = 'https://vip.ffzy-play7.com/20221227/9993_9681b67b/2000k/hls/'

# 定义文件路径
file_path = r'D:\Desktop\video\mixed.m3u8'
output_dir = r'D:\Desktop\video\ts'
failed_urls_file = r'D:\Desktop\video\failed_urls.txt'

# 创建输出目录如果它不存在
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

if not os.path.exists(os.path.dirname(failed_urls_file)):
    os.makedirs(os.path.dirname(failed_urls_file))

# 读取.m3u8文件
try:
    with open(file_path, 'r', encoding='utf-8') as file:
        lines = file.readlines()
except IOError as e:
    print(f"无法打开文件 {file_path}: {e}")
    exit(1)

# 初始化计数器
counter = 1

# 定义重试次数
max_retries = 5
retry_delay = 3  # 重试间隔时间(秒)

# 准备记录未完成下载的URL
failed_urls = []

# 处理每一行
for line in lines:
    if line.endswith('.ts\n'):
        # 拼接完整的URL
        url = base_url + line.strip()

        # 构建文件名
        filename = os.path.join(output_dir, os.path.basename(url))

        retries = 0

        while retries < max_retries:
            try:
                # 下载文件
                response = requests.get(url, timeout=60)  # 设置超时时间为60秒
                response.raise_for_status()  # 检查请求是否成功

                with open(filename, 'wb') as f:
                    f.write(response.content)

                print(f'已下载第{counter}个链接: {url}')
                break  # 成功下载后退出循环
            except requests.RequestException as e:
                print(f'下载失败 (第{counter}个链接, 尝试 {retries + 1}/{max_retries}): {url}, 错误: {e}')
                retries += 1
                if retries < max_retries:
                    print(f'等待 {retry_delay} 秒后重试...')
                    time.sleep(retry_delay)
                else:
                    print(f'达到最大重试次数,放弃下载:{url}')
                    failed_urls.append(url)  # 记录失败的URL

        # 计数器递增
        counter += 1

# 将未完成下载的URL保存到文件
if failed_urls:
    with open(failed_urls_file, 'w', encoding='utf-8') as f:
        for url in failed_urls:
            f.write(url + '\n')
    print(f'未完成下载的URL已保存到 {failed_urls_file}')
    print(f'共有 {len(failed_urls)} 个链接未能成功下载。')
else:
    print('所有链接均下载成功,没有失败的URL需要记录。')

print('初次下载完成。')

# 重新下载未下载的URL
if failed_urls:
    print('开始重新下载未完成的链接...')

    # 重置计数器
    counter = 1

    for url in failed_urls:
        # 构建文件名
        filename = os.path.join(output_dir, os.path.basename(url))

        retries = 0

        while retries < max_retries:
            try:
                # 下载文件
                response = requests.get(url, timeout=60)  # 设置超时时间为60秒
                response.raise_for_status()  # 检查请求是否成功

                with open(filename, 'wb') as f:
                    f.write(response.content)

                print(f'已重新下载第{counter}个链接: {url}')
                break  # 成功下载后退出循环
            except requests.RequestException as e:
                print(f'重新下载失败 (第{counter}个链接, 尝试 {retries + 1}/{max_retries}): {url}, 错误: {e}')
                retries += 1
                if retries < max_retries:
                    print(f'等待 {retry_delay} 秒后重试...')
                    time.sleep(retry_delay)
                else:
                    print(f'达到最大重试次数,放弃重新下载:{url}')

        # 计数器递增
        counter += 1

print('所有文件下载完成。')

运行实例

下载ffmpeg

得到相应的m3u8和ts文件就可以合成视频了,这里需要用到ffmpeg进行合成。

官网链接:https://ffmpeg.org//download.html

  1. 下载(以下是Windows系统示例)
  1. 解压到相应的文件夹即可
  2. 配置环境变量
  3. ffmpeg -version 检验是否配置成功
  4. 将m3u8文件和相对应的ts文件放在同一个文件夹下,打开命令行输入指令合成视频
bash 复制代码
ffmpeg -i ./mixed.m3u8 "test.mp4"
  1. 合成完毕
相关推荐
曲幽2 小时前
别再用网页翻译看源码了!你的私人翻译神器LibreTranslate,部署避坑指南来了
python·docker·web·pot·translate·libretranslate·arogstranslate
用户556918817534 小时前
#从脚本到独立程序:Python + Playwright 批量抓取的完整踩坑记录
python·自动化运维
兵慌码乱17 小时前
基于 MediaPipe 与 PySide2 的手势交互音乐控制系统实现:轻量化视觉交互全流程解析
python·opencv·计算机视觉·人机交互·手势识别·mediapipe·pyside2
luckdewei20 小时前
FastAPI 资产管理系统实战:复杂 ORM 关联、Alembic 迁移与 N+1 查询优化
python
aqi001 天前
15天学会AI应用开发(八)使用向量数据库实现RAG功能
人工智能·python·大模型·ai编程·ai应用
Csvn1 天前
`functools.lru_cache` —— 一行代码搞定缓存加速
后端·python
金銀銅鐵2 天前
[Python] 从《千字文》中随机挑选汉字
后端·python
cup112 天前
[技术复盘] Windows Python 打包实战:Nuitka 环境踩坑总结与 CI 自动化构建全指南
python·ai·环境变量·ci·nuitka·skill