AI网络爬虫:下载m3u8视频文件

要下载m3u8视频文件,首先得找到m3u8地址,按下F12键,看网络-fetch/xhr,然后找网址中包括m3u8的地址,再预览或者看下相应

https://1304688195.vod2.myqcloud.com/9d058fb7vodtranscq1304688195/1194c6da1253642699220090018/video_1420095_2.m3u8?sign=65407f6e7bdb02ddcdebeddb3d1ade67&t=667642cb&us=2851689

如果类似类似上面,就说明这是一个M3U8格式的视频流媒体播放列表文件。M3U8是一种基于HTTP Live Streaming (HLS) 技术的播放列表格式,常用于流媒体服务。下面是对这个文件内容的解析:

#EXTM3U: 表示这是一个M3U格式的播放列表文件。

#EXT-X-VERSION:3: 指定M3U8文件的版本。

#EXT-X-PLAYLIST-TYPE:VOD: 表示这是一个点播(Video On Demand)播放列表,意味着内容是预先录制的,可以随时开始播放。

#EXT-X-MEDIA-SEQUENCE:0: 表示第一个媒体文件的序列号是0。

#EXT-X-TARGETDURATION:10: 表示每个媒体文件的最大持续时间为10秒。

#EXTINF:10.000,: 表示每个媒体文件的持续时间为10秒。

后面的每一行都是一个媒体文件的URL,格式为 <filename>.ts,后面跟着一些参数,如签名(sign)、时间戳(t)和用户标识(us)。

#EXT-X-ENDLIST: 表示播放列表结束,没有更多的媒体文件。

这个播放列表包含了从 1420095_2_0.ts 到 1420095_2_105.ts 的媒体文件,每个文件持续10秒,除了最后一个文件 1420095_2_105.ts 持续1.84秒。这些文件可以被用于流媒体播放,客户端会按照顺序请求这些文件来播放视频内容。

在ChatGPT中输入提示词:

你是一个Python编程专家,写一个m3u8视频下载的Python脚本,具体步骤如下:

用户输入一个m3u8地址,接受到这个输入;

解析m3u8文件并获取其中的ts片段链接,发送网络请求下载这些文件;

将下载好的ts片段按顺序合并成一个完整的视频文件,可以使用ffmpeg进行转码和合并;

合并后的视频文件格式为mp4,保存到文件夹:F:\aivideo

注意:每一步都要输出信息到屏幕上

显示下载进度;

多线程加快下载

M3U8播放列表可能包含没有指定基础URL的相对URL,为了解决这个问题,我们需要手动将M3U8文件的基础URL与每个片段的相对路径结合起来,构建每个.ts片段的完整URL。

合并完成后,删除全部ts文件;

源代码:

import os

import requests

import m3u8

import concurrent.futures

import subprocess

from tqdm import tqdm

from urllib.parse import urljoin

Output folder

output_folder = "F:\\aivideo"

Ensure output folder exists

os.makedirs(output_folder, exist_ok=True)

def download_ts_segment(url, output_path):

"""

Downloads a single .ts segment.

"""

response = requests.get(url, stream=True)

with open(output_path, 'wb') as file:

for chunk in response.iter_content(chunk_size=8192):

file.write(chunk)

return output_path

def merge_ts_files(ts_files, output_file):

"""

Merges .ts files using ffmpeg.

"""

with open("filelist.txt", 'w') as f:

for ts_file in ts_files:

f.write(f"file '{ts_file}'\n")

Merge using ffmpeg

subprocess.run(['ffmpeg', '-f', 'concat', '-safe', '0', '-i', 'filelist.txt', '-c', 'copy', output_file])

os.remove("filelist.txt")

def download_and_merge_m3u8(m3u8_url, output_filename):

"""

Downloads and merges M3U8 video segments.

"""

if not output_filename.endswith(('.mp4', '.mkv', '.avi')):

output_filename += ".mp4" # Default to mp4 if no extension provided

print(f"Fetching M3U8 playlist from: {m3u8_url}")

response = requests.get(m3u8_url)

playlist = m3u8.loads(response.text)

base_uri = m3u8_url.rsplit('/', 1)[0] + '/'

ts_urls = [urljoin(base_uri, segment.uri) for segment in playlist.segments]

print(f"Found {len(ts_urls)} segments.")

Download TS segments with progress bar

ts_files = []

with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:

future_to_url = {executor.submit(download_ts_segment, url, os.path.join(output_folder, f"{i}.ts")): url for i, url in enumerate(ts_urls)}

for future in tqdm(concurrent.futures.as_completed(future_to_url), total=len(ts_urls), desc="Downloading TS segments"):

ts_file = future.result()

ts_files.append(ts_file)

Sort files to ensure correct order

ts_files.sort(key=lambda x: int(os.path.basename(x).split('.')[0]))

Merge TS files

output_path = os.path.join(output_folder, output_filename)

print(f"Merging TS files into {output_path}")

merge_ts_files(ts_files, output_path)

print(f"Video saved to {output_path}")

if name == "main":

m3u8_url = input("Enter the M3U8 URL: ")

output_filename = input("Enter the output filename (e.g., video.mp4): ")

download_and_merge_m3u8(m3u8_url, output_filename)

相关推荐
interception13 小时前
爬虫逆向:瑞数5(华能电子)
爬虫
光算科技14 小时前
商品颜色/尺码选项太多|谷歌爬虫不收录怎么办
java·javascript·爬虫
是Yu欸15 小时前
扫描网站结构的SEO元数据抓取方案
爬虫·seo·亮数据·brightdata
Data_Journal16 小时前
Puppeteer vs. Playwright —— 哪个更好?
运维·人工智能·爬虫·媒体·静态代理
啊巴矲16 小时前
小白从零开始勇闯人工智能:爬虫初级篇(Selenium库)
爬虫·selenium·测试工具
serve the people17 小时前
AI 模型识别 Nginx 流量中爬虫机器人的防御机制
人工智能·爬虫·nginx
薛不痒18 小时前
网络爬虫下(一些对网页的操作)
爬虫
小白学大数据18 小时前
Python 爬虫如何分析并模拟 JS 动态请求
开发语言·javascript·爬虫·python
深蓝电商API18 小时前
2025爬虫技术前沿:AI驱动、多模态与反反爬的军备竞赛
人工智能·爬虫
爱打代码的小林18 小时前
python(爬虫selenium)
爬虫·python·selenium