文章目录
一、url的保存格式
爬取的视频名字和url保存在text文件中,每一个视频都是一个单独的text,其中text的文件名就是视频的名字,text内容是视频的下载url,并且所有的text都保存在同一个文件夹下。因此下载保存在text中的视频文件,就需要遍历所有的text文件,获取其文件名和链接来下载视频。
二、MP4视频获取
c
import os
import requests
# 保存的视频的下载url为text文件,text文件名为视频名字,text内容为url
folder_path = 'C:\\Users\\14461\\Desktop\\爬虫\\爬取的视频\\text_url'
# 下载视频的保存地址
save_path = 'C:\\Users\\14461\\Desktop\\爬虫\\爬取的视频\\video'
# 列出文件夹下所有文件
filenames = os.listdir(folder_path)
print(filenames)
headers = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 7.1.2; PCRT00 Build/N2G48H; wv) AppleWebKit'
'/537.36 (KHTML, like Gecko) Version/4.0 Chrome/66.0.3359.158 Mobile Safari/5'
'37.36 bdminivideo/2.5.5.10 arsdk/480 (Baidu; P1 7.1.2)'
}
def download_video(file_name, url):
# dir = os.path.join(folder_path, "video")
file = os.path.join(save_path, file_name) + '.mp4' # 保存本地的路径
r = requests.get(url, headers) # 获取视频文件,根据文件的大小,这一步为主要耗时步骤
with open(file, 'wb') as file: # 保存文件到本地
file.write(r.content)
# 遍历所有的text来下载所有的视频
for filename in filenames:
with open(os.path.join(folder_path, filename), 'r') as file:
# 读取文件内容
content = file.read()
download_video(filename, content)