爬虫下载b站视频

复制代码
#知识点
#Requests模块使用
#Json数据提取
#re模块使用
#os模块使用
#ffmpeg工具使用
import json
import os
import pprint
import re
from lxml import etree

#1.爬取视频页的网页源代码
import requests
headers={
    'referer':'https://www.bilibili.com',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'
}
def get_paly_url(url):
    r=requests.get(url,headers=headers)
    #2.提取视频和音频的播放地址
    info=re.findall('window.__playinfo__=(.*?)</script>',r.text)[0]
    video_url=json.loads(info)['data']['dash']['video'][0]['baseUrl']
    audio_url=json.loads(info)['data']['dash']['audio'][0]['baseUrl']
    html=etree.HTML(r.text)
    filename=html.xpath('//h1/text()')[0]
    # print(filename)
    return video_url,audio_url,filename
#3.下载并保存视频和音频
def download_files(video_url,audio_url,filename,path):
    print('开始下载音频和视频...')
    video_content=requests.get(video_url,headers=headers).content
    audio_content = requests.get(audio_url, headers=headers).content
    with open(f'{path}/{filename}.mp4','wb') as f:
        f.write(video_content)
        print('已下载视频部分')
    with open(f'{path}/{filename}.mp3', 'wb') as f:
        f.write(audio_content)
        print('已下载音频部分')

#4.合并视频和音频
#ffmpeg
def combine_files(filename,path):
    cmd=fr"D:\python学习笔记课后题\ffmpeg-7.0.1-full_build\ffmpeg-7.0.1-full_build\bin\ffmpeg -i {path}\{filename}.mp4 -i {path}\{filename}.mp3 -c:v copy -c:a aac -strict experimental {path}\output-{filename}.mp4 -loglevel quiet"
    os.system(cmd)
    print('已完成合并!')
    os.remove(f'{path}\{filename}.mp4')
    os.remove(f'{path}\{filename}.mp3')
    print('已删除多余文件!')
if __name__ == '__main__':
    path = 'D:\python学习笔记课后题\爬虫\实战\视频'
    url = 'https://www.bilibili.com/video/BV1AA4y1D7h2/?spm_id_from=333.337.search-card.all.click'
    video_url,audio_url,filename=get_paly_url(url)
    download_files(video_url, audio_url, filename, path)
    combine_files(filename, path)
相关推荐
PyHaVolask3 小时前
Python 爬虫进阶:直接请求 JSON 接口与开发者工具使用
爬虫·python·请求头·反爬·json接口·chrome开发者工具
shark22222228 小时前
Python中的简单爬虫
爬虫·python·信息可视化
Black蜡笔小新8 小时前
国标GB28181视频监控平台EasyCVR赋能平安乡村建设,构筑乡村治理“数字防线”
java·网络·音视频
中小企业实战军师刘孙亮8 小时前
组织赋能+体系搭建,破解中小企业增长困局-佛山鼎策创局破局增长咨询
架构·产品运营·音视频·制造·业界资讯
幽络源小助理8 小时前
X4独角兽视频网站新版源码_整站视频系统_带CMS后台_幽络源源码
音视频·php源码
EasyGBS10 小时前
国密GB35114协议国标GB28181平台EasyGBS双标融合筑牢金融视频监控安全技术底座
安全·金融·音视频
jarreyer10 小时前
【爬虫】爬虫记录1
爬虫
亿牛云爬虫专家10 小时前
解决 Python 爬虫代理 407 错误:基于 urllib3 更新与爬虫代理的实战指南-2
爬虫·python·爬虫代理·authentication·urllib3·407·base64 编码
泰迪智能科技0110 小时前
图书教材推荐|Python网络爬虫技术(第2版)(微课版)
开发语言·爬虫·python
二等饼干~za89866811 小时前
GEO 源码部署搭建详细操作教程(2026 最新版)
线性代数·django·开源·音视频·ai-native