【爬虫】爬bibi视频

1. 复制粘贴搜索

2. 利用工具写请求代码

工具网址:Convert curl commands to code

3. 把爬取内容喂给ai

先保存到txt文件

复制代码
# 上面代码是第二部分复制粘贴的
with open('1.txt', 'w') as f:
    f.write(response.text)

问ai:根据txt的内容,查找并提取视频地址和音频地址

以下是ai返回的:

复制代码
import requests
import re
import json

url = 'https://www.bilibili.com/video/BV11GJazAE35/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
    'Referer': 'https://www.bilibili.com/'
}

response = requests.get(url, headers=headers)
html = response.text

# 方法1:从window.__playinfo__中提取
match = re.search(r'window.__playinfo__=(.*?)</script>', html)
if match:
    play_info = json.loads(match.group(1))
    # 视频地址
    video_url = play_info['data']['dash']['video'][0]['baseUrl']
    # 音频地址
    audio_url = play_info['data']['dash']['audio'][0]['baseUrl']
    print(f"视频地址: {video_url}")
    print(f"音频地址: {audio_url}")

运行结果:

4. 合并视频和音频

这一步我直接 按tab键自动补全的,参考以下代码:

复制代码
from moviepy import VideoFileClip, AudioFileClip
# 加载视频和音频文件
video_clip = VideoFileClip("视频.mp4")
audio_clip = AudioFileClip("视频.mp3")

# 将音频设置为视频的音频
video_clip = video_clip.with_audio(audio_clip)

# 保存合并后的视频
video_clip.write_videofile("合并后的视频.mp4")

完整代码如下:

复制代码
import requests
import re
import json

url = 'https://www.bilibili.com/video/BV11GJazAE35/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36',
    'Referer': 'https://www.bilibili.com/'
}

response = requests.get(url, headers=headers)
html = response.text

# 方法1:从window.__playinfo__中提取
match = re.search(r'window.__playinfo__=(.*?)</script>', html)
if match:
    play_info = json.loads(match.group(1))
    # 视频地址
    video_url = play_info['data']['dash']['video'][0]['baseUrl']
    # 音频地址
    audio_url = play_info['data']['dash']['audio'][0]['baseUrl']
    print(f"视频地址: {video_url}")
    print(f"音频地址: {audio_url}")

# 视频
with open('视频.mp4', 'wb') as f:
    f.write(requests.get(video_url, headers=headers).content)
# 音频
with open('视频.mp3', 'wb') as f:
    f.write(requests.get(audio_url, headers=headers).content)


from moviepy import VideoFileClip, AudioFileClip
# 加载视频和音频文件
video_clip = VideoFileClip("视频.mp4")
audio_clip = AudioFileClip("视频.mp3")

# 将音频设置为视频的音频
video_clip = video_clip.with_audio(audio_clip)

# 保存合并后的视频
video_clip.write_videofile("合并后的视频.mp4")

效果如下:

视频也是有声音的。

说明:爬的视频不是高清的,想爬高清的得登陆,在代码中增加对应的参数与请求头等,比如cookie值等。

相关推荐
Caco_D11 天前
一行代码抓遍全网 20 个热榜!Aneiang.Pa 4.0 发布 — 极简 .NET 爬虫库
爬虫·.net
太岁又沐风15 天前
复现并修掉ART hook框架 Pine 调用原方法时的偶发 SIGSEGV
爬虫
隔窗听雨眠16 天前
大模型加爬虫上篇:技术融合与架构革新
爬虫·架构
Super Scraper17 天前
如何批量抓取 TikTok 数据而不被封锁?完整指南
爬虫·ai·自动化·抖音·tiktok·ai agent
深蓝电商API17 天前
自动化录屏 + 截图:打造爬虫调试的上帝视角
爬虫
tang7778917 天前
市场调研自动化采集架构:基于住宅IP轮换的APP数据抓取与反风控方案
爬虫·动态代理ip·爬虫代理ip·爬虫动态ip·住宅代理ip·动态住宅ip
数据知道17 天前
指纹浏览器环境的导入、导出、快照与云端同步机制
爬虫·数据采集·指纹浏览器
星川皆无恙17 天前
大数据k-means聚类算法:基于k-means聚类算法+NLP微博舆情数据爬虫可视化分析推荐系统(新版)
大数据·人工智能·爬虫·算法·机器学习·自然语言处理·kmeans
小二·17 天前
Rust 爬虫与数据处理实战:大规模并发抓取 + 流式处理
开发语言·爬虫·rust