Python爬虫:爬取B站视频(详细讲解)

Hello,大家好,我是南枫,今天带来什么项目呢?就是------爬B站视频

刷过B站的都知道,B站并没有下载功能,连官网都没有下载功能的话,那我们还能正常爬取吗?当然~

首先我们要知道B站视频是分为视频和音频两部分,所以我们抓下来还不行,还需要把视频和音频给拼接起来。

工作量乍一看感觉很大,其实很简单,那么现在,跟着我的步伐一起来瞅瞅吧!

进行抓取之前,想问大家一个问题,请看图:

大家觉得整个页面,这两个部分谁占用的内存最大?最多

毋庸置疑的就是第一个部分(视频),请大家记住这一点,接下来,我们一起打开检查来进行常规操作。

总共有429个请求,并且还在不断增加,那我们如何从这么多文件里找到视频的文件呢?

我们上面说了,整个页面哪个部分占的内容最多?那就是视频!

那我们直接来进行排序,把所有文件按照从大到小进行排序(你想从小到大也没人拦你),怎么排序呢?如图:

点大小就行,so ez。那第一个就是视频文件吗?其实并不是,而是这三个文件:

这三个文件都是视频文件,不相信我的你接着看好了~,开始写代码:

成功爬取下来,接下来看看能不能进行播放:

播放正常,但,有个问题,只有视频,并没有声音,那我们是不是还得抓音频呢?对的没错,那么音频在哪呢?回到网站,往下滑:

可以看到,这里又有三个文件,他们仨和视频文件不一样,不一样的点在哪?

这是视频的文件,数字是:30064

我们看音频的文件,数字是:30232

所以视频文件和音频文件的区别,肉眼可见的就是数字而已哈哈哈哈哈,直接上代码:

那么这里要注意一点,视频文件的格式是 .mp4;音频文件的格式是 .mp3,大家注意不要搞混咯。

|-------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------|
| | |

播放音频看有没有问题:

没有问题,那么我们B站的视频和音频就爬取下来了~非常的ez是吧,但有个问题,既然视频和音频都爬下来了,但我们又该怎么把他们俩合并在一起形成正常的视频呢?

带着这个疑问,请看下一篇文章~

相关推荐
小胖墩有点瘦5 分钟前
【基于yolo和web的垃圾分类系统】
人工智能·python·yolo·flask·毕业设计·课程设计·垃圾分类
站大爷IP14 分钟前
Python实现简易成语接龙小游戏:从零开始的趣味编程实践
python
华科云商xiao徐1 小时前
告别低效:构建健壮R爬虫的工程思维
爬虫
PP东1 小时前
Pyhton基础之多继承、多态
开发语言·python
菜鸟的日志2 小时前
【音频字幕】构建一个离线视频字幕生成系统:使用 WhisperX 和 Faster-Whisper 的 Python 实现
python·whisper·音视频
小宁爱Python2 小时前
基于 Django+Vue3 的 AI 海报生成平台开发(海报模块专项)
人工智能·python·django
红豆怪怪2 小时前
[LeetCode 热题 100] 32. 最长有效括号
数据结构·python·算法·leetcode·动态规划·代理模式
大嘴带你水论文3 小时前
震惊!仅用10张照片就能随意编辑3D人脸?韩国KAIST最新黑科技FFaceNeRF解析!
论文阅读·人工智能·python·科技·计算机视觉·3d·transformer
CodeCraft Studio3 小时前
国产化PDF处理控件Spire.PDF教程:如何在 Java 中通过模板生成 PDF
java·python·pdf·spire.pdf·java创建pdf·从html创建pdf
摆烂z4 小时前
Jupyter Notebook的交互式开发环境方便py开发
ide·python·jupyter