Python对腾讯课程视频链接自动化抓取

近期看到腾讯课堂停服的通知,心痛之余,想到啊,我还有很多课程没看完,就剩下两个月的事件,我也来不及看完了。怎么办?

索性,我研究下,怎么把视频保存下来。

接下来请听我分析。

所用技术

Python、Selenium

技术方案

简单来说,通过Selenium打开浏览器,通过课程视频播放详情页的链接,获取整个课程的标题和视频链接。

难点

腾讯课堂的视频不是mp4直接播放的,是m3u8地址。这就意味着,不能通过dom src的js方式简单获取,但通过代码接口逆向过于耗费时间和经历。

使用前,应该先通过测试监听的方式,启动浏览器

复制代码
C:
cd C:\Program Files\Google\Chrome\Application
chrome.exe --remote-debugging-port=9527 

这里的端口指的是selenium要监听的那个,这里指认了,一会自动化执行的时候才会在这个窗口。这里是必要的,因为腾讯课堂限制必须登录,才能访问页面,所以启动后要先登录。然后才能执行抓取程序。

后面的步骤

  1. 启动监听程序
  2. 抓取课程链接程序
  3. 通过课程链接抓取真正视频链接程序。(这一步是相对难的)

如何找视频真实链接?

我是通过监听Network找到m3u8的地址,逐个视频自动获取m3u8地址,然后存储到本地。

python 复制代码
opt = ChromeOptions()
opt.add_experimental_option("debuggerAddress", "127.0.0.1:9527")  # 指定端口为9527,要和启动时调试端口一样
# 通过option参数,设置浏览器不关闭
  caps = {
    "browserName": "chrome",
    'goog:loggingPrefs': {'performance': 'ALL'}  # 开启日志性能监听
  }
  # 将caps添加到options中
  for key, value in caps.items():
    opt.set_capability(key, value)

webdriver.Chrome(options=opt)
performance_log = driver.get_log('performance')
# performance_log 通过这里获取真实的m3u8地址

最后通过下载工具下载

我使用的是N_m3u8DL。

通过执行命令

cmd 复制代码
.\N_m3u8DL-CLI_v3.0.2 "下载地址uri" --workDir "下载后保存的位置" --saveName "下载后要保存的文件名" 

可以通过python执行

python 复制代码
import os
os.system("") # 在此执行命令

也可以保存到一个文件,把所有的下载命令,通过python直接执行那个脚本。

最后:欢迎各位点评,如果想要源码,可以与我联系。

相关推荐
zhousenshan27 分钟前
Python爬虫常用框架
开发语言·爬虫·python
IMER SIMPLE1 小时前
人工智能-python-深度学习-经典神经网络AlexNet
人工智能·python·深度学习
CodeCraft Studio1 小时前
国产化Word处理组件Spire.DOC教程:使用 Python 将 Markdown 转换为 HTML 的详细教程
python·html·word·markdown·国产化·spire.doc·文档格式转换
专注API从业者2 小时前
Python/Java 代码示例:手把手教程调用 1688 API 获取商品详情实时数据
java·linux·数据库·python
java1234_小锋2 小时前
[免费]基于Python的协同过滤电影推荐系统(Django+Vue+sqlite+爬虫)【论文+源码+SQL脚本】
python·django·电影推荐系统·协同过滤
明达智控技术2 小时前
MR30分布式I/O模块在化工行业的应用
物联网·自动化
双翌视觉2 小时前
机器视觉的手机柔性屏贴合应用
智能手机·自动化·视觉检测·机器视觉
看海天一色听风起雨落2 小时前
Python学习之装饰器
开发语言·python·学习
XiaoMu_0013 小时前
基于Python+Streamlit的旅游数据分析与预测系统:从数据可视化到机器学习预测的完整实现
python·信息可视化·旅游
THMAIL3 小时前
深度学习从入门到精通 - 生成对抗网络(GAN)实战:创造逼真图像的魔法艺术
人工智能·python·深度学习·神经网络·机器学习·生成对抗网络·cnn