视频链接处理 + 提取字幕

视频链接处理 + 提取字幕

背景

有一些需要处理的视频,想把他们的字幕提取出来,得到完整的内容,进行参考。

技术数据处理说明

Excel(视频链接) -> 下载(先提取字幕,不行则下载音频) -> 转写(使用Whisper-音频转文字模型,得到内容)

核心组件

  1. yt-dlp ------ 万能视频下载器

    • 是 youtube-dl 的活跃 fork,支持 1700+ 站点(B站、抖音、小红书、油管...)
    • 命令行原理:访问页面 → 解析平台特定的 JSON 接口 → 拿到真实媒体 URL → 下载
    • 关键参数:
      --write-subs / --write-auto-subs:抓平台已有的字幕(最省事)
      -x --audio-format mp3:只要音频,不要视频(更小更快)
      --cookies-from-browser chrome:带浏览器登录态,绕过登录墙
      --sleep-requests / --sleep-interval:降低请求频率,反风控
  2. FFmpeg ------ 多媒体瑞士军刀

    yt-dlp 底层依赖它做转码、抽音轨

    视频→音频抽取、格式转换都是它干的

  3. Whisper / faster-whisper ------ OpenAI 开源的 ASR 模型

    ASR = Automatic Speech Recognition(自动语音识别)

    原理简化版:Encoder-Decoder Transformer

    音频 → 切成 30 秒片段 → 转 mel-spectrogram(频谱图) → Encoder 编码

    Decoder 像写作文一样逐词预测下一个 token,输出文字 + 时间戳

    faster-whisper 用 CTranslate2 做推理优化,比官方版快 4 倍、显存少

    模型尺寸:tiny / base / small / medium / large-v3,越大越准但越慢

    中文场景一般用 base(够用)或 medium(更准)

  4. SRT 字幕格式

    就是这种东西:

    复制代码
    00:00:01,200 --> 00:00:03,500
    你好世界

    序号 + 时间戳 + 文字。要变"纯文本"只需正则去掉前两行再合并即可。

注意点

  1. 仅供学习交流使用。
  2. 优先官方字幕优先,质量高,不出错
  3. 注意串行处理,或者有多个账号来回切换,防止被封控
  4. 有些视频网站需要登陆,如:某站、某书,--cookies-from-browser 直接复用浏览器 里的 Cookie
  5. 使用Whisper处理时,由于是跑模型,GPU/CPU密集型,串行即可。
相关推荐
RTC实战笔记3 天前
实时互动数字人怎么做,才不是一个只会说话的视频?
音视频·数字人·rtc·数字人接入
RTC实战笔记15 天前
Android 实时音视频接入教程:媒体补充增强信息(SEI)
音视频·媒体·rtc
潜创微科技16 天前
HDMI1.3 无线传输芯片方案 空旷 150 米量产级音视频方案
音视频
VidDown16 天前
VidDown 工具站:免费、本地优先的开发者工具箱
javascript·编辑器·音视频·视频编解码·视频
换个昵称都难16 天前
音频格式之WAV
音视频
AI创界者16 天前
PilotTTS 一键整合包(Win/Mac):8G 显存畅跑,实测解锁情绪与副语言的精准控制
人工智能·macos·aigc·音视频
u1521096484916 天前
S.S.Audio PRO A2音频隔离器
嵌入式硬件·音视频·实时音视频·视频编解码·视频
VidDown16 天前
显卡处理视频技术详解:从硬解码到 NVENC,GPU 如何让视频处理起飞?
javascript·编辑器·音视频·视频编解码·视频
EasyDSS16 天前
全能音视频平台/私有化音视频系统EasyDSS!直播/点播/会议/集群对讲一站式落地
音视频
Damon_X16 天前
车载音频复习
音视频