视频链接处理 + 提取字幕

视频链接处理 + 提取字幕

背景

有一些需要处理的视频,想把他们的字幕提取出来,得到完整的内容,进行参考。

技术数据处理说明

Excel(视频链接) -> 下载(先提取字幕,不行则下载音频) -> 转写(使用Whisper-音频转文字模型,得到内容)

核心组件

  1. yt-dlp ------ 万能视频下载器

    • 是 youtube-dl 的活跃 fork,支持 1700+ 站点(B站、抖音、小红书、油管...)
    • 命令行原理:访问页面 → 解析平台特定的 JSON 接口 → 拿到真实媒体 URL → 下载
    • 关键参数:
      --write-subs / --write-auto-subs:抓平台已有的字幕(最省事)
      -x --audio-format mp3:只要音频,不要视频(更小更快)
      --cookies-from-browser chrome:带浏览器登录态,绕过登录墙
      --sleep-requests / --sleep-interval:降低请求频率,反风控
  2. FFmpeg ------ 多媒体瑞士军刀

    yt-dlp 底层依赖它做转码、抽音轨

    视频→音频抽取、格式转换都是它干的

  3. Whisper / faster-whisper ------ OpenAI 开源的 ASR 模型

    ASR = Automatic Speech Recognition(自动语音识别)

    原理简化版:Encoder-Decoder Transformer

    音频 → 切成 30 秒片段 → 转 mel-spectrogram(频谱图) → Encoder 编码

    Decoder 像写作文一样逐词预测下一个 token,输出文字 + 时间戳

    faster-whisper 用 CTranslate2 做推理优化,比官方版快 4 倍、显存少

    模型尺寸:tiny / base / small / medium / large-v3,越大越准但越慢

    中文场景一般用 base(够用)或 medium(更准)

  4. SRT 字幕格式

    就是这种东西:

    复制代码
    00:00:01,200 --> 00:00:03,500
    你好世界

    序号 + 时间戳 + 文字。要变"纯文本"只需正则去掉前两行再合并即可。

注意点

  1. 仅供学习交流使用。
  2. 优先官方字幕优先,质量高,不出错
  3. 注意串行处理,或者有多个账号来回切换,防止被封控
  4. 有些视频网站需要登陆,如:某站、某书,--cookies-from-browser 直接复用浏览器 里的 Cookie
  5. 使用Whisper处理时,由于是跑模型,GPU/CPU密集型,串行即可。
相关推荐
ting94520007 小时前
Vivago Video Agent 技术深度解析:大模型驱动的叙事视频全链路生成
人工智能·音视频
ZC跨境爬虫7 小时前
跟着 MDN 学CSS day_3:(为一个传记页面添加样式)
前端·javascript·css·ui·音视频·html5
不昀7 小时前
VOOHU沃虎:音频变压器的匝数比和阻抗比如何换算?
网络·音视频·以太网·网络通信·电子元器件
lvronglee8 小时前
【数字图传第四步】Android App查看图传视频
android·音视频
_oP_i8 小时前
FFmpeg 如何与ai结合剪辑出效果好的视频
人工智能·ffmpeg·音视频
weixin_4952484010 小时前
2026年AI视频翻译配音工具深度评测:多角色识别能力对比
人工智能·音视频
枫叶林FYL10 小时前
【强化学习】4 视觉引导的时序奖励塑形:多视角视频驱动的强化学习状态对齐框架
数码相机·音视频
与仪共舞10 小时前
APx525B 双通道音频分析仪(Audio Precision)
音视频
YWamy11 小时前
音视频SDK:数字时代实时互动的核心技术底座
实时互动·音视频