一个将本地视频/音频转换为文字或字幕文件的命令行工具

video-to-txt

一个将本地视频/音频转换为文字或字幕文件的命令行工具。支持自动语言检测与中文简繁转换,默认在本地运行,不需要申请任何 API Key。

Github 地址: video2audio2text: https://github.com/GaloisZhou/video2audio2text

功能

  • 提取视频音频为 MP3/WAV
  • 本地转录为字幕或纯文本(基于 faster-whisper
  • 自动语言检测:中文/英语,含粤语启发式识别
  • 中文脚本转换:简体/繁体(基于 opencc
  • 备用方案:OpenAI API(可选)

环境要求

  • Python: 支持 Python 3.8+ (已在 Python 3.13 测试通过)。
  • FFmpeg : 必须安装 FFmpeg 命令行工具。
    • macOS: brew install ffmpeg
    • Windows/Linux: 请参考 FFmpeg 官网安装并添加到 PATH。

安装

  1. 克隆或下载本项目。
  2. 安装 Python 依赖:
bash 复制代码
pip install -r requirements.txt
pip install faster-whisper

使用方法

命令行接口 (CLI)

运行 main.py 即可处理视频。

基本用法

提取音频并生成字幕(默认使用 base 模型,输出 srt 格式):

bash 复制代码
python main.py path/to/your/video.mp4
仅提取音频

如果不想要生成字幕,可以加上 --audio-only 参数:

bash 复制代码
python main.py path/to/your/video.mp4 --audio-only

使用 OpenAI API (解决本地安装问题)

如果本地 openai-whisper 安装失败(如在 Python 3.13 上),您可以使用 OpenAI API Key 来生成字幕:

bash 复制代码
# 方法 1: 通过命令行参数
python main.py video.mp4 --api-key sk-xxxxxx

# 方法 2: 通过环境变量 (推荐)
export OPENAI_API_KEY="sk-xxxxxx"
python main.py video.mp4

注意:API 模式会产生费用,请参考 OpenAI 官方定价。

指定模型和格式

您可以指定 Whisper 模型大小(模型越大越准但越慢)和输出格式:

bash 复制代码
python main.py video.mp4 --model medium --format vtt
  • --model: tiny, base, small, medium, large
  • --format: srt, txt, vtt, tsv, json
相关推荐
青岛前景互联信息技术有限公司2 天前
视频AI与智能预警:如何提前发现园区安全隐患?
大数据·人工智能·视频
Silicore_Emma5 天前
芯谷科技—D8002:2.8W 单通道 AB 类差分输入音频功率放大器
音频·智能音箱·消费电子·音频功率放大器·芯谷科技·音频设备·8002d
哦***76 天前
真实评测 | FreeBuds Pro 5独立空间音频
华为·音频·harmonyos
小贺儿开发8 天前
Unity3D 旋钮交互视频控制系统 1.0
unity·人机交互·视频·配置文件·videoplayer·输入系统·角度
橙色阳光五月天10 天前
使用 hyperframes 结合其他技术是否可以做出XX动物园游览动态图
人工智能·ai·ai作画·自动化·视频
daanpdf10 天前
新人教版七年级下册英语单词表完整版及听力音频
音频
程序员正茂10 天前
Unity3d中RawImage显示视频画面偏白的解决方法
unity·视频·rawimage
一块小土坷垃11 天前
## Permute 3.14.7 特别版 – 强大的 macOS 多媒体格式转换工具体验
macos·音频·开源软件
沉浸式学习ing12 天前
网课视频里的PPT怎么提取?视频转图文讲义的实操教程
笔记·ai·aigc·学习方法·视频·ppt
iNeuOS工业互联网14 天前
iNeuOS工业互联网操作系统集成大模型智库(iNeuOS_AiMind·心智灵慧)
大数据·人工智能·智能制造·视频·工业互联网·ineuos