video-to-txt
一个将本地视频/音频转换为文字或字幕文件的命令行工具。支持自动语言检测与中文简繁转换,默认在本地运行,不需要申请任何 API Key。
Github 地址: video2audio2text: https://github.com/GaloisZhou/video2audio2text
功能
- 提取视频音频为 MP3/WAV
- 本地转录为字幕或纯文本(基于
faster-whisper) - 自动语言检测:中文/英语,含粤语启发式识别
- 中文脚本转换:简体/繁体(基于
opencc) - 备用方案:OpenAI API(可选)
环境要求
- Python: 支持 Python 3.8+ (已在 Python 3.13 测试通过)。
- FFmpeg : 必须安装 FFmpeg 命令行工具。
- macOS:
brew install ffmpeg - Windows/Linux: 请参考 FFmpeg 官网安装并添加到 PATH。
- macOS:
安装
- 克隆或下载本项目。
- 安装 Python 依赖:
bash
pip install -r requirements.txt
pip install faster-whisper
使用方法
命令行接口 (CLI)
运行 main.py 即可处理视频。
基本用法
提取音频并生成字幕(默认使用 base 模型,输出 srt 格式):
bash
python main.py path/to/your/video.mp4
仅提取音频
如果不想要生成字幕,可以加上 --audio-only 参数:
bash
python main.py path/to/your/video.mp4 --audio-only
使用 OpenAI API (解决本地安装问题)
如果本地 openai-whisper 安装失败(如在 Python 3.13 上),您可以使用 OpenAI API Key 来生成字幕:
bash
# 方法 1: 通过命令行参数
python main.py video.mp4 --api-key sk-xxxxxx
# 方法 2: 通过环境变量 (推荐)
export OPENAI_API_KEY="sk-xxxxxx"
python main.py video.mp4
注意:API 模式会产生费用,请参考 OpenAI 官方定价。
指定模型和格式
您可以指定 Whisper 模型大小(模型越大越准但越慢)和输出格式:
bash
python main.py video.mp4 --model medium --format vtt
--model:tiny,base,small,medium,large--format:srt,txt,vtt,tsv,json