一个将本地视频/音频转换为文字或字幕文件的命令行工具

草明2025-12-27 8:22

video-to-txt

一个将本地视频/音频转换为文字或字幕文件的命令行工具。支持自动语言检测与中文简繁转换，默认在本地运行，不需要申请任何 API Key。

Python: 支持 Python 3.8+ (已在 Python 3.13 测试通过)。
FFmpeg : 必须安装 FFmpeg 命令行工具。
- macOS: brew install ffmpeg
- Windows/Linux: 请参考 FFmpeg 官网安装并添加到 PATH。

bash 复制代码

pip install -r requirements.txt
pip install faster-whisper

运行 main.py 即可处理视频。

提取音频并生成字幕（默认使用 base 模型，输出 srt 格式）：

bash 复制代码

python main.py path/to/your/video.mp4

如果不想要生成字幕，可以加上 --audio-only 参数：

bash 复制代码

python main.py path/to/your/video.mp4 --audio-only

如果本地 openai-whisper 安装失败（如在 Python 3.13 上），您可以使用 OpenAI API Key 来生成字幕：

bash 复制代码

# 方法 1: 通过命令行参数
python main.py video.mp4 --api-key sk-xxxxxx

# 方法 2: 通过环境变量 (推荐)
export OPENAI_API_KEY="sk-xxxxxx"
python main.py video.mp4

注意：API 模式会产生费用，请参考 OpenAI 官方定价。

您可以指定 Whisper 模型大小（模型越大越准但越慢）和输出格式：

bash 复制代码

python main.py video.mp4 --model medium --format vtt