一个将本地视频/音频转换为文字或字幕文件的命令行工具

video-to-txt

一个将本地视频/音频转换为文字或字幕文件的命令行工具。支持自动语言检测与中文简繁转换,默认在本地运行,不需要申请任何 API Key。

Github 地址: video2audio2text: https://github.com/GaloisZhou/video2audio2text

功能

  • 提取视频音频为 MP3/WAV
  • 本地转录为字幕或纯文本(基于 faster-whisper
  • 自动语言检测:中文/英语,含粤语启发式识别
  • 中文脚本转换:简体/繁体(基于 opencc
  • 备用方案:OpenAI API(可选)

环境要求

  • Python: 支持 Python 3.8+ (已在 Python 3.13 测试通过)。
  • FFmpeg : 必须安装 FFmpeg 命令行工具。
    • macOS: brew install ffmpeg
    • Windows/Linux: 请参考 FFmpeg 官网安装并添加到 PATH。

安装

  1. 克隆或下载本项目。
  2. 安装 Python 依赖:
bash 复制代码
pip install -r requirements.txt
pip install faster-whisper

使用方法

命令行接口 (CLI)

运行 main.py 即可处理视频。

基本用法

提取音频并生成字幕(默认使用 base 模型,输出 srt 格式):

bash 复制代码
python main.py path/to/your/video.mp4
仅提取音频

如果不想要生成字幕,可以加上 --audio-only 参数:

bash 复制代码
python main.py path/to/your/video.mp4 --audio-only

使用 OpenAI API (解决本地安装问题)

如果本地 openai-whisper 安装失败(如在 Python 3.13 上),您可以使用 OpenAI API Key 来生成字幕:

bash 复制代码
# 方法 1: 通过命令行参数
python main.py video.mp4 --api-key sk-xxxxxx

# 方法 2: 通过环境变量 (推荐)
export OPENAI_API_KEY="sk-xxxxxx"
python main.py video.mp4

注意:API 模式会产生费用,请参考 OpenAI 官方定价。

指定模型和格式

您可以指定 Whisper 模型大小(模型越大越准但越慢)和输出格式:

bash 复制代码
python main.py video.mp4 --model medium --format vtt
  • --model: tiny, base, small, medium, large
  • --format: srt, txt, vtt, tsv, json
相关推荐
小贺儿开发7 小时前
Unity3D 智能云端数字标牌系统
unity·阿里云·人机交互·视频·oss·广告·互动
承渊政道2 天前
用群晖部署OmniBox+pansou:把分散的影视资源全聚合到一个界面里
服务器·windows·网络协议·https·ip·视频·持续部署
巴德鸟3 天前
DaVinci 常用技巧 关键帧 自动字幕 追踪 音频 冻结帧 快捷键 多轨道字幕 扩充边缘
android·编辑器·音视频·视频·davinci·davin
声光界3 天前
《信号处理赋能智能体音感知》
人工智能·音频·信号处理·声学
凛_Lin~~3 天前
Android录音、试听功能实现
android·音频·安卓
憨波个5 天前
【说话人日志】多说话人数据仿真 Property-Aware Simulation
人工智能·深度学习·音频·语音识别
憨波个5 天前
【说话人日志】Sortformer:将说话人日志接入多说话人 ASR
人工智能·机器学习·音频·语音识别·聚类
Never_every996 天前
8 个高清 4K 视频素材网址!无水印可商用
大数据·前端·音视频·视频
承渊政道6 天前
群晖配Plex搭建私人影音中心,用起来到底怎么样?
服务器·windows·网络协议·https·ip·视频·持续部署
大学生小郑7 天前
如何定义图像质量,如何评价图像质量
图像处理·学习·音视频·视频