【开源项目】自动字幕生成和字幕翻译

文章目录

  • [1. 安装ffmpeg](#1. 安装ffmpeg)
  • [2. 克隆项目](#2. 克隆项目)
  • [3. 配置项目运行环境](#3. 配置项目运行环境)
  • [4. 填写配置文件](#4. 填写配置文件)
  • [5. 运行项目(仅使用CPU)](#5. 运行项目(仅使用CPU))

项目地址:Github - qinL-cdy/auto_ai_subtitle

项目原理:使用ffmpeg提取视频的音频,使用whisper将音频转写为字幕,使用translate将源语言字幕翻译成目标语言字幕。

说明:translate API免费1000行(行宽70字符),超出需要付费购买API

1. 安装ffmpeg

  • 下载构建好的ffmpeg。Windows版本下载

  • 用7-zip解压文件,将解压目录下的bin目录对应的路径添加到环境变量

    • 在搜索框中搜索环境变量 > 编辑系统环境变量 > 环境变量 > 系统变量 > Path
    • 将bin目录对应的路径添加到Path中
  • win + R启动运行,输入cmd,在命令提示符中输入以下命令,出现下图所示内容即配置成功。

    bash 复制代码
    ffmpeg -version

2. 克隆项目

  • 打开VSCode,点击Clone Git Repository ...。选择克隆的目标文件夹,克隆完成后打开文件夹。

3. 配置项目运行环境

  • 使用conda创建虚拟环境(安装Anaconda、conda换源、pip换源可以去搜索)

    • 启动Anaconda Prompt
    • 输入以下命令创建虚拟环境
    bash 复制代码
    conda create -n auto_ai_subtitle python=3.9 -y
    • 激活虚拟环境
    bash 复制代码
    	conda activate auto_ai_subtitle
  • VSCode选择虚拟环境

  • 右键main.py,点击打开集成终端,输入以下命令安装第三方库。

bash 复制代码
pip install -r requirements.txt

4. 填写配置文件

打开config.yaml,可以根据自己的实际情况设置相应的参数。

  • 语言简称参照链接后两位字母转小写。
  • 路径中不能有中文

5. 运行项目(仅使用CPU)

  • 修改script/audio_tool.py为以下内容:
python 复制代码
import ffmpeg
import subprocess

def audio_extract(input, output):
	ffmpeg.input(input, vn=None).output(output).run()

# 解决中文路径ffmpeg无法运行的问题
# def audio_extract(input_path, output_path):
# 	command = [
# 		'ffmpeg', 
# 		'-i', 'pipe:0',  # 从stdin读取输入
# 		'-vn',          # 仅提取音频
# 		output_path     # 输出文件路径
# 	]

# 	with open(input_path, 'rb') as f:
# 		subprocess.run(command, input=f.read())
  • 修改script/whisper_tool.py,添加verbose=True能显示转写过程。

  • 在集成终端输入以下命令:

bash 复制代码
python main.py
  • 运行过程中出现以下警告可以忽略,因为默认使用FP16,但是CPU不支持FP16,程序自动会改成FP32。
相关推荐
tudoSearcher3 小时前
手机、平板、电脑同时控制Claude Code / Codex ?:Paseo实战指南
网络·开源·开源软件·个人开发·ai编程
lipku5 小时前
LiveTalking 更新:集成 vLLM-Omni TTS服务
python·开源·数字人·vllm·实时数字人
Par@ish5 小时前
关于开源GNU通用许可(GPLv3)详细解说
web安全·开源·开源协议
SeaTunnel7 小时前
87 个 PR 迭代复盘|Apache SeaTunnel 5 月版本重点更新解读
大数据·数据库·开源·apache·seatunnel
DolphinScheduler社区7 小时前
实战演示 | 基于 Apache DolphinScheduler 与 Apache SeaTunnel 实现 MySQL 到 Doris 离线定时增量同步
数据库·mysql·开源·apache·海豚调度·大数据工作流调度
SL-staff8 小时前
Vue3私有化AI白板落地实战|解决政企项目智能绘图合规难题(可直接复用源码)
人工智能·低代码·开源·vue3·白板·jvs规则引擎·jvs-draw
国产化创客8 小时前
嵌入式视觉完整技术体系--ESP32/K230/RDK-X5/树莓派四层架构全解析
嵌入式硬件·物联网·架构·开源·智能硬件
爱上纯净的蓝天8 小时前
AtomCode 源码编译与二次开发入门
开源·二次开发·源码编译·atomcode
hanbr8 小时前
我做了个工具:把 Typora 笔记一键变成 CSDN 博客,截图自动生成描述,还能 AI 润色
开源·开源软件
小小测试开发9 小时前
Goose AI Agent 完全指南:Linux 基金会加持的开源 AI 编程助手
linux·人工智能·开源