【Python音视频技术】Python音视频技术系列文章2---视频提取音频转换文字

接上一篇文章 【Python音视频技术】玩AI视频创作引发写Python音视频技术系列文章1---视频添加字幕

之前我想在视频中提取音频转换文字, 当时是用 PC剪映专业版搞定的, 详情见 【AI+应用】模仿爆款视频二次创作短视频操作步骤 。 这里我准备用python来实现类似功能。

先上自己简单写的示例代码:

这里的原视频用的【人工智能】AI视频二次创作演示

​​​​​​​

复制代码
import moviepy.editor as mpimport speech_recognition as sr

def video_to_text(filePath, fileName):    video = mp.VideoFileClip(filePath + fileName)
    audioPath = filePath + '/converted.wav'    video.audio.write_audiofile(audioPath)
    r = sr.Recognizer()    with sr.AudioFile(audioPath) as infile:        audio = r.record(infile)        print(r.recognize_sphinx(audio))

if __name__ == '__main__':    video_to_text("/Users/lwj", "/spring.mp4")

代码简单解释下, 先把视频转换成音频文件(这里转换成wav格式),然后SpeechRecognition离线识别文字。

需要注意的是SpeechRecognition支持语音文件类型:

复制代码
WAV: 必须是 PCM/LPCM 格式AIFFAIFF-CFLAC: 必须是初始 FLAC 格式;OGG-FLAC 格式不可用

recognize_sphinx()语音识别器,它既可以联网工作,也可以离线工作,离线必须安装pocketsphinx库。

这里采用离线方式。

pip3 install SpeechRecognition

pip3 install pocketsphinx

备注: moviePy安装可以参考上一篇文章,这里就不细写了。

python3 video_to_text.py

直接安装运行后会发现, 对应目录产生了音频文件, 生成的文字等待了很长时间,出来一堆牛头不对马嘴的英文。 这时候,我在想,应该是要找安装 中文声学模型、语言模型和字典文件。

参照网上的做法:先找中文包下载地址:

https://sourceforge.net/projects/cmusphinx/files/Acoustic and Language Models/Mandarin/

python安装目录下找到Lib\site-packages\speech_recognition:

如果你有很多python安装版本,不知道Python路径,可以通过命令

pip3 show speechRecognition 查找。

点击进入pocketsphinx-data文件夹,并新建文件夹zh-CN:在这个文件夹中添加进入刚刚解压的文件,需要注意:把解压出来的zh_cn.cd_cont_5000文件夹重命名为acoustic-model、zh_cn.lm.bin命名为language-model.lm.bin、zh_cn.dic中dic改为pronounciation-dictionary.dict格式。

修改了代码 print(r.recognize_sphinx(audio)) 为

print(r.recognize_sphinx(audio, language='zh-cn'))

重新运行 python3 video_to_text.py, 音译的什么玩意。 还是有点牛头不对马嘴。

个人猜想有2个原因,待确定。

1、pocketsphinx离线版中文音译并不理想

2、我这个原视频杂音太多,除了字幕的音频,还有音乐。影响具体的文字识别。后续找个其他视频试一下。

文章先到这里。主要是因为本周末下午天气很好,待会陪小孩玩足球,先不折腾了。 这个只是跑通了流程,并不是太满意实际效果。

未完待续

相关推荐
AI人工智能+电脑小能手1 分钟前
【大白话说Java面试题 第106题】【并发篇】第6题:synchronized 锁的锁对象可以是什么?
java·开发语言·面试
质造者2 分钟前
Python 本地 RAG 实战 | Ollama+ChromaDB 实现 PDF 离线智能问答
开发语言·python·pdf·大模型·rag
骑士雄师2 分钟前
18.1 星系案例:多智能体宇宙探索系统(学习langgraph 的存储知识)
windows·python·学习
slandarer9 分钟前
MATLAB | 韦恩图的高阶版: UpSet图 更新升级啦!
开发语言·matlab
m沐沐9 分钟前
【深度学习】PyTorch CNN 手写数字识别(卷积神经网络)
人工智能·pytorch·python·深度学习·机器学习·pycharm·cnn
garmin Chen9 分钟前
Prompt工程入门:让AI按你的要求工作(3)--Prompt工程与提示词安全评测概述
java·人工智能·python·安全·prompt
Leweslyh10 分钟前
3GPP TS 28.312 意图驱动管理服务 — 极详细通俗解读
开发语言·php
nanawinona12 分钟前
只会用 K 线算期货信号下一步怎么接到交易
python·区块链
swordbob21 分钟前
Spring事务失效的场景
java·开发语言·spring
叫我:松哥21 分钟前
基于卷积神经网络的静态手势语识别算法,在测试集上的识别准确率达到97.5%
人工智能·python·深度学习·神经网络·算法·cnn