1 音频信号采集与播放 pyaudio
python
import sys
import pyaudio
import wave
import time
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1#仅支持单声道
RATE = 16000
RECORD_SECONDS = 3#更改录音时长
#录音函数,生成wav文件
def record(file_name):
try:
os.close(file_name)
os.remove(file_name)#先删除一下文件,以防重名
except:
pass #如果文件不存在直接跳过
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
frames = []
print('录音开始')
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
#print('i的数据:%s'%data)
frames.append(data)
print("录音结束")
stream.stop_stream()
stream.close()
p.terminate()
wf = wave.open(file_name, 'wb')
wf.setnchannels(CHANNELS)
wf.setsampwidth(p.get_sample_size(FORMAT))
wf.setframerate(RATE)
wf.writeframes(b''.join(frames))
wf.close()
#播放函数,播放wav文件
def play(file_name):
# 定义数据流块
CHUNK = 1024
# 只读方式打开wav文件
wf = wave.open(file_name, 'rb')#(sys.argv[1], 'rb')
p = pyaudio.PyAudio()
# 打开数据流
stream = p.open(format=p.get_format_from_width(wf.getsampwidth()),
channels=wf.getnchannels(),
rate=wf.getframerate(),
output=True)
# 读取数据
data = wf.readframes(CHUNK)
# 播放
print('试听开始')
while data != b'':
stream.write(data)
data = wf.readframes(CHUNK)
print('试听结束')
# 停止数据流
stream.stop_stream()
stream.close()
# 关闭 PyAudio
p.terminate()
if __name__=='__main__':
record('1.wav')
play('1.wav')
- record是录音,play是播放
pyaudio是我们要安装的库,这个有时不这么好装,如果pip install pyaudio不行的话,可能要下whl包或者其他方式进行安装
如果报错 OSError: [Errno -9999] Unanticipated host error 这个要检查一下麦克风,如果麦克风连接正常,你要查一下麦克风的权限
一般只有windows上会出这样的问题,在设置中搜索麦克风

回车后点击这个

这里变为开就好了

运行的显示是这样的

在录音结束后会成成 1.wav 的音频文件

这个1.wav在windows中双击打开也是可以听的
2 语音合成 pyttsx3
使用的库是pyttsx3,项目地址 GitHub - nateshmbhat/pyttsx3: Offline Text To Speech synthesis for python

我在树莓派上使用pip安装后使用会出现这个错误 OSError: libespeak.so.1: cannot open shared object file: No such file or directory
安装这个包就可以了 sudo apt-get install espeak
下面我简单摘录两个功能
2.1 播放
python
import pyttsx3
pyttsx3.speak("你好")
运行后可以听到你好
2.2 保存音频文件
python
import pyttsx3
engine = pyttsx3.init() # object creation
"""Saving Voice to a file"""
# On linux make sure that 'espeak' and 'ffmpeg' are installed
engine.save_to_file('你好', 'test.mp3')
engine.runAndWait()
运行后会得到一个mp3文件,双击播放会听到 你好

2.3 在arm上的适配
在windows上我们直接装就行了,但是在arm上我运行上面代码得到了下面的错误

他提示没有eSpeak-ng这种东西

之后就能运行了
3 语音识别 speechrecognition与pocketsphinx
- 参考 speechrecognition_魔天一念的博客-CSDN博客
- 目前我只试过识别英文,链接中提到的中文包我没装
两个库都用pip install 下载就行,pocketsphinx是speechrecognition


python
import speech_recognition as sr
# obtain audio from the microphone
r = sr.Recognizer()
harvard = sr.AudioFile("test.wav")
with harvard as source:
audio = r.record(source)
# recognize speech using Sphinx
try:
result = r.recognize_sphinx(audio)
print(result)
except sr.UnknownValueError:
print("Sphinx could not understand audio")
except sr.RequestError as e:
print("Sphinx error; {0}".format(e))
