librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
宇若-凉凉7 分钟前
BERT 完整教程指南
人工智能·深度学习·bert
卜锦元24 分钟前
音视频媒体服务领域中三种架构方式的定义与区别(Mesh、MCU、SFU)
架构·音视频·媒体
JD技术委员会41 分钟前
如何在跨部门沟通失误后进行协调与澄清
人工智能
PcVue China1 小时前
PcVue X 工控——工厂数字化转型与落地巡回研讨会圆满举行
人工智能·软件工程·scada·监控平台·工控网
EasyCVR1 小时前
打造景区“视觉中枢”:视频融合平台EasyCVR助力智慧景区安防智能化升级
音视频
StarPrayers.1 小时前
自蒸馏学习方法
人工智能·算法·学习方法
咚咚王者1 小时前
人工智能之编程进阶 Python高级:第十一章 过渡项目
开发语言·人工智能·python
深度学习lover2 小时前
<数据集>yolo航拍斑马线识别数据集<目标检测>
人工智能·深度学习·yolo·目标检测·计算机视觉·数据集·航拍斑马线识别
大力财经2 小时前
百度开启AI新纪元,让智能从成本变成超级生产力
人工智能·百度
上大科技蔡生2 小时前
CS8389、CS8390:防破音,AB/D,2×6.6W立体音频功率放大器
音视频·音频功放