librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
o0恋静0o2 分钟前
Context Operations:操控模型看到的信息
人工智能
两万五千个小时3 分钟前
构建mini Claude Code:07 - 一切皆文件:持久化任务系统
人工智能·python·架构
lisw0510 分钟前
边缘计算概述!
人工智能·边缘计算
Humbunklung11 分钟前
深入解析PPTX:编程实现批量字体替换的原理与实践
人工智能·python·计算机视觉·manus
壹通GEO11 分钟前
AI-GEO内容矩阵:打造永不枯竭的流量池
人工智能·线性代数·矩阵
python风控模型15 分钟前
A股上市银行2012-2023年度面板数据库,附分析报告
人工智能·机器学习·银行·风控
带娃的IT创业者20 分钟前
预测编码=Decoder 训练?Friston 自由能的 Transformer 实现
人工智能·深度学习·transformer·脑机接口·nct·硅基生命·意识编码
沪漂阿龙23 分钟前
大模型能力基准深度对比:MMLU、HumanEval、GSM8K谁主沉浮?
人工智能
vm3224 分钟前
01:Agent Loop 深度剖析:ReAct 循环的工程实现
人工智能·ai·自然语言处理·开源
星爷AG I35 分钟前
12-9 社会记忆(AGI基础理论)
人工智能·agi