librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
只与明月听10 分钟前
RAG深入学习之Chunk
前端·人工智能·python
aircrushin25 分钟前
百万Token时代的工程突破:DeepSeek如何以1/2成本实现长文本推理革命
人工智能
uuutt33333 分钟前
从闲置到满配:树莓派作为 OpenClaw 宿主的完整实践
人工智能
Guass37 分钟前
OpenClaw优化飞书API 额度已耗尽问题
人工智能
七牛云行业应用1 小时前
大模型接入踩坑录:被 Unexpected end of JSON 折磨三天,我重写了SSE流解析
javascript·人工智能·代码规范
透明人_x1 小时前
OpenClaw安装
人工智能·后端
开源之美2 小时前
【读Gemini CLI源码,品Agent架构设计】系列文章(二) —— Gemini CLI 模型路由方案深度分析
人工智能
用户7570104166122 小时前
10 分钟接入 AgentNet:从零开始
人工智能
吴佳浩4 小时前
《大模型的文件形态:Qwen3 文件结构与计算流程深度拆解》
人工智能·llm
程序员陆业聪13 小时前
Android 平台 AI Agent 技术架构深度解析
android·人工智能