librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
米小虾8 分钟前
AI 安全攻防 2026:从对抗样本到 Agent 安全,开发者必须面对的五道防线
人工智能·安全
And_Ii16 分钟前
基于 LangGraph 搭建反思迭代 Agent:实现文章自动优化
人工智能
basketball61616 分钟前
AI Infra 硬件体系与编程模型:9. 使用 NVCC 进行编译
人工智能
硅谷秋水21 分钟前
HumanEgo:基于人类第一人称视角数分钟视频的零样本机器人学习
人工智能·机器学习·计算机视觉·机器人
IT_陈寒28 分钟前
Vite这个坑我帮你踩了,动态导入居然这样才生效
前端·人工智能·后端
gis分享者1 小时前
OpenCV 新手入门与实战部署指南
人工智能·opencv·计算机视觉
Ronin3051 小时前
ToDesk AI如何成为Codex远程控制的国内代替品?
人工智能
dualven_in_csdn1 小时前
h265视频的播放问题
音视频
测试员周周1 小时前
【AI测试智能体-面试】AI测试面试60题(附回答思路)
人工智能·python·功能测试·测试工具·单元测试·自动化·测试用例
ShyanZh2 小时前
【skill】Humanizer-zh:24条规则消灭AI写作痕迹
人工智能·ai写作·skill