librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
集成显卡4 分钟前
前端视频播放方案选型:主流 Web 播放器对比 + Vue3 实战
前端·vue·音视频
m0_603888714 分钟前
Chatting with Images for Introspective Visual Thinking
人工智能·计算机视觉·ai·论文速览
MicRabbit5 分钟前
openClaw安装飞书插件|核心踩坑:spawn EINVAL 错误终极解决指南
人工智能
码农三叔9 分钟前
(11-4-02)完整人形机器人的设计与实现案例:机器人跳跃
人工智能·算法·机器人·人机交互·人形机器人
m0_6038887110 分钟前
MPA Multimodal Prototype Augmentation for Few-Shot Learning
人工智能·深度学习·ai·原型模式·论文速览
程序员猫哥_12 分钟前
静态网站AI自动生成正在改变什么?2026开发效率新趋势解析
人工智能
edisao12 分钟前
第一章:L-704 的 0.00% 偏差
前端·数据库·人工智能
sww_102613 分钟前
Spring AI 可观测性实战
java·人工智能·spring
坐在地上想成仙15 分钟前
AI工具汇总
人工智能
IT 行者22 分钟前
打造你的家庭 AI 助手(四):企业微信 AI 助手接入你的 OpenClaw
人工智能·企业微信