librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
AI街潜水的八角20 分钟前
深度学习图像分类数据集—枣子水果成熟度分类
人工智能·深度学习·分类
亿信华辰软件1 小时前
大模型重构数据治理新范式:亿信华辰“AI+睿治“的六大智能化突破
人工智能·大模型·数据治理
MILI元宇宙1 小时前
AI搜索+法律咨询:在「事实重构」与「程序正义」的博弈场‌
人工智能
听吉米讲故事2 小时前
Llama 4全面评测:官方数据亮眼,社区测试显不足之处
人工智能·开源·llama
六bring个六3 小时前
相机功能特性(QCamera::Feature)详解
音视频·qt6.3
羊小猪~~3 小时前
深度学习项目--分组卷积与ResNext网络实验探究(pytorch复现)
网络·人工智能·pytorch·python·深度学习·神经网络·机器学习
语言专家4 小时前
亲身体验 Copilot Pages:利用人工智能实时整理和优化笔记
人工智能·机器人·copilot
TGITCIC5 小时前
PyTorch:解锁AI新时代的钥匙
人工智能·pytorch·大模型·ai入门·python大模型·ai python·大模型pytorch
Try,多训练5 小时前
Pytorch查看神经网络结构和参数量
人工智能·pytorch·python
数据运营新视界6 小时前
可编辑37页PPT | 建筑行业DeepSeek日常实操培训
人工智能