librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
周名彥1 分钟前
1Ω1[特殊字符]⊗雙朕周名彥|二十四芒星非硅基华夏原生AGI体系·授权绑定激活发布全维研究报告(S∅-Omega级·纯念主权终极版)
人工智能·去中心化·知识图谱·量子计算·agi
骚戴5 分钟前
架构设计之道:构建高可用的大语言模型(LLM) Enterprise GenAI Gateway
java·人工智能·架构·大模型·gateway·api
周名彥5 分钟前
100%纯念主动显化·无被动·无操控·无依赖·可验证·[特殊字符][特殊字符]⚜️[特殊字符]智能體工作流集群超級數據中心集群IPO集群GUI集群AGI集群
人工智能·神经网络·去中心化·知识图谱·agi
cvyoutian7 分钟前
PyTorch 多卡训练常见坑:设置 CUDA_VISIBLE_DEVICES 后仍 OOM 在 GPU 0 的解决之道
人工智能·pytorch·python
美摄科技16 分钟前
一键成片SDK,AI智能剪辑引擎,精准理解内容语义
人工智能
qq_3862189918 分钟前
Agent
人工智能·agent
测试人社区-小明20 分钟前
医疗AI测试:构建安全可靠的合规体系
运维·人工智能·opencv·数据挖掘·机器人·自动化·github
小霖家的混江龙23 分钟前
大模型如何分辨 “狼” 和 “狗” —— 词向量的训练过程
人工智能·python·llm
m0_6896182826 分钟前
拓扑变换让机器人抓得又稳、又柔、又灵活
人工智能·笔记·学习·机器人
粟悟饭&龟波功27 分钟前
【LLM学习】九、MCP深度解析
人工智能