librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
heimeiyingwang3 分钟前
从 0 到 1:企业 AI 战略规划与落地路线图
大数据·人工智能
新缸中之脑7 分钟前
让AI代理演示他们的工作
人工智能
专注VB编程开发20年10 分钟前
百度AI垃圾说高通占小米股份15%雷总23%
人工智能·百度
Tadas-Gao14 分钟前
架构逆转向量:AI时代规范驱动开发的范式重构与实践图谱
人工智能·云原生·重构·架构·系统架构·大模型
小程故事多_8015 分钟前
自省式检索Self-RAG,让AI学会“知之为知之”,构建可信赖的智能问答闭环
人工智能·aigc
阿杰学AI19 分钟前
AI核心知识98——大语言模型之 Generative AI(简洁且通俗易懂版)
人工智能·语言模型·自然语言处理·aigc·生成式ai·generative ai
盟接之桥21 分钟前
制造业EDI数字化:连接全球供应链的桥梁
linux·运维·服务器·网络·人工智能·制造
田里的水稻26 分钟前
FA_规划和控制(PC)-动态窗口(DWA)
人工智能·算法·数学建模·机器人·自动驾驶
geneculture30 分钟前
智慧系统工程实践:从人机互助至人机协同
大数据·人工智能·机器学习·知识图谱·融智学的重要应用·哲学与科学统一性·融智时代(杂志)
阿杰学AI30 分钟前
AI核心知识108—大语言模型之 AI Aesthetics Engineer(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·新型职业·ai美学工程师