librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
一点一木2 小时前
🚀 2026 年 4 月 GitHub 十大热门项目排行榜 🔥
人工智能·github
淡海水3 小时前
【AI模型】常见问题与解决方案
人工智能·深度学习·机器学习
HIT_Weston3 小时前
65、【Agent】【OpenCode】用户对话提示词(费米估算)
人工智能·agent·opencode
njsgcs3 小时前
我的知识是以图片保存的,我的任务状态可能也与图片有关,我把100张知识图片丢给vlm实时分析吗
人工智能
星爷AG I4 小时前
20-4 长时工作记忆(AGI基础理论)
人工智能·agi
#卢松松#4 小时前
用秒悟(meoo)制作了一个GEO查询小工具。
人工智能·创业创新
zandy10114 小时前
Agentic BI 架构实战:当AI Agent接管数据建模、指标计算与可视化全链路
人工智能·架构
数字供应链安全产品选型4 小时前
关键领域清单+SBOM:834号令下软件供应链的“精准治理“逻辑与技术落地路径
人工智能·安全
Flying pigs~~4 小时前
RAG智慧问答项目
数据库·人工智能·缓存·微调·知识库·rag
zuozewei4 小时前
从线下到等保二级生产平台:一次公有云新型电力系统 AI 部署复盘
人工智能