librosa 语音识别 学习笔记

目录

不错的功能介绍

librosa安装

语音识别


不错的功能介绍

librosa,一个很有趣的 Python 库! - 简书

音频转特征向量

GitHub - librosa/librosa: Python library for audio and music analysis

librosa安装

2024.04.27 测试ok Win11系统

pip install librosa

python 复制代码
import os

import numpy as np
from transformers import Wav2Vec2Processor, Wav2Vec2Model
import torch

import librosa


def load_example_input(audio_path, processor=None):
    if processor is None:
        processor = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-base-960h")

    speech_array, sampling_rate = librosa.load(os.path.join(audio_path), sr=16000)

    audio_feature = np.squeeze(processor(speech_array, sampling_rate=sampling_rate).input_values)

    audio_feature = np.reshape(audio_feature, (-1, audio_feature.shape[0]))

    return torch.FloatTensor(audio_feature)


audio_path=r'demo/wav/man.wav'


load_example_input(audio_path)

语音识别

pip install SpeechRecognition

pip install pyaudio

python 复制代码
import librosa
import speech_recognition as sr

# 录制音频
r = sr.Recognizer()
with sr.Microphone() as source:
    print("请开始说话...")
    audio = r.listen(source)

# 将音频转换为文本
try:
    text = r.recognize_google(audio)
    print("识别结果:", text)
except sr.UnknownValueError:
    print("无法识别音频")
except sr.RequestError as e:
    print(f"请求出错:{e}")
相关推荐
析数塔20 小时前
AI项目失败的本质:认知失调而非技术瓶颈
人工智能·ai编程
特立独行的猫a20 小时前
轻量级 AI 编码新力量| AtomCode Air 完全指南:用自然语言编程,让创意即时落地
人工智能·ai·agent·使用指南·atomcode·atomcode air
guslegend20 小时前
第4节:UI页面对接(流式应答界面)
人工智能·大模型
圣殿骑士-Khtangc20 小时前
钉钉机器人桥接 Codex 实现远程运维:随时修复 OpenClaw Bug
人工智能
hyunbar77720 小时前
扣子(coze)高级实战-今日头条关键词批量采集,循环写入飞书
人工智能
网管NO.120 小时前
视频核心技术 01:视频基础概念 —— 帧、分辨率、帧率、码率、YUV 色彩系统全解
音视频
墨雪遗痕20 小时前
HMO分层记忆编排工程思想
人工智能·架构
网管NO.120 小时前
视频核心技术 04:封装格式详解 —— MP4、FLV、TS、MKV 到底有什么区别?
音视频
手写码匠20 小时前
手写 AI Prompt Injection 防护系统:从零实现 LLM 安全边界
人工智能·深度学习·算法·aigc
土星云SaturnCloud20 小时前
边缘计算赋能工业智能化:重大危险源监测+产线控制+视觉分析一体化解决方案
服务器·人工智能·ai·边缘计算