语音识别技术paddlespeech的安装和使用

PaddleSpeech 介绍

PaddleSpeech是百度飞桨(PaddlePaddle)开源深度学习平台的其中一个项目,它基于飞桨的语音方向模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。PaddleSpeech支持语音识别、语音翻译(英译中)、语音合成、标点恢复等应用示例。

安装paddlespeech

PaddleSpeech 快速安装方式有两种,一种是 pip 安装,一种是源码编译(官方推荐)。

使用pip安装paddlespeech

bash 复制代码
$ pip install pytest-runner
$ pip3 install paddleaudio==1.0.1
$ pip3 install paddlespeech==1.0.1

使用源码编译安装

bash 复制代码
$ git clone https://github.com/PaddlePaddle/PaddleSpeech.git
$ cd PaddleSpeech
$ pip install pytest-runner
$ pip install .

提示:安装过程可能因为缺少各种的库报错,如:librosa 依赖的系统库,gcc 环境问题,kaldi 安装等可以在网上查找。

音频示例下载

bash 复制代码
$ wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
$ wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

paddlespeech工具

查看帮助

bash 复制代码
$ paddlespeech  help
$ paddlespeech asr help

基本使用

语音合成

bash 复制代码
 $ paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav

如果报错

bash 复制代码
$ pip install numpy==1.23.0
$ sudo apt-get install libsndfile1

执行过程

bash 复制代码
$  ts-paddle /paddle/PaddleSpeech paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架!" --output output.wav
grep: warning: GREP_OPTIONS is deprecated; please use an alias or script
/usr/local/lib/python3.7/dist-packages/librosa/core/constantq.py:1059: DeprecationWarning: `np.complex` is a deprecated alias for the builtin `complex`. To silence this warning, use `complex` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.complex128` here.
Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  dtype=np.complex,
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 489M/489M [01:01<00:00, 7.96MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 915M/915M [01:51<00:00, 8.22MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 589M/589M [01:01<00:00, 9.57MB/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 107k/107k [00:00<00:00, 1.33MB/s]
W0606 13:22:41.408085  2451 gpu_resources.cc:61] Please NOTE: device: 0, GPU Compute Capability: 7.5, Driver API Version: 11.7, Runtime API Version: 11.7
W0606 13:22:41.412684  2451 gpu_resources.cc:91] device: 0, cuDNN Version: 8.4.
/paddle/PaddleSpeech/output.wavλ ts-paddle /paddle/PaddleSpeech ls

语音识别

识别中文

bash 复制代码
$ paddlespeech asr --lang zh --input zh.wav

指定模型识别,识别英文

bash 复制代码
$ paddlespeech  asr --lang en --model deepspeech2offline_librispeech  --input en.wav

标点恢复

恢复文本标点,可与ASR模型配合使用

bash 复制代码
$ paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

声音分类

适配多场景的开放领域声音分类工具

基于 AudioSet 数据集 527 个类别的声音分类模型

bash 复制代码
$ paddlespeech cls --input zh.wav

声纹提取

工业级声纹提取工具

bash 复制代码
$ paddlespeech vector --task spk --input zh.wav

语音翻译

端到端英译中语音翻译工具,使用预编译的 kaldi 相关工具,只支持在 Ubuntu 系统中体验

bash 复制代码
$ paddlespeech st --input en.wav
相关推荐
zhojiew12 分钟前
在RAG系统中对FAISS,HNSW,BM25向量检索引擎选型的问题
人工智能·机器学习·faiss
深藏功yu名15 分钟前
Day24:向量数据库 Chroma_FAISS 入门
数据库·人工智能·python·ai·agent·faiss·chroma
OpenBayes贝式计算20 分钟前
教程上新|低门槛部署英伟达最新 Physical AI 模型,覆盖人形机器人/人体运动生成/扩散模型微调等
人工智能·深度学习·机器学习
3DVisionary33 分钟前
突破3C质检产能瓶颈:XTOM蓝光扫描仪配合自动化转台实现精密件批量检测
运维·人工智能·自动化·xtom扫描仪·自动化检测·消费电子质检·良率控制
子木HAPPY阳VIP44 分钟前
Ubuntu 22.04 VMware 设置固定IP配置
人工智能·后端·目标检测·机器学习·目标跟踪
机器之心1 小时前
英伟达革了自己的命:智能体自主进化7天,干掉所有算子工程师、GPU专家
人工智能·openai
CoderJia程序员甲1 小时前
GitHub 热榜项目 - 日榜(2026-03-25)
人工智能·ai·大模型·github·ai教程
ZeroSilin1 小时前
Superpowers:为AI编程智能体赋予工程化超能力(安装与配置)
人工智能
云安全助手1 小时前
OpenClaw失控风暴:Meta两小时Sev1级事故,AI智能体集体黑化敲响全球安全警钟
人工智能·安全
昨夜见军贴06161 小时前
AI审核守护生命设备安全:IACheck成为呼吸机消毒效果检测报告的智能审核专家
大数据·人工智能·安全