asr

zhuweisky17 天前
内网穿透·asr·反向代理·暴露内网服务
TCP反向代理:将局域网内部的TCP/HTTP服务暴露在公网上最近我们开发的一个APP,其中某个模块需要有ASR(语音转文字)的功能,对应的服务端是部署在阿里云上面的。ASR服务我们已经开发完成,但测试发现ASR在进行语音识别时,会消耗大量的资源(CPU、GPU、内存),特别是GPU,这样导致转换的延迟很大,为了能低延时运行ASR,我们为测试电脑专门配备了一块 NVIDIA RTX 3090的显卡,才能满足要求。
一如年少模样丶17 天前
openai·agent·asr·vllm·sglang·lmdeploy·gpt_server
GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。
Luke Ewin20 天前
java·人工智能·语音识别·asr·funasr·paraformer·sensevoice
FunASR的Java实现Paraformer实时语音识别 | 一款无需联网的本地实时字幕软件我们在看直播时,没有视频字幕,可能看惯了视频字幕,来到直播中缺少字幕会感觉不习惯,特别是对于听力障碍的人群,只能依赖于字幕,那么这个软件可以解决直播,在线会议等场景中无字幕的情况。此外,我们还可以用于人机交互中,以及智能呼叫中心系统中(实时语音质检)。因此,开发一款可以运行在普通CPU中的实时字幕软件很有必要。
浅醉樱花雨20 天前
人工智能·python·语音识别·asr·vosk
vosk语音识别实战Vosk 是一个由 Alpha Cephei 团队开发的开源离线语音识别(ASR)工具包。它的核心优势在于完全离线运行和轻量级,使其非常适合在资源受限的环境、注重隐私的场景或需要低延迟的应用中使用。
胡耀超1 个月前
python·深度学习·ffmpeg·音视频·语音识别·多模态·asr
DataOceanAI Dolphin(ffmpeg音频转化教程) 多语言(中国方言)语音识别系统部署与应用指南官方地址:DataoceanAI-DolphinDataOceanAI Dolphin 是由清华大学与DataOceanAI联合开发的多语言自动语音识别(ASR, Automatic Speech Recognition)系统。该系统专门针对东方语言设计,支持40种亚洲语言和22种中文方言,基于超过21万小时的训练数据构建。系统采用Transformer架构,提供了从140M到1.67B参数规模的多个模型版本。
木亦汐丫4 个月前
语音识别·asr·端到端·流式·nar非自回归·分块注意力·mask-ctc
【ASR】基于分块非自回归模型的流式端到端语音识别论文地址:https://arxiv.org/abs/2107.09428非自回归 (NAR) 模型在语音处理中越来越受到关注。 凭借最新的基于注意力的自动语音识别 (ASR) 结构,与自回归 (AR) 模型相比,NAR 可以在仅精度略有下降的情况下实现有前景的实时因子 (RTF) 提升。 然而,识别推理需要等待完整语音话语的完成,这限制了其在低延迟场景中的应用。 为了解决这个问题,我们提出了一种新颖的端到端流式 NAR 语音识别系统,该系统结合了分块注意力和带有掩码预测 (Mask-CTC) NAR 的
放羊郎4 个月前
人工智能·语音识别·asr·funasr·语音转文字
从零实现本地语音识别(FunASR)FunASR 是达摩院开源的综合性语音处理工具包,提供语音识别(ASR)、语音活动检测(VAD)、标点恢复(PUNC)等全流程功能,支持多种主流模型(如 Paraformer、Whisper、SenseVoice)的推理、微调和部署。
allnlei4 个月前
whisper·asr
whisper相关的开源项目 (asr)基于 Whisper(OpenAI 的开源语音识别模型)的开源项目有很多,涵盖了不同应用场景和优化方向。以下是一些值得关注的项目:
shao9185165 个月前
人工智能·ffmpeg·语音识别·transformers·gradio·asr
Gradio全解20——Streaming:流式传输的多媒体应用(3)——实时语音识别技术本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。音频应用包括流式传输音频、构建音频对话式聊天机器人、实时语音识别技术和自动语音检测功能;图像应用包括基于WebRTC的摄像头实时目标检测;视频应用包括构建视频流目标检测系统。
Luke Ewin5 个月前
人工智能·whisper·音视频·语音识别·asr·语音转写·视频字幕生成
一个基于OpenAI Whisper开发的音视频字幕文件生成工具该工具软件是基于 OpenAI Whisper 的模型编写的,使用 Python 语言开发,然后通过 pyinstaller 打包成 exe 可执行程序,方便用户使用,之间双击就可以启动。点击这里,跳转到工具产品页面 该工具有以下功能:
uncle_ll6 个月前
人工智能·nlp·语音识别·asr
达摩院Paraformer-ONNX模型:一站式高精度中文语音识别工业级解决方案阿里达摩院推出的speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx模型,通过ONNX运行时优化,集语音端点检测、实时转写、标点恢复等核心功能于一体,为工业场景提供开箱即用的高并发语音识别服务。本文详解其技术优势与落地实践。
玩电脑的辣条哥6 个月前
服务器·人工智能·ubuntu·asr·funasr
AI-Sphere-Butler之Ubuntu服务器如何部署FunASR服务AI-Sphere-ButlerWSL2英伟达4070ti 12GWin10Ubuntu22.04python>=3.8
玩电脑的辣条哥6 个月前
人工智能·腾讯云·语音识别·asr
AI-Sphere-Butler之如何使用腾讯云ASR语音识别服务AI-Sphere-ButlerWSL2英伟达4070ti 12GWin10Ubuntu22.04腾讯云ASR
Luke Ewin7 个月前
人工智能·python·音视频·语音识别·声纹识别·asr·3d-speaker
根据音频中的不同讲述人声音进行分离音频 | 基于ai的说话人声音分离项目在实际的开发中可能会遇到这样的问题,老板让你把音频中的每个讲话人的声音分离成不同的音频片段。你可以使用au等专业的音频处理软件手动分离。但是这样效率太慢了,现在ai这么发达,我们能否借助ai之力来分离一条音频中的不同的说话人呢?答案是肯定可以的。 这里将利用声纹识别加上语音识别来对音频中不同的说话人进行语者分离。
Luke Ewin9 个月前
python·大模型·llm·语音识别·语音合成·tts·asr
解决安装pynini和WeTextProcessing报错问题点击这里,访问博客最近在给别人有偿部署ASR-LLM-TTS项目时遇到安装pynini和WeTextProcessing依赖报错的问题,报错信息如下:
十八年后又是一条好汉10 个月前
whisper·语音识别·asr·stt
选择使用whisper.cpp进行语音转文字需要将一些wav格式的语音文件转成文字(ASR,STT),接到这个任务后,首先上网搜索有没有现成免费的工具或服务可以使用。常用的关键字如“语音转文字 免费 在线”。
Ephemeroptera1 年前
算法·数据挖掘·聚类·asr
聚类算法的代码解析与实现本文将对一个基于未归一化拉普拉斯矩阵的谱聚类算法进行详细解析。该算法的实现源自 SpeechBrain 项目,适用于语音片段的聚类,例如语音分离、说话人识别等任务。我们将逐步分析代码的每个部分,并解释其背后的数学原理。
Eric.Lee20211 年前
算法·whisper·语音识别·asr·语言转文字
whisper 实现语音识别 ASR - python 实现语音识别(Speech Recognition),同时称为自动语音识别(英语:Automatic Speech Recognition, ASR),将语音音频转换为文字的技术。
残诗1 年前
机器人·语音识别·asr·大模块
制作一个能对话能跳舞的otto机器人OTTO机器人是一个开源外壳,硬件和软件的桌面机器人项目,非常适合新手研究和拓展。记住,他是一个能移动有表情能声音的机器人。
NLP工程化1 年前
tts·asr·dify
Dify中语音和文字间转换问题的一种暂时注释方式本文主要解释了Dify中语音和文字间转换可能会遇到的问题,并给出了一种暂时注释的解决方案。本地部署文本转语音时,如果遇到如下问题,安装ffmpeg即可。但是如果安装后,重启系统还是遇到这个问题该如何办?