asr

加油20196 小时前
llm·学习笔记·b站·asr·bilibili
ASR+LLM:B站学习视屏下载并生成学习笔记bilibili当前有越来越多高质量的教学视频,但是B站上没有直接下载视频的按钮,以及视频资料不利于复现回归,所以最好整理成笔记方便后续回顾。本文介绍一种B站视频下载、音频提取、使用ASR将音频转成文字,并且利用LLM大语言模型将文本生成学习笔记。
星野云联AIoT技术洞察4 天前
whisper·语音识别·模型部署·tts·asr·嵌入式ai·naturalspeech3
2025年语音识别(ASR)与语音合成(TTS)技术趋势分析对比面向开发者的实用指南:探索最新的ASR和TTS技术,助力构建高效的语音应用。随着人工智能的快速发展,语音识别(ASR)和语音合成(TTS)技术在多个领域得到了广泛应用。从智能助手到自动字幕生成,从有声读物到虚拟主播,语音技术正逐步改变人机交互的方式。
luoyayun36115 天前
whisper·pyside6·asr
PySide6调用OpenAI的Whisper模型进行语音ASR转写Whisper 是 OpenAI 开发的一款通用语音识别模型,采用大规模弱监督训练方法,支持多语言语音转录和翻译任务。该模型基于 Transformer 架构,具有高准确性和鲁棒性,适用于多种场景下的语音处理需求。OpenAI Whisper作为基于Transformer架构的端到端语音识别模型,其核心设计天然支持多语言处理。 官网:https://openai.com/zh-Hans-CN/index/whisper/ github:https://github.com/openai/whisper
从孑开始19 天前
ai·tts·asr·manyspeech·audiosep
ManySpeech —— 使用 C# 开发人工智能语音应用ManySpeech(https://github.com/manyeyes/ManySpeech)是由 manyeyes 社区开发的一款基于 C# 的语音处理套件。该项目以优秀的开源模型为核心,依托 Microsoft.ML.OnnxRuntime 实现 ONNX 模型解码,致力于解决三大关键问题:
zhuweisky1 个月前
内网穿透·asr·反向代理·暴露内网服务
TCP反向代理:将局域网内部的TCP/HTTP服务暴露在公网上最近我们开发的一个APP,其中某个模块需要有ASR(语音转文字)的功能,对应的服务端是部署在阿里云上面的。ASR服务我们已经开发完成,但测试发现ASR在进行语音识别时,会消耗大量的资源(CPU、GPU、内存),特别是GPU,这样导致转换的延迟很大,为了能低延时运行ASR,我们为测试电脑专门配备了一块 NVIDIA RTX 3090的显卡,才能满足要求。
一如年少模样丶1 个月前
openai·agent·asr·vllm·sglang·lmdeploy·gpt_server
GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。
Luke Ewin1 个月前
java·人工智能·语音识别·asr·funasr·paraformer·sensevoice
FunASR的Java实现Paraformer实时语音识别 | 一款无需联网的本地实时字幕软件我们在看直播时,没有视频字幕,可能看惯了视频字幕,来到直播中缺少字幕会感觉不习惯,特别是对于听力障碍的人群,只能依赖于字幕,那么这个软件可以解决直播,在线会议等场景中无字幕的情况。此外,我们还可以用于人机交互中,以及智能呼叫中心系统中(实时语音质检)。因此,开发一款可以运行在普通CPU中的实时字幕软件很有必要。
浅醉樱花雨1 个月前
人工智能·python·语音识别·asr·vosk
vosk语音识别实战Vosk 是一个由 Alpha Cephei 团队开发的开源离线语音识别(ASR)工具包。它的核心优势在于完全离线运行和轻量级,使其非常适合在资源受限的环境、注重隐私的场景或需要低延迟的应用中使用。
胡耀超2 个月前
python·深度学习·ffmpeg·音视频·语音识别·多模态·asr
DataOceanAI Dolphin(ffmpeg音频转化教程) 多语言(中国方言)语音识别系统部署与应用指南官方地址:DataoceanAI-DolphinDataOceanAI Dolphin 是由清华大学与DataOceanAI联合开发的多语言自动语音识别(ASR, Automatic Speech Recognition)系统。该系统专门针对东方语言设计,支持40种亚洲语言和22种中文方言,基于超过21万小时的训练数据构建。系统采用Transformer架构,提供了从140M到1.67B参数规模的多个模型版本。
木亦汐丫5 个月前
语音识别·asr·端到端·流式·nar非自回归·分块注意力·mask-ctc
【ASR】基于分块非自回归模型的流式端到端语音识别论文地址:https://arxiv.org/abs/2107.09428非自回归 (NAR) 模型在语音处理中越来越受到关注。 凭借最新的基于注意力的自动语音识别 (ASR) 结构,与自回归 (AR) 模型相比,NAR 可以在仅精度略有下降的情况下实现有前景的实时因子 (RTF) 提升。 然而,识别推理需要等待完整语音话语的完成,这限制了其在低延迟场景中的应用。 为了解决这个问题,我们提出了一种新颖的端到端流式 NAR 语音识别系统,该系统结合了分块注意力和带有掩码预测 (Mask-CTC) NAR 的
放羊郎5 个月前
人工智能·语音识别·asr·funasr·语音转文字
从零实现本地语音识别(FunASR)FunASR 是达摩院开源的综合性语音处理工具包,提供语音识别(ASR)、语音活动检测(VAD)、标点恢复(PUNC)等全流程功能,支持多种主流模型(如 Paraformer、Whisper、SenseVoice)的推理、微调和部署。
allnlei5 个月前
whisper·asr
whisper相关的开源项目 (asr)基于 Whisper(OpenAI 的开源语音识别模型)的开源项目有很多,涵盖了不同应用场景和优化方向。以下是一些值得关注的项目:
shao9185165 个月前
人工智能·ffmpeg·语音识别·transformers·gradio·asr
Gradio全解20——Streaming:流式传输的多媒体应用(3)——实时语音识别技术本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。音频应用包括流式传输音频、构建音频对话式聊天机器人、实时语音识别技术和自动语音检测功能;图像应用包括基于WebRTC的摄像头实时目标检测;视频应用包括构建视频流目标检测系统。
Luke Ewin6 个月前
人工智能·whisper·音视频·语音识别·asr·语音转写·视频字幕生成
一个基于OpenAI Whisper开发的音视频字幕文件生成工具该工具软件是基于 OpenAI Whisper 的模型编写的,使用 Python 语言开发,然后通过 pyinstaller 打包成 exe 可执行程序,方便用户使用,之间双击就可以启动。点击这里,跳转到工具产品页面 该工具有以下功能:
uncle_ll6 个月前
人工智能·nlp·语音识别·asr
达摩院Paraformer-ONNX模型:一站式高精度中文语音识别工业级解决方案阿里达摩院推出的speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx模型,通过ONNX运行时优化,集语音端点检测、实时转写、标点恢复等核心功能于一体,为工业场景提供开箱即用的高并发语音识别服务。本文详解其技术优势与落地实践。
玩电脑的辣条哥7 个月前
服务器·人工智能·ubuntu·asr·funasr
AI-Sphere-Butler之Ubuntu服务器如何部署FunASR服务AI-Sphere-ButlerWSL2英伟达4070ti 12GWin10Ubuntu22.04python>=3.8
玩电脑的辣条哥7 个月前
人工智能·腾讯云·语音识别·asr
AI-Sphere-Butler之如何使用腾讯云ASR语音识别服务AI-Sphere-ButlerWSL2英伟达4070ti 12GWin10Ubuntu22.04腾讯云ASR
Luke Ewin8 个月前
人工智能·python·音视频·语音识别·声纹识别·asr·3d-speaker
根据音频中的不同讲述人声音进行分离音频 | 基于ai的说话人声音分离项目在实际的开发中可能会遇到这样的问题,老板让你把音频中的每个讲话人的声音分离成不同的音频片段。你可以使用au等专业的音频处理软件手动分离。但是这样效率太慢了,现在ai这么发达,我们能否借助ai之力来分离一条音频中的不同的说话人呢?答案是肯定可以的。 这里将利用声纹识别加上语音识别来对音频中不同的说话人进行语者分离。
Luke Ewin10 个月前
python·大模型·llm·语音识别·语音合成·tts·asr
解决安装pynini和WeTextProcessing报错问题点击这里,访问博客最近在给别人有偿部署ASR-LLM-TTS项目时遇到安装pynini和WeTextProcessing依赖报错的问题,报错信息如下:
十八年后又是一条好汉1 年前
whisper·语音识别·asr·stt
选择使用whisper.cpp进行语音转文字需要将一些wav格式的语音文件转成文字(ASR,STT),接到这个任务后,首先上网搜索有没有现成免费的工具或服务可以使用。常用的关键字如“语音转文字 免费 在线”。