asr

witton18 天前
macos·asr·克隆·复制·迁移·恢复·restore
克隆整个macOS系统到新磁盘笔者在VMWare虚拟机中安装了一个MacOS 10.15系统,VMware虚拟磁盘为160G,macOS中显示171.45G。随着使用时间的增长,虚拟磁盘占用的Windows的磁盘空间越来越大,导致使用挂起功能时,Windows的磁盘放不下了,但MacOS中的实际使用空间只有三分之一左右。于是就想重新建一个小点的虚拟磁盘,比如80G,然后把整个系统克隆过去。
Luke Ewin19 天前
人工智能·分布式·语音识别·asr·funasr·通话语音质检·区分说话人
内网私有化分布式集群部署语音识别接口对于一些金融或者政府机构来说,数据安全十分重要,要求数据只能在内网中传输使用,不能走公网。因此需要一种可以不联网的情况下使用的ASR接口,方便给其它需要语音转写的项目去调用,而不需要调用云ASR接口,从传输层上杜绝了数据泄露风险发生。以及对于一些公司而言没有大量的资金去调用云ASR接口,需要自己组装服务器部署一套自己的ASR接口,减少资金投入。
从孑开始1 个月前
人工智能·ai·c#·.net·私有化部署·语音识别·onnx·asr·moonshine
ManySpeech.MoonshineAsr 使用指南ManySpeech.MoonshineAsr 是 ManySpeech 语音处理套件中一个专门用于moonshine 模型推理的语音识别组件,其使用 c# 开发,底层调用 Microsoft.ML.OnnxRuntime 对 onnx 模型进行解码。具备以下特点:
加油20191 个月前
llm·学习笔记·b站·asr·bilibili
ASR+LLM:B站学习视屏下载并生成学习笔记bilibili当前有越来越多高质量的教学视频,但是B站上没有直接下载视频的按钮,以及视频资料不利于复现回归,所以最好整理成笔记方便后续回顾。本文介绍一种B站视频下载、音频提取、使用ASR将音频转成文字,并且利用LLM大语言模型将文本生成学习笔记。
星野云联AIoT技术洞察1 个月前
whisper·语音识别·模型部署·tts·asr·嵌入式ai·naturalspeech3
2025年语音识别(ASR)与语音合成(TTS)技术趋势分析对比面向开发者的实用指南:探索最新的ASR和TTS技术,助力构建高效的语音应用。随着人工智能的快速发展,语音识别(ASR)和语音合成(TTS)技术在多个领域得到了广泛应用。从智能助手到自动字幕生成,从有声读物到虚拟主播,语音技术正逐步改变人机交互的方式。
luoyayun3612 个月前
whisper·pyside6·asr
PySide6调用OpenAI的Whisper模型进行语音ASR转写Whisper 是 OpenAI 开发的一款通用语音识别模型,采用大规模弱监督训练方法,支持多语言语音转录和翻译任务。该模型基于 Transformer 架构,具有高准确性和鲁棒性,适用于多种场景下的语音处理需求。OpenAI Whisper作为基于Transformer架构的端到端语音识别模型,其核心设计天然支持多语言处理。 官网:https://openai.com/zh-Hans-CN/index/whisper/ github:https://github.com/openai/whisper
从孑开始2 个月前
ai·tts·asr·manyspeech·audiosep
ManySpeech —— 使用 C# 开发人工智能语音应用ManySpeech(https://github.com/manyeyes/ManySpeech)是由 manyeyes 社区开发的一款基于 C# 的语音处理套件。该项目以优秀的开源模型为核心,依托 Microsoft.ML.OnnxRuntime 实现 ONNX 模型解码,致力于解决三大关键问题:
zhuweisky3 个月前
内网穿透·asr·反向代理·暴露内网服务
TCP反向代理:将局域网内部的TCP/HTTP服务暴露在公网上最近我们开发的一个APP,其中某个模块需要有ASR(语音转文字)的功能,对应的服务端是部署在阿里云上面的。ASR服务我们已经开发完成,但测试发现ASR在进行语音识别时,会消耗大量的资源(CPU、GPU、内存),特别是GPU,这样导致转换的延迟很大,为了能低延时运行ASR,我们为测试电脑专门配备了一块 NVIDIA RTX 3090的显卡,才能满足要求。
一如年少模样丶3 个月前
openai·agent·asr·vllm·sglang·lmdeploy·gpt_server
GPT Server 文档GPT Server是一个用于生产级部署LLMs、Embedding、Reranker、ASR、TTS、文生图、图片编辑和文生视频的开源框架。
Luke Ewin3 个月前
java·人工智能·语音识别·asr·funasr·paraformer·sensevoice
FunASR的Java实现Paraformer实时语音识别 | 一款无需联网的本地实时字幕软件我们在看直播时,没有视频字幕,可能看惯了视频字幕,来到直播中缺少字幕会感觉不习惯,特别是对于听力障碍的人群,只能依赖于字幕,那么这个软件可以解决直播,在线会议等场景中无字幕的情况。此外,我们还可以用于人机交互中,以及智能呼叫中心系统中(实时语音质检)。因此,开发一款可以运行在普通CPU中的实时字幕软件很有必要。
浅醉樱花雨3 个月前
人工智能·python·语音识别·asr·vosk
vosk语音识别实战Vosk 是一个由 Alpha Cephei 团队开发的开源离线语音识别(ASR)工具包。它的核心优势在于完全离线运行和轻量级,使其非常适合在资源受限的环境、注重隐私的场景或需要低延迟的应用中使用。
胡耀超3 个月前
python·深度学习·ffmpeg·音视频·语音识别·多模态·asr
DataOceanAI Dolphin(ffmpeg音频转化教程) 多语言(中国方言)语音识别系统部署与应用指南官方地址:DataoceanAI-DolphinDataOceanAI Dolphin 是由清华大学与DataOceanAI联合开发的多语言自动语音识别(ASR, Automatic Speech Recognition)系统。该系统专门针对东方语言设计,支持40种亚洲语言和22种中文方言,基于超过21万小时的训练数据构建。系统采用Transformer架构,提供了从140M到1.67B参数规模的多个模型版本。
木亦汐丫6 个月前
语音识别·asr·端到端·流式·nar非自回归·分块注意力·mask-ctc
【ASR】基于分块非自回归模型的流式端到端语音识别论文地址:https://arxiv.org/abs/2107.09428非自回归 (NAR) 模型在语音处理中越来越受到关注。 凭借最新的基于注意力的自动语音识别 (ASR) 结构,与自回归 (AR) 模型相比,NAR 可以在仅精度略有下降的情况下实现有前景的实时因子 (RTF) 提升。 然而,识别推理需要等待完整语音话语的完成,这限制了其在低延迟场景中的应用。 为了解决这个问题,我们提出了一种新颖的端到端流式 NAR 语音识别系统,该系统结合了分块注意力和带有掩码预测 (Mask-CTC) NAR 的
放羊郎6 个月前
人工智能·语音识别·asr·funasr·语音转文字
从零实现本地语音识别(FunASR)FunASR 是达摩院开源的综合性语音处理工具包,提供语音识别(ASR)、语音活动检测(VAD)、标点恢复(PUNC)等全流程功能,支持多种主流模型(如 Paraformer、Whisper、SenseVoice)的推理、微调和部署。
allnlei6 个月前
whisper·asr
whisper相关的开源项目 (asr)基于 Whisper(OpenAI 的开源语音识别模型)的开源项目有很多,涵盖了不同应用场景和优化方向。以下是一些值得关注的项目:
shao9185167 个月前
人工智能·ffmpeg·语音识别·transformers·gradio·asr
Gradio全解20——Streaming:流式传输的多媒体应用(3)——实时语音识别技术本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。音频应用包括流式传输音频、构建音频对话式聊天机器人、实时语音识别技术和自动语音检测功能;图像应用包括基于WebRTC的摄像头实时目标检测;视频应用包括构建视频流目标检测系统。
Luke Ewin7 个月前
人工智能·whisper·音视频·语音识别·asr·语音转写·视频字幕生成
一个基于OpenAI Whisper开发的音视频字幕文件生成工具该工具软件是基于 OpenAI Whisper 的模型编写的,使用 Python 语言开发,然后通过 pyinstaller 打包成 exe 可执行程序,方便用户使用,之间双击就可以启动。点击这里,跳转到工具产品页面 该工具有以下功能:
uncle_ll8 个月前
人工智能·nlp·语音识别·asr
达摩院Paraformer-ONNX模型:一站式高精度中文语音识别工业级解决方案阿里达摩院推出的speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx模型,通过ONNX运行时优化,集语音端点检测、实时转写、标点恢复等核心功能于一体,为工业场景提供开箱即用的高并发语音识别服务。本文详解其技术优势与落地实践。
玩电脑的辣条哥8 个月前
服务器·人工智能·ubuntu·asr·funasr
AI-Sphere-Butler之Ubuntu服务器如何部署FunASR服务AI-Sphere-ButlerWSL2英伟达4070ti 12GWin10Ubuntu22.04python>=3.8
玩电脑的辣条哥8 个月前
人工智能·腾讯云·语音识别·asr
AI-Sphere-Butler之如何使用腾讯云ASR语音识别服务AI-Sphere-ButlerWSL2英伟达4070ti 12GWin10Ubuntu22.04腾讯云ASR