语音识别

张飞飞飞飞飞3 小时前
人工智能·语音识别
语音识别——根据声波能量、VAD 和 频谱分析周围是否有人说话语音活动检测(Voice Activity Detection,简称VAD)。简单来说,VAD就是用来判断一段音频里有没有人说话的技术。在实时语音识别的场景里,这个技术特别重要,因为它决定了什么时候把采集到的音频数据扔进大模型里处理。
uncle_ll1 天前
人工智能·自然语言处理·语音识别·las
李宏毅NLP-3-语音识别part2-LASListen主要功能是提取内容信息,去除说话人差异和噪声 。编码器(Encoder)结构,输入是声学特征,经过 Encoder 处理后,输出为高级表示,这些高级表示可用于后续语音识别等任务 。
uncle_ll2 天前
人工智能·自然语言处理·nlp·语音识别·李宏毅
李宏毅NLP-2-语音识别part1这是一篇名为 “Speech Recognition is Difficult?”(语音识别很难吗? )的文章。作者是 J.R. Pierce,来自贝尔电话实验室(Bell Telephone Laboratories, Inc.) 。文中提到语音识别虽有吸引力,但仅具备某些条件是不够的。还将其吸引力类比为水变汽油、从海水中提取黄金、治愈癌症、登月等极具吸引力的设想 ,暗示语音识别虽诱人但并非易事。
正在走向自律3 天前
人工智能·3d建模·语音识别·娱乐·数字人
数字人:打破次元壁,从娱乐舞台迈向教育新课堂(4/10)摘要:数字人正从娱乐领域的璀璨明星跨界到教育领域的智慧导师,展现出无限潜力。从虚拟偶像、影视游戏到直播短视频,数字人在娱乐产业中大放异彩,创造巨大商业价值。在教育领域,数字人助力个性化学习、互动课堂和虚拟实验,推动教育创新。尽管面临技术瓶颈、伦理法律问题和公众认知不足等挑战,但未来数字人有望在更多领域发光发热,带来全新变革。
Encarta19934 天前
人工智能·whisper·语音识别
【语音识别】vLLM 部署 Whisper 语音识别模型指南目录1. 模型下载2. 环境安装3. 部署脚本4. 服务测试语音识别技术在现代人工智能应用中扮演着重要角色,OpenAI开源的Whisper模型以其出色的识别准确率和多语言支持能力成为当前最先进的语音识别解决方案之一。本文将详细介绍如何使用vLLM(一个高效的大模型推理和服务框架)来部署Whisper-large-v3-turbo模型,构建一个可扩展的语音识别API服务。
uncle_ll5 天前
人工智能·nlp·语音识别·asr
达摩院Paraformer-ONNX模型:一站式高精度中文语音识别工业级解决方案阿里达摩院推出的speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-onnx模型,通过ONNX运行时优化,集语音端点检测、实时转写、标点恢复等核心功能于一体,为工业场景提供开箱即用的高并发语音识别服务。本文详解其技术优势与落地实践。
西西弗Sisyphus6 天前
whisper·语音识别
whisper 语音识别flyfishWhisper 是一种通用的语音识别模型。它在大量多样化的音频数据集上进行了训练,同时也是一个多任务模型,能够执行多语言语音识别、语音翻译和语言识别。
JHC0000006 天前
docker·容器·whisper·语音识别
docker 中跑faster-whisper 教程(1050显卡)之前我本地机器运行faster-whisper 会报错类似github 上也有类似的情况 :https://github.com/SYSTRAN/faster-whisper/issues/516#issuecomment-2785038635 缺少.so.8 文件,我通过以下方式,完美解决
OpenCSG6 天前
人工智能·语音识别
引领东方语言识别新风潮!Dolphin语音模型开创自动语音识别(ASR)新时代在全球语音识别技术领域,随着人工智能的飞速发展,许多技术巨头纷纷推出了多语言支持的语音识别系统,如Whisper等。然而,尽管这些模型在西方语言上的表现卓越,但在东方语言的识别上却常常力不从心,特别是在复杂的汉语方言、少数民族语言等领域,识别效果依然存在不小的差距。为了解决这一难题,海天瑞声与清华大学联合推出了全新的
MARS_AI_6 天前
人工智能·自然语言处理·nlp·语音识别·信息与通信
AI 智能外呼系统的智能体现在当今数字化时代,AI 智能外呼系统凭借其强大的功能和显著的优势,正逐渐成为企业提升运营效率、优化客户服务的得力助手。那么,AI 智能外呼系统的智能究竟体现在哪些方面呢?本文将从技术原理、核心功能以及实际应用等多个角度进行剖析。
【云轩】10 天前
人工智能·嵌入式硬件·语音识别
《信号革命:从模拟到数字的通信进化史诗》点击下面图片带您领略全新的嵌入式学习路线 🔥爆款热榜 88万+阅读 1.6万+收藏2025年的某个清晨,上海陆家嘴的玻璃幕墙折射着朝阳,年轻的程序员林夏正通过5G网络与硅谷团队进行全息会议。当她流畅地切换着多国语言字幕时,桌上那台泛黄的"大哥大"突然响起清脆的闹铃——这是她从祖父遗物中找到的传家宝。看着这个砖块般的通讯设备,林夏的思绪飘向了那个充满"沙沙电流声"的模拟时代。
与火星的孩子对话11 天前
人工智能·unity·c#·游戏引擎·语音识别·宠物
Unity3D开发AI桌面精灵/宠物系列 【三】 语音识别 ASR 技术、语音转文本多平台 - 支持科大讯飞、百度等 C# 开发该系列主要介绍怎么制作AI桌面宠物的流程,我会从项目开始创建初期到最终可以和AI宠物进行交互为止,项目已经开发完成,我会仔细梳理一下流程,分步讲解。 这篇文章主要讲有关于语音识别 ASR 方面的一些方法。
Bruce_Liuxiaowei12 天前
人工智能·python·语音识别
智能语音识别工具开发手记在县级融媒体中心的日常工作中,我们每天需要处理大量音频素材——从田间地头的采访录音到演播室的节目原声,从紧急会议记录到专题报道素材。二十多年前,笔者刚入职时,整理一小时采访录音需要耗费三小时进行人工听写。而今,借助自研的智能语音识别工具,同样的工作只需十分钟即可完成,准确率高达95%以上。
hunteritself13 天前
人工智能·深度学习·chatgpt·开源·语音识别·deepseek
DeepSeek重磅升级,豆包深度思考,ChatGPT原生生图,谷歌Gemini 2.5 Pro!| AI Weekly 3.24-3.301️⃣ 🔄 DeepSeek-V3 重磅升级 :新版本 DeepSeek-V3-0324 发布,在推理、前端开发和中文写作方面全面提升,推理能力超过 GPT-4.5。
逢生博客14 天前
人工智能·python·语音识别·funasr
阿里 FunASR 开源中文语音识别大模型应用示例(准确率比faster-whisper高)FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调。 我们在ModelScope与huggingface上发布了大量开源数据集或者海量工业数据训练的模型,可以通过我们的模型仓库了解模型的详细信息。代表性的Paraformer非自回归端到端语音识别模型具有高精度、高效率、便捷部署的优点,支持快速构建语音识别服务,详细信息可以阅读(
gs8014014 天前
人工智能·whisper·语音识别
Faster-Whisper —— 为语音识别加速的利器在语音识别技术迅速发展的今天,OpenAI 的 Whisper 模型因其强大的多语言识别能力和优异的准确率而受到广泛关注。然而,高精度模型往往伴随着高昂的计算开销和较长的推理时间,这对于需要实时或大规模转录的场景来说可能并不理想。为此,社区中涌现出了一系列优化方案,其中 faster_whisper 脱颖而出,成为实现更快速、高效语音识别的优秀工具。
秋叶先生_15 天前
华为·语音识别·harmonyos·鸿蒙
HarmonyOS NEXT——【鸿蒙实现录音识别(语音转文字)】语音识别(语音转文字)在鸿蒙应用开发中,需要涉及到录音或者语音识别的功能,我们需要用到CoreSpeechKit这个API,使用语言引擎进行转换。
你好,工程师16 天前
人工智能·语音识别
自动语音识别(ASR)技术详解语音识别(Automatic Speech Recognition, ASR)是人工智能和自然语言处理领域的重要技术,旨在将人类的语音信号转换为对应的文本。近年来,深度学习的突破推动语音识别系统从实验室走入日常生活,为智能助手、实时翻译、医疗笔录等场景提供了核心支撑。本文将全面介绍ASR的工作原理、关键技术、应用场景、发展历程以及最新研究进展。
小白天下第一17 天前
java·人工智能·语音识别
jdk21使用Vosk实现语音文字转换,免费的语音识别vosk官网:https://alphacephei.com/vosk/models 我这里使用较小的vosk-model-small-cn-0.22
正经教主17 天前
ide·人工智能·语音识别
【AI语音】edge-tts实现文本转语音,免费且音质不错前边可以翻译大藏经了,拿到翻译文件就想转语音了。这次不要阿里的api的,免费额度少,不免费就有点贵,公益项目用公益资源喽。