语音识别

第六五1 小时前
人工智能·语音识别
语音信号的时域、频域与时频域特征语音信号是典型的时变非平稳信号(短时间内可近似平稳),其特征提取的核心是从“时间-幅度”“频率-功率”“时间-频率”三个维度,将原始波形转换为具有物理意义或统计辨识度的数值表征。
小oo呆2 小时前
人工智能·语音识别
【学习心得】基于FunASR推理的SenseVoiceSmall模型来实现语音识别SenseVoice是多语言音频理解模型,支持语音识别、语种识别、语音情感识别、声学事件检测、逆文本正则化等能力,采用工业级数十万小时的标注音频进行模型训练,保证了模型的通用识别效果。模型可以被应用于中文、粤语、英语、日语、韩语音频识别,并输出带有情感和事件的富文本转写结果。
Mryan20056 小时前
机器人·语音识别
基于 NAO 机器人的智能语音交互系统的设计与实现NAO机器人作为一种成熟的仿人机器人平台,广泛应用于教育与科研领域。尽管NAO自带了基础的语音识别模块,但在识别准确率、词汇覆盖范围及自定义逻辑的灵活性上存在一定局限性。为了提升交互体验,开发人员往往需要绕过系统自带的高层语音接口,直接访问底层音频流,并结合现代云端语音识别API进行二次开发。本文旨在详细阐述基于NAOqi架构的自定义语音交互系统的实现流程,重点解决音频流获取、实时语音检测、云端识别对接及逻辑反馈等关键技术问题。
小oo呆20 小时前
语音识别
【学习心得】基于VOSK的唤醒词检测VOSK 是一个开源的语音识别(ASR,Automatic Speech Recognition)工具包,主要用于将语音转换成文本。它支持多种语言,可以在离线环境下运行,适合嵌入式设备、移动端应用,或者需要低延迟、高隐私的场景。VOSK 的核心优势包括轻量级、跨平台(支持 Windows、Linux、Android、iOS 等),以及提供预训练模型,方便快速集成。它基于 Kaldi 语音识别工具链,但使用起来更加简洁,适合开发者快速搭建 ASR 系统。
曦云沐1 天前
人工智能·语音识别·asr·fun-asr-nano
轻量却强大:Fun-ASR-Nano-2512 语音识别模型上手指南Fun-ASR-Nano-2512 是 FunASR 体系中的轻量级自动语音识别(ASR)模型,主打小体积、低延迟、易部署。本文将结合 FunASR 项目生态,带你快速了解该模型的定位、核心优势以及典型使用场景,帮助你在实际项目中高效落地语音识别能力。
音元系统2 天前
语音识别·语音合成·输入法·语音分析·语音系统
现行析音法节调质素分析法是把音节分析成由节调与节质构成的音节并且把节质切分成质素序列的方法。在经过节调质素分析后,音节由节调与节质构成,节质在不省略零声母的情况下由声母和韵母构成,韵母分成单质韵母、前长韵母、后长韵母和三质韵母四类。单质韵母由韵腹充当,是单纯音质韵母的简称。前长韵母由韵腹和韵尾构成,是前长二合音质韵母的简称。后长韵母由韵头和韵腹构成,是后长二合音质韵母的简称。三质韵母由韵头、韵腹和韵尾构成,是三合音质韵母的简称。单质韵母、前长韵母、后长韵母和三质韵母,一一对应,依序就是根据韵头有无和韵尾有无分类分出
小咖自动剪辑2 天前
实时互动·音视频·语音识别·实时音视频·视频编解码
自动批量混剪视频软件配置流程这是一款可以自动批量混剪视频的软件,先来看一段通过软件批量增加了动态特效以及边框后的视频效果。📌 **需要查看完整文档、参数详解与示例配置的朋友,可参考我整理的笔记: ** 👉 xk.xunbk.com
飞睿科技2 天前
人工智能·物联网·ffmpeg·智能家居·语音识别·乐鑫科技·esp
ESP Audio Effects音频库迎来专业升级,v1.2.0 新增动态控制核心智能音箱里传出的音乐突然从轻柔背景音转为激昂副歌时,不再有刺耳的爆音;语音助手在嘈杂环境中发出的指令,依旧清晰可辨。这背后,是乐鑫在其官方音频处理库中悄悄植入的专业级动态控制模块在发挥作用。
Ki13812 天前
语音识别·树莓派
树莓派5:使用SenseVoice进行语音识别首先声明,树莓派上跑这个项目仅是演示其可行性,性能上别太较真。实测10分钟的英语MP3,从开始识别到出结果返回到UI上大约需要2分钟。作为对比,同样的文件在我PC上用了不到30秒。
aningxiaoxixi3 天前
开发语言·python·语音识别
TTS 之 PYTHON库 pyttsx3pyttsx3是Python中一款轻量级、跨平台的离线文本转语音(TTS)库,可实现文本朗读、语音参数调控、语音文件保存等功能:
音元系统4 天前
语音识别·语音合成·输入法·语音模型·语音分析
音元系统:首页本库提供与音元系统有关的 Markdown 文件。读者可点击上方链接,浏览相关内容。 在阅读过程中,发现有不能显示的字符,请到代码库的 font 目录下载经过修改的字体 NotoSans-Regular.ttf 并在本机上安装且在浏览器中把标准字体设置成 Noto Sans,就能浏览。 欢迎提出建议和意见,以帮助改进和完善这套语音系统的文档内容。
Nautiluss5 天前
大数据·人工智能·嵌入式硬件·github·音频·语音识别
一起玩XVF3800麦克风阵列(八)这一章节我们可以显示熟悉怎么通过树莓派去控制XVF3800了,还记得我们之前下载官方的固件时候,里面提到的Host文件夹吗?我们需要用这个来进行控制,下载那个压缩包的地址如下:
音元系统5 天前
语音识别·输入法·语音分析·语音系统·语音学
音元系统:绪论音元系统是由音元构成的语音系统。在比较不同类型的语音系统时,把不同类型的语音系统的基本结构单元统称为元素。在汉语中,音元系统与已有语音系统的根本区别是元素不同。例如,音元系统与音位系统的根本区别是音元系统的元素是音元而音位系统的元素是音位。在汉语中,已有语音系统的元素都不是音元,换句话说,已有语音系统都不是用音元作元素的语音系统。因此,音元系统是一种新型的语音系统——由音元构成的或用音元作元素的语音系统。
Nautiluss5 天前
嵌入式硬件·音频·语音识别·智能音箱
一起玩XVF3800麦克风阵列(五)上一篇我们已经安装完成了XTC Tools并且安装了USB驱动并能够连接上开发板;这里我们继续基于XTC Tools进行编程开发。
呆萌小新@渊洁5 天前
linux·服务器·python·语音识别
声纹模型全流程实践-开发(训练 - 微调 - 部署 - 调用)上一篇说到funASR能够完整处理音频转文本,那对于一些场景需要识别说话人身份,并对说话人的说话内容进行截取分析。提升沟通效率和表达准确性。本篇介绍声纹模型主要功能和实现。
音元系统5 天前
语言模型·语音识别·语音合成·输入法·语音分析
已有析音法析音法是分析语音的方法。分析语音,就是对语音作分析,被简称为析音。因此,分析语音的方法被简称为析音法。在汉语中,在学术上,析音法过去通常被称呼为语音分析法或音节分析法。
minhuan5 天前
人工智能·语音识别·tts·asr·语音大模型应用
大模型应用:完整语音交互闭环:TTS+ASR融合系统可视化场景实践.22在文章开始之前,先简单释义说明一下,TTS即文本转语音,ASR即语音转文本,前面的章节我们仔细通俗的讲解了TTS和ASR的原理和各自应用场景,今天我们将两者结合在一起进行深度分析,首先我们需要考虑, 是什么样的场景需要TTS与ASR 的融合,回想我们打开手机的语音助手,说一句“查询明天的天气”,它能立刻识别我们的语音,此时手机的语音助手内部处理将我们的语音转文本,解析指令后得到答案,再通过文本转语音,然后用自然语音给我们反馈结果, 这看似简单的交互,背后正是TTS与ASR两大技术的融合魔力。
渡我白衣5 天前
人工智能·深度学习·神经网络·机器学习·计算机视觉·自然语言处理·语音识别
AI应用层革命(六)——智能体的伦理边界与法律框架:当机器开始“做决定”本文为《AI应用层革命》系列第六篇,延续前五篇对智能体自主演化、生命特征、社会结构变革的探讨。本篇将聚焦于一个更为紧迫且复杂的议题:当智能体具备自主决策能力时,我们该如何界定其伦理边界?又该如何构建一套适应智能文明的法律框架?
多则惑少则明6 天前
人工智能·语音识别·ai大模型测试
AI测试、大模型测试(三)AI语音产品测试&AI测试边界目录一、AI语音产品(如智能音箱)测试整体方案二、当前AI测试通常不重点关注的方面三、警惕AI测试中的盲区或误区
小咖自动剪辑7 天前
人工智能·实时互动·音视频·语音识别·视频编解码
提升电商素材剪辑效率:多场景内容自动生成流程解析在大量电商内容需要快速产出的场景中,通过自动化方式来处理、组合与生成视频素材,已经成为不少工作室提高效率的重要手段。本文将基于一个典型的“多场景自动合成流程”进行拆解,展示如何通过工具将素材库快速组合成结构统一的展示视频。