语音识别

Blossom.11816 小时前
人工智能·深度学习·目标检测·分类·音视频·语音识别·迁移学习
基于深度学习的图像分类:使用预训练模型进行迁移学习前言 图像分类是计算机视觉领域中的一个基础任务,其目标是将输入的图像分配到预定义的类别中。近年来,深度学习技术,尤其是卷积神经网络(CNN),在图像分类任务中取得了显著的进展。预训练模型(如ResNet、VGG、Inception等)在大规模数据集(如ImageNet)上训练后,可以迁移到其他任务中,显著提高模型的性能。本文将详细介绍如何使用预训练模型进行迁移学习,从理论基础到代码实现,带你一步步掌握图像分类的完整流程。 一、图像分类的基本概念 (一)图像分类的定义 图像分类是指将输入的图像分配到预定义的
XINERTEL17 小时前
人工智能·音视频·语音识别·音视频质量测试
解锁高品质音频体验:探索音频质量评估与测试的科学之道在数字化浪潮席卷的今天,音频质量直接影响着从VoIP通话、视频会议到智能音箱等应用的沉浸式体验。音频质量评估与测试,不仅是电信、广播和消费电子领域的技术基石,更是确保用户感知卓越的关键环节。主观方法如MOS评分直观反映人类听感,而客观方法如PESQ和E-model以高效算法驱动自动化测试,二者结合为行业提供了精准的质量评估方案。本文将深入解析音频质量评估的核心方法与测试实践,带您走进高品质音频的科学世界!
SoFlu软件机器人1 天前
人工智能·架构·语音识别
浅析飞算JavaAI “撤回需求” 功能:让需求管理更灵活在需求拆解与管理的过程中,误操作或临时调整是常见情况。飞算JavaAI(撤回需求 | JavaAI)推出的 “撤回需求” 功能,为用户提供了便捷的操作回溯手段,有效降低了操作风险,让需求处理更具灵活性。
SuperBeen2 天前
android·缓存·语音识别
三步实现Android系统级集成:预装Google TTS + 默认引擎设置 + 语音包预缓存方案在定制Android系统时,预装Google TTS引擎并实现开箱即用的语音服务能显著提升用户体验。本文将详解预装APK→设为默认引擎→语音包预缓存的实现方案,适用于ROM开发者或系统定制场景。
争不过朝夕,又念着往昔4 天前
人工智能·语音识别
ChatIM项目语音识别安装与使用这是一个ChatIM的项目,有兴趣的伙伴可以照着我的博客和gitee进行完成 gitee链接:https://gitee.com/qi-haozhe/chat-im
桂花饼5 天前
人工智能·语音识别·gpt-4o
GPT-4o mini TTS:领先的文本转语音技术GPT-4o mini TTS 是 OpenAI 推出的全新一代文本转语音(TTS)技术,能够以自然、流畅的方式将普通文本转换为语音。依托先进的神经网络架构,GPT-4o mini TTS 在语音合成中避免了传统 TTS 的生硬与机械感,能够生成富有情感和个性化表达的高质量语音。 该技术支持多语言与多口音,是视频、播客、电子学习等场景的理想选择。
Blossom.1185 天前
人工智能·深度学习·目标检测·机器学习·计算机视觉·音视频·语音识别
基于深度学习的目标检测:从基础到实践前言 目标检测(Object Detection)是计算机视觉领域中的一个核心任务,其目标是在图像中定位和识别多个对象的类别和位置。近年来,深度学习技术,尤其是卷积神经网络(CNN),在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型,从理论基础到代码实现,带你一步步掌握目标检测的完整流程。 一、目标检测的基本概念 (一)目标检测的定义 目标检测是指在图像中识别和定位多个对象的任务。目标检测模型不仅需要识别图像中的对象类别,还需要确定每个对象的位置,通常以边界框(Bound
Blossom.1186 天前
人工智能·深度学习·线性代数·机器学习·计算机视觉·音视频·语音识别
基于深度学习的语音识别:从音频信号到文本转录前言 语音识别(Automatic Speech Recognition, ASR)是人工智能领域中一个极具挑战性和应用前景的研究方向。它通过将语音信号转换为文本,为人们提供了更加自然和便捷的人机交互方式。近年来,深度学习技术在语音识别领域取得了显著进展,极大地提高了语音识别的准确率和鲁棒性。本文将详细介绍如何使用深度学习技术构建一个语音识别系统,从音频信号的预处理到模型的训练与部署。 一、语音识别的基本概念 (一)语音识别的定义 语音识别是将语音信号转换为文本的过程。它涉及多个技术领域,包括信号处理、声
唯创知音8 天前
人工智能·汽车·语音识别
快速开发汽车充电桩的屏幕驱动与语音提示方案新能源汽车的市场占比份额近几年逐年升高,而充电桩的需求也随着新能源汽车的销售量在逐年升高,而目前市面上的汽车充电桩几乎都带有屏幕和语音提示,传统的电路设计是搞一个成熟的屏幕模块,然后在安装一颗语音芯片来实现,现在新的快速开发解决方案来了!
肥田大王9 天前
人工智能·语音识别
语音增强论文汇总CRM=(Sr+jSi)/(Yr+jYi) ,本质就是原始信号/噪声信号3种不同恢复修复波形的方法:可以看出noise为加性的:
唯创知音10 天前
人工智能·语音识别
常用的OTP语音芯片有哪些?唯创知音在 OTP 语音芯片有着26年的历史,有着丰富的技术积累与产品迭代历程。1999 年,唯创知音在广州成立,彼时便开始在电子领域积极探索。2000 年,公司敏锐捕捉到语音芯片行业的发展潜力,正式进军该领域。经过数年技术研发与市场调研,2005 年,唯创知音成功研发出国内首款行业标准的 OTP 语音芯片 ——WTV040,该芯片一经推出,便凭借其创新性与实用性,在医疗行业广受青睐,为唯创知音在语音芯片市场奠定了基础。
vfvfb11 天前
语音识别·文字转语音·英语转语音·文章自动分段·文章转字幕·根据字数自动分段·语音去空白
将英语转化为语音 英文转音频 英语转语音朗读如果你有一段英文,你想把它转化成语音,那么你可以使用剪映,但是使用的时候可能会遇到一些问题,我们一边做一边说它的问题,问题就在于。 #英语转语音 #文字转语音 #文章自动分段 #根据字数自动分段 #语音去掉空白
william️_Aaron12 天前
人工智能·语音识别
语音识别核心模型的数学原理和公式在语音识别中,深度学习模型通过对声学特征的分层学习来实现语音到文本的转换。以下是几个核心模型的数学原理和公式:
andyguo12 天前
人工智能·学习·ai·whisper·语音识别·xcode·ai测评
语音识别的速度革命:从 Whisper 到 Whisper-CTranslate2,我经历了什么?大家好,一个沉迷于 AI 语音技术的 “音频猎人”。最近在处理大量播客转录项目时,我被传统语音识别工具折磨得苦不堪言 ——RTX 3090 跑一个小时的音频要整整 20 分钟,服务器内存分分钟爆满!直到遇到了 Whisper-CTranslate2,我的开发效率直接起飞!
uncle_ll12 天前
自然语言处理·nlp·语音识别·tts·语音变换
李宏毅NLP-9-语音转换语音转换(Voice Conversion, VC)的核心定义与本质,可从 输入输出、保留与改变的维度 解析:
yergen12 天前
人工智能·语音识别
【具身智能】本地实时语音识别kaldi在正点原子RK3588上部署纸上得来终觉浅,终知此事要躬行费曼学习法:确定目标,以教代学,不断反馈和总结官网上描述有3种安装方法:从预构建wheels下载安装、直接在目标板安装和通过交叉编译工具编译安装。
番茄老夫子13 天前
人工智能·whisper·语音识别
OpenAI推出的语音识别系统Whisper简析一 概念Whisper 是 OpenAI 推出的一款先进的自动语音识别(ASR)系统,同时也具备语音转文本、多语言识别、语音翻译等功能。它于 2022 年 9 月正式发布,凭借其强大的性能和多场景适应性,受到了广泛关注。
Blossom.11813 天前
人工智能·深度学习·神经网络·目标检测·机器学习·机器人·语音识别
用一张“冰裂纹”石墨烯薄膜,让被动散热也能做 AI 推理——基于亚波长裂纹等离激元的零功耗温度-逻辑门作者 | Blossom.118 · 2025-07-12 关键词:石墨烯、裂纹等离激元、被动计算、零功耗、温度逻辑、可重构 ---- 1. 为什么要在散热片上“算东西”? • 热管理悖论:7 nm 以下工艺,每 1 W 的 AI 推理功耗,需要额外 0.4 W 做风扇/液冷。 • 边缘沉默成本:野外摄像头、卫星、深海浮标,换电池比换 SoC 还贵。 • 物理红利:石墨烯面内声子平均自由程≈1 µm,天然适合做“热-电同构”计算媒介。 于是,我们做了 CrackGate——一片 18 mm×18 mm 的
声网14 天前
学习·交互·语音识别
从语音识别到智能助手:Voice Agent 的技术进化与交互变革丨Voice Agent 学习笔记From Research AI+:最近看到 Andrew Ng 的一句话让我印象深刻:“While some things in AI are overhyped, voice applications seem underhyped right now.”(尽管 AI 中有些领域被过度炒作,语音应用却似乎被低估了)。的确,在大模型、大生成的热潮中,Voice Agent 这一领域相比之下略显低调,但背后的技术变革与落地潜力正在悄然加速。
自出洞来无敌手(曾令瑶)15 天前
前端·javascript·vue.js·语音识别
浏览器 实时监听音量 实时语音识别 vue js最近前端需要实现实时语音识别的功能, 但如果24小时不停识别会消耗很多资源,所以我写了一段代码来监听音量, 当音量大于阈值开启录音, 当音量连续小于阈值3秒停止录音, 由于是命令识别,我加了一个条件,若已经录音10秒也会自动停止录音。