语音识别

开开心心就好3 小时前
人工智能·windows·pdf·ocr·excel·语音识别·harmonyos
绿色版PDF多功能工具,支持编辑转换软件介绍其实不少小伙伴都挺喜欢DC的,我自己也是。除了占空间大了点之外,其他方面确实做得很出色。今天带来的这个版本是绿色版的,双击exe就能直接打开使用。
开开心心就好8 小时前
java·前端·ubuntu·edge·pdf·负载均衡·语音识别
免费无广告的礼金记账本,安卓应用软件介绍今天要说的这款安卓应用叫“电子礼薄”。现在手机上的应用,十有八九用到最后不是弹广告就是收费,好用的真心不多。就拿电子礼薄这类工具来说,市面上同类软件不少,但基本都藏着各种套路。
ViiTor_AI1 天前
人工智能·音视频·语音识别
AI音频翻译原理详解:从语音识别到语音生成的完整流程(2026指南)AI 音频翻译已成为全球交流中最强大的技术之一。2026 年,企业、创作者、教育者和远程团队依靠 AI 语音翻译,通过自然的语音输出将口语即时转换为另一种语言。
新新学长搞科研1 天前
人工智能·目标检测·计算机视觉·自动化·视觉检测·能源·语音识别
【自动识别相关会议】第五届机器视觉、自动识别与检测国际学术会议(MVAID 2026)第五届机器视觉、自动识别与检测国际学术会议(MVAID 2026)2026 5th International Conference on Machine Vision, Automatic Identification and Detection
天天讯通2 天前
人工智能·机器人·语音识别
智能语音机器人未来的发展方向智能语音机器人未来将沿着 “技术能力跃升→应用场景深耕→生态价值重塑” 的主线演进,核心方向包括大模型驱动的AI 智能体化、多模态与情感交互升级、端云协同的隐私计算落地、垂直行业深度渗透,以及从成本中心转向价值创造中心的商业化变革。以下是分维度的清晰展望与落地路径。
放风筝的猪2 天前
人工智能·语音识别
从“逐字预测”到“全量并行”:深度拆解语音识别与合成的效率革命在语音领域,自回归(AR)与非自回归(NAR)模型的博弈构成了技术演进的核心主线。这两条路线在语音识别(ASR) 和语音合成(TTS) 这两个子领域中,呈现出了不同的技术格局。
MonkeyKing_sunyuhua2 天前
人工智能·语音识别
什么是 VAD , VAD 切分是怎么切分的VAD 是 Voice Activity Detection,中文一般叫: • 语音活动检测 • 或 端点检测
新缸中之脑3 天前
人工智能·语音识别
TADA:零幻觉 TTS 模型有没有人觉得最近发布的模型大多是增量改进?这里更好的韵律,那里稍低的延迟。又一个声音克隆演示,在精心挑选的样本上听起来很棒,但在超过 30 秒的任何内容上都会崩溃。不是所有模型都这样,但我们似乎已经达到了某种可能性的天花板。自从 GPT-4o 在文本领域以及 Kokoro TTS 和 Elevenlabs 的 TTFA 模型在语音领域之后,事情变得有点停滞。嗯,好在有一些有趣的东西正在酝酿。
EasyDSS3 天前
音视频·webrtc·语音识别·点播技术·流媒体直播
EasyDSS以视频点播VOD/高清直播/WebRTC视频会议/语音转写STT技术创新,解决校园数字化核心难题在校园数字化建设过程中,高清直播卡顿、点播加载缓慢、视频会议不稳定、多终端适配性差等问题,始终是困扰师生与学校管理者的核心痛点。这些问题不仅影响教学效率与管理质量,还会降低师生的使用体验,制约校园数字化转型的步伐。
V搜xhliang02464 天前
大数据·人工智能·机器人·交互·语音识别·xcode
医疗场景多模态交互医疗场景的多模态交互,是VLA模型原理、多模态接口、手术机器人导航等技术的终极整合应用。在生命攸关的手术环境中,医生需要同时使用语音、手势、眼神、触觉等多种通道与机器人沟通,而机器人也需要融合视觉、听觉、触觉等多种感知来理解医生的意图。 基于当前最新的临床研究和技术进展(2025-2026年),梳理出一套完整的医疗场景多模态交互技术方案。 一、医疗多模态交互的核心价值:为什么是“必需”而非“可选”? 在手术室这一特殊环境中,单一交互通道存在固有局限,多模态融合成为必然选择:
放下华子我只抽RuiKe54 天前
人工智能·深度学习·机器学习·语言模型·数据挖掘·语音识别·聚类
机器学习启航:从数据直觉到模型构建的第一块基石前言: 很多人一听到“机器学习”,脑海中浮现的往往是复杂的数学公式、晦涩的神经网络图,或者是科幻电影里觉醒的机器人。但如果你刚学完机器学习的基础章节,你会发现,它的核心其实非常朴素:教计算机像人类一样,从经验(数据)中学习规律,而不是死记硬背规则。
Niuguangshuo4 天前
人工智能·语音识别
从信号到文字:语音识别(ASR)技术链路解析自动语音识别(ASR)系统的核心任务,是将一段语音信号 X X X 转换为最可能的文本序列 Y Y Y。 Y ^ = arg ⁡ max ⁡ Y P ( Y ∣ X ) \hat{Y} = \arg\max_{Y} P(Y \mid X) Y^=argYmaxP(Y∣X) 依据贝叶斯公式,该目标可分解并简化为两个核心概率的乘积: Y ^ = arg ⁡ max ⁡ Y P ( Y ∣ X ) = arg ⁡ max ⁡ Y P ( X ∣ Y ) P ( Y ) P ( X ) = arg ⁡ max ⁡
Smoothcloud润云5 天前
大数据·人工智能·计算机视觉·语言模型·ai作画·音视频·语音识别
Seedance 2.0深度解析:从“抽卡地狱”到工业化视频创作的革命2026年2月,字节跳动Seed团队发布的新一代视频生成模型Seedance 2.0,在全球科技界和影视行业掀起了一场轩然大波。从埃隆·马斯克在X平台上感叹“发展得太快了”,到美国纪录片导演查尔斯·柯伦声称其“说不定真能颠覆好莱坞”,再到国内创作者评价“AI视频创作已经从幼儿园进化到了小学”——这款模型正在重新定义视频内容的生产方式。
小龙报5 天前
人工智能·深度学习·神经网络·自然语言处理·chatgpt·交互·语音识别
【AI】高效交互的艺术:AI提示工程与大模型对话指南🔥小龙报:个人主页 🎬作者简介:C++研发,嵌入式,机器人等方向学习者 ❄️个人专栏:《AI》 ✨ 永远相信美好的事情即将发生
BIBABULALA5 天前
macos·语音识别·xcode
语音算法面试复习系列1——语音信号处理基础(上)今天的目标:从声音的本质出发,一步步理解到Mel频谱图。声音 = 空气压力的变化(振动)想象你对着水面丢石头,产生波纹。声音就是空气中的"波纹"——声波。
V搜xhliang02465 天前
大数据·人工智能·机器学习·自然语言处理·机器人·语音识别·xcode
自然语言理解与语音识别(ASR)自然语言理解与语音识别(ASR),是将之前的多模态接口和价值对齐从理论走向临床实践的“最后一公里”。在手术场景中,这不仅意味着机器能“听懂”医生的指令,更意味着能在嘈杂、高压、生命攸关的环境中,准确、安全、无感地执行这些指令。 结合手术机器人导航系统和ROS 2架构,梳理出一套完整的手术场景NLU/ASR技术方案。
2301_764441335 天前
人工智能·目标检测·自然语言处理·开源·视觉检测·语音识别
ProjectAIRI:是一个开源的AI虚拟数字人伴侣Project AIRI是一个开源的AI虚拟伴侣系统,旨在让每个人都能拥有自己的数字伙伴。它不仅仅是一个聊天机器人,而是一个具备感知、思考、表达和行动能力的虚拟存在。
ghie90906 天前
人工智能·matlab·语音识别
维纳滤波器语音增强MATLAB实现维纳滤波器是一种最优线性滤波器,能在最小均方误差意义上从噪声中提取有用信号。对于语音增强任务,其数学表达式为:
未来之窗软件服务6 天前
人工智能·语音识别·vosk·仙盟创梦ide·东方仙盟
vosk-ASR asterisk调用[AI人工智能(五十三)]—东方仙盟Asterisk 插件独立维护在专属项目中:https://github.com/alphacep/vosk-asterisk
未来之窗软件服务6 天前
人工智能·语音识别·vosk·仙盟创梦ide·东方仙盟
vosk-ASR angular调用[AI人工智能(五十二)]—东方仙盟把这段代码想象成「东方仙盟」的语音传令系统:typescript运行代码中有一个逻辑错误,会导致 “暂停 / 恢复” 功能失效: