语音识别

开开心心_Every20 小时前
游戏·微信·pdf·excel·语音识别·swift·lisp
文件数量统计工具:支持多层文件夹数量统计今天给大家推荐这款"文件数量检查器",虽然这个功能平时用得不多,但对需要整理文件的小伙伴来说确实很实用,能快速统计出文件夹里的文件数量。
蚍蜉撼树谈何易21 小时前
学习·语音识别
二、ctc基础--待完善WeNet 的核心结构是 U2(Unified Two-pass):fbank做音频提取。步骤中存在着预加重、分帧、加窗、fft、mel滤波器卷积、取log,整个具体流程在本专栏第一个里面有概述。
博思云为21 小时前
人工智能·语言模型·云原生·数据挖掘·云计算·语音识别·aws
企业级智能PPT生成:Amazon云+AI驱动,全流程自动化提效PPT是企业业务沟通、数据呈现、对外展示的核心载体,但传统制作流程早已成为效率瓶颈:财务熬夜整合财报、市场耗时适配多区域推广、技术跨部门对接数据才能完成汇报……
geffen16881 天前
人工智能·矩阵·语音识别
支持语音识别并控制的混合高清矩阵:革新视听体验,开启智能控制新时代随着科技的飞速发展,智能控制技术已经广泛应用于我们的日常生活和工作中。支持语音识别并控制的混合高清矩阵,作为新一代视听控制解决方案的代表,正以其独特的技术优势和广泛的应用场景,引领着智能控制的新时代。
小明_GLC2 天前
开源·语音识别
智能语音助手项目一个具备声纹身份感知、动态长期记忆和端云混合推理能力的智能语音助手框架。系统采用 Audio-Text-Audio 闭环架构,并嵌入了身份(Identity)层:
Mixtral2 天前
人工智能·面试·职场和发展·语音识别·语音转文字
2026年面试记录转写工具深度测评:3款工具准确率与效率对比每一次面试结束,最怕的不是被问到不会的问题,而是"当时我到底怎么回答的"这种记忆空白。尤其是一天面3-4家公司,一周面十几轮,回家只能靠模糊的记忆反思:面试官问了什么技术栈?我说的项目经历有没有逻辑漏洞?最后那个行为面试问题我举的例子对不对?
HySpark3 天前
人工智能·语音识别
基于语音转文字与语义分析的智能语音识别技术在实际业务场景中,尤其是客服质检、语音风控等领域,单纯“听懂语音”远远不够,更重要的是听懂语音背后的意图。因此,熙瑾会悟采用“语音转文字(ASR)+ 语义分析(NLP)”的组合技术路线,实现从原始语音到意图识别的完整闭环。
开开心心_Every3 天前
python·游戏·微信·django·pdf·excel·语音识别
图片批量压缩工具:支持有损无损两种模式软件介绍今天要推荐这款名为pinga的图片处理工具,它专门用来批量压缩图片大小。虽然市面上类似工具不少,但很多都集成在大型软件里,用起来反而不如这个轻巧方便。
Nautiluss3 天前
人工智能·单片机·音频·语音识别·dsp开发·智能硬件
一起调试XVF3800麦克风阵列(十六)EQ(均衡器) 是一种音频处理设备或算法,用于调节音频信号中特定频率范围(Frequency Bands)的增益(Gain)。其核心功能是通过对频率响应曲线进行补偿或修饰,达到平衡频段分布、改善音质或消除噪声的目的。
Mixtral4 天前
人工智能·面试·职场和发展·语音识别·语音转文字
2026年4款面试记录工具测评:从录音到结构化复盘对于HR和招聘负责人来说,一场面试的结束远不是工作的终点。如何在繁多的面试中精准记录候选人表现、快速复盘面试细节、沉淀面试经验,这些都是让每个面试官头疼的问题。传统纸笔记录易遗漏、事后整理耗时漫长,而单纯的录音回放又难以快速定位关键信息。
实战项目4 天前
人工智能·性能优化·语音识别
多模态融合的语音识别抗干扰性能优化随着信息技术的飞速发展,语音识别技术作为人机交互的重要手段,已经广泛应用于智能客服、智能家居、语音助手等领域。然而,在实际应用中,语音识别系统往往面临着复杂多变的噪声环境、方言口音以及说话人个体差异等挑战,这些因素严重影响了语音识别系统的抗干扰性能和识别准确率。
ldccorpora4 天前
人工智能·深度学习·算法·机器学习·自然语言处理·语音识别
GALE Phase 1 Distillation Training数据集介绍,官网编号LDC2007T20GALE Phase 1 Distillation Training(LDC2007T20)是 LDC 为 DARPA GALE 计划构建、2007 年发布的信息提炼(Distillation)任务训练数据集,核心用于训练多语言文本 / 语音的信息抽取与知识整合模型,以人工标注的查询 - 事实(nugget)映射为核心特色LDC。以下是详细介绍:
Mixtral4 天前
学习笔记·语音识别·语音转文字·ai语音转文字
2026年4款培训记录工具测评:从课程录音到学习资料,一键生成你是否经历过这样的场景:参加了两小时的培训课程,现场听得津津有味,但三天后想回忆某个知识点时,却发现"当时好像记了,但找不到了"?或者作为培训讲师,课后花了整整一个下午整理课程讲义和学员提问,却发现漏掉了一些关键讨论?
C+++Python4 天前
c++·分布式·语音识别
C++分布式语音识别简单说,分布式语音识别(DSR) 就是把语音识别的整个流程拆分成多个 “任务模块”,分散到多台服务器 / 设备上并行处理,而非单台机器从头算到尾。
FindAI发现力量4 天前
人工智能·语音识别·产业升级·智能耳机·ai销售·ai营销·智能工牌
AI赋能销售的最终形态是什么?闪电 AI 销售助手 vs 智能工牌,重构销售赋能的核心逻辑在数字化赛道中,智能工牌类产品凭借“通话录音 + 会话分析”的基础功能,成为不少企业的入门级选择。但对于追求规模化提效、确定性增长的企业而言,这类产品仅能解决过程留痕的表层需求,却始终无法突破事后追溯≠实时赋能、数据记录≠价值转化的核心局限。
Nautiluss4 天前
linux·人工智能·音频·语音识别·dsp开发
一起调试XVF3800麦克风阵列(十四)在音频前端处理中,AGC (Automatic Gain Control) 的核心作用是“补齐”音量:当人说话声音小时,AGC 会自动提高增益(Gain)。
风栖柳白杨5 天前
人工智能·语音识别
【语音识别】SenseVoice非流式改流式原始基于Funasr框架的SenseVoice是中英文转录模型,在官方的文档中,仅支持微调,不支持热词和流式输出,这肯定会在一定程度上影响用户的体验,有大神对其网络结构进行了魔改,使其成为一个支持热词,可微调,可流式的中英文语音转录模型。 github上魔改之后的地址(感谢这位大神的分享):流式SenseVoice
Ethan Hunt丶5 天前
人工智能·pytorch·python·语音识别
基于Pytorch预训练模型实现声纹识别系统声纹识别(Speaker Recognition)作为“语音即身份”的生物特征识别技术,近年来在智能安防、远程身份认证、智能终端、人机交互等场景中得到广泛应用。然而在实际工程落地中,传统声纹识别方案仍存在以下三类痛点:
ytttr8735 天前
人工智能·语音识别
基于隐马尔可夫模型(HMM)的语音识别实现基于隐马尔可夫模型(HMM)的语音识别实现,结合MATLAB平台,涵盖语音预处理、特征提取、模型训练与识别全流程,并集成关键优化策略:
hoiii1875 天前
c#·音视频·语音识别
使用C#实现文本转语音(TTS)及多音频合并1.语音缓存机制2.批量处理优化1.NuGet依赖2.运行环境要求Windows 10/11(需安装语音引擎)