语音识别

俊基科技1 小时前
语音识别·硬件开发·ai降噪·智慧矿山·回音消除·矿场通信
智慧矿山通信升级:AP-0316 语音处理模组破解矿井对讲降噪、回声与远场拾音难题在矿山作业环境中,通信系统的稳定性直接关系到生产安全。传统的矿用对讲设备和应急广播系统,在实际使用中常常面临几个棘手问题:
蓝桉~MLGT7 小时前
人工智能·语音识别
语音陪伴助手在经历了两大Agent学习阶段之后,分别是:(这两章建议大家看一下,非常全面。)Ai-Agent学习历程—— 阶段2——LangChain Core(基本调用、tools、简单上下文等)
雲明8 小时前
语音识别·大语言模型·qwen·chainlit
Qwen2.5-7B-Instruct实战教程:Chainlit集成语音输入(Whisper API)你可能已经见过太多标着“7B”的大模型,但Qwen2.5-7B-Instruct不是简单参数堆砌的产物。它是在Qwen2系列基础上真正“长高长大”的一代——知识更广、逻辑更稳、表达更准,而且特别懂“人话”。
逗逗班学Python8 小时前
python·语音识别·faster-whisper·字幕生成·会议纪要
基于 Faster-Whisper 的本地语音转字幕与会议纪要系统:从音频转写到 SRT 字幕与 Markdown 纪要完整项目实战摘要:本文围绕一个可以直接运行的 Python 项目,完整实现“本地语音转字幕 + 会议纪要自动生成”。项目以 Faster-Whisper 为真实识别引擎,结合 CTranslate2 的推理能力,支持将会议录音、课程音频、访谈素材或短视频音频转换为带时间戳的转写片段,并导出 SRT、VTT、TXT、JSON 和 Markdown 会议纪要。为了方便项目展示和 CSDN 文章复现,源码包还内置了一个离线演示模式,即使暂时不下载模型权重,也能运行主程序并看到完整结果。
smartpi_ai9 小时前
人工智能·语音识别
WS2812灯带语音控制指南:为什么不能直接驱动与替代方案在智能照明项目开发中,WS2812(及其兼容型号如SK6812、WS2812B等)全彩LED灯带因其单线控制、色彩丰富、价格亲民而广受欢迎。很多开发者在设计语音控制灯带产品时,自然会产生一个问题:能否直接使用语音模块驱动WS2812灯带?
searchforAI12 小时前
人工智能·笔记·ai·whisper·音视频·语音识别·腾讯会议
培训视频转文字后怎么做团队复盘?把本地视频整理成AI笔记的实操方案培训视频转文字这件事,很多团队其实只做了一半。会开完了,录屏存下来了,新人培训也录了,结果文件一扔网盘,后面几乎没人再看。
searchforAI12 小时前
人工智能·笔记·gpt·音视频·语音识别·知识图谱·机器翻译
利用AI翻译视频做双语笔记,一套视频翻译到知识库沉淀的完整方案很多海外技术分享节奏都快,术语密,讲者还喜欢一边讲原理一边跳案例。你暂停做笔记,很容易丢上下文;你只看字幕,又很难把它真正沉淀到自己的知识系统里。
piao96182712 小时前
人工智能·语音识别
2025-2026销售商机管理AI工具推荐:优选灵听工牌AIOT软硬一体方案2026年,线下销售团队的管理困境正在被越来越多的企业高管正视。门店每天发生的数百次客户接待,究竟谁在认真执行SOP?哪些客户顾虑被忽视了?哪位销售的转化率更高,背后的原因是什么?这些问题长期停留在结果报表层面,无从追溯。
烟雨江南7851 天前
人工智能·语音识别·ai质检
燃气轮机联合循环发电机组超高速旋转高频气流撕裂声与交变电磁啸鸣:基于“灵声智库”自适应空域 MVDR 与动态抄表数字注入的本地离线 ASR 控制系统燃气轮机联合循环(GTCC)发电机房是典型的高压、超高速运转气流撕裂声与电磁交变强噪物理工况。燃机压气机高速旋转会释放极强的高频空气动力学气流撕裂噪底(燥压常超93dBA),伴随大功率发电机磁滞伸缩的交变低中频啸鸣。巡检员在记录燃机燃油压力、轴承振幅参数时,强反射混响与气流噪声导致普通拾音器严重失真。我们重构了双麦自适应空域MVDR指向滤波与频域宽带相消算法,结合本地On-the-fly动态语法热词注入,在受限便携终端上成功实现100%离线状态下的零误差抄表,捍卫了电力系统的运行安全底线。
Yuk丶1 天前
c++·人工智能·语言模型·开源·ue4·语音识别·游戏开发
厌倦了假AI对话?本地 LLM 语音对话 + 口型同步系统 2.0(已开源!)系列文章:1.0 文字对话版上一篇文章介绍了如何在 UE4.27 中接入本地 LLM 实现 NPC 文字对话。本篇在此基础上,新增完整的语音链路:
烟雨江南7852 天前
人工智能·安全·webrtc·语音识别·ai质检
水泥回转窑烧成车间大功率冷却风机强粉尘低频共振噪底:基于“灵声智库”端侧自适应谱减降噪与信创工控芯片离线 ASR 安全控制系统灵声智库高级技术白皮书水泥厂回转窑烧成车间是大功率转动机械、强低频共振噪底与重度粉尘堆积的极限物理声学工况。回转窑大功率冷却离心风机高速运转释放持续的非平稳低频强震(声压级常达95dBA以上),且重粉尘环境下工人佩戴的密闭防尘口罩对发音波形有极强的低通声学阻尼消音效应。本文将分享如何利用端侧自适应梅尔子带谱减消噪、国产信创SoC芯片神经网络定点量化,并在极低功耗下适配工业控制WFST话术,实现高精准的现场离线语音控制。
xingyuzhisuan2 天前
人工智能·ai·语言模型·语音识别
多模态聚合API核心技术:如何统一处理文本、图像与语音请求当前AI产业已从单模态推理转向多模态融合应用,文本问答、图像识别、语音转写、视觉生成等能力成为企业AI业务的基础模块。多数企业的技术架构存在模型接口碎片化问题,文本、图像、语音模型分属独立API服务,具备不同的请求协议、参数规范、数据格式、返回结构与鉴权逻辑。
烟雨江南7852 天前
人工智能·ffmpeg·webrtc·语音识别·ai质检
特高压输电线路带电作业直升机吊篮与强电磁感应放电:基于“灵声智库”空间自适应滤波与声纹授权的离线语音控制指令方案超高压(UHV)和特高压输电线路Live-line带电作业时,作业直升机吊篮处于极强高频电磁电弧放电、强风切变以及直升机大排量涡轴引擎低频重噪的极限叠加声电场中。巡检电工在空中进行姿态微调和总线控制时,任何语音的失真与延迟都关系到人身安全。本文将探讨如何通过流式自适应双麦MVDR空间滤波、ECAPA-TDNN流式声纹身份鉴权,实现在1.5W低能耗限制下,与直升机机载飞控总线直注打通的端侧离线语音控制指令方案。
烟雨江南7853 天前
人工智能·语音识别·ai质检
地铁越江隧道盾构机控制室大功率液压马达强低频共振降噪与离线智能参数抄报 ASR 方案超大直径泥水平衡盾构机在越江隧道掘进时,控制室内充满大功率液压马达和切削刀盘挤压硬岩产生的极强低频共振噪底。在这种无网封闭的金属高噪声物理死区,盾构机司机的每一项参数抄报和姿态纠偏指令都要求百分之百绝对精准。本文将分享如何重构流式自适应 Wiener 降噪滤波器,并在端侧麒麟处理器上运行离线 ASR 抄表,攻克地下重型装备姿态控制的安全红线瓶颈。
俊基科技3 天前
语音识别·嵌入式开发·硬件开发·ai降噪·回声消除
AU-48 双麦语音处理模组详解:AEC+ENC 一体化音频方案,兼容 A-47 无缝替换在可视对讲、远程会议 IPC、门禁呼叫、车载语音终端等硬件产品开发中,环境噪声干扰、外放喇叭回声啸叫、拾音距离受限、音频外围电路繁杂是音频开发最常见痛点。传统方案需要外置运放、分立降噪 RC 电路、独立回音处理芯片,BOM 成本高、调试周期长。 AU-48 作为 A-47 迭代升级双麦语音处理模组,集成 AI ENC 智能降噪、高性能 AEC 全双工回音消除、USB 免驱声卡、数模双输出,以 23mm×20mm 超小贴片尺寸实现音频全功能集成,是中小硬件厂商快速落地语音产品的优选国产化方案。本文从硬件参数
searchforAI3 天前
人工智能·笔记·gpt·ai·whisper·音视频·语音识别
2026年AI笔记工具对比实测:NotebookLM、通义听悟、Ai好记怎么选?如果你最近在找 AI笔记工具,大概率会碰到一个很现实的问题,到底该选会议型工具、知识库型工具,还是偏音视频整理的方案。表面看都在做视频转文字、AI总结、知识管理,真用起来差别其实挺大。
searchforAI3 天前
人工智能·笔记·gpt·音视频·语音识别
长视频和播客怎么变成结构化读书笔记?一套 AI 时代的知识管理方法长视频总结、播客转文字、个人知识库,这三个词最近经常被放在一起聊。原因很简单,很多人已经不是没内容可学,而是内容太多了学不完。
smartpi_ai4 天前
人工智能·ci/cd·语音识别
CI-73T1 低功耗选型误区:不支持休眠模式的替代方案指南适用场景:电池供电语音产品选型、低功耗需求评估、CI-73T1替代方案 标签:低功耗、电池供电、CI-73T1、SU-23T、SU-21T、选型误区、功耗对比 版本:v4.0 | 更新日期:2026-03-27
云山雾村4 天前
语音识别·asr·星图gpu·中文语音转文字
零基础也能用!科哥版Paraformer语音识别WebUI保姆级教程你有没有过这些时刻:别折腾了。今天这篇教程,不讲模型原理、不跑训练代码、不配环境变量——从你双击浏览器图标开始,到完整识别出第一句中文,全程不超过5分钟。
Tech追光者2 个月前
人工智能·语音识别
Vosk实战指南:打造你的离线语音识别系统在智能语音时代,语音识别不再是大厂的专属。你是否也想打造一个无需联网、实时高效、支持中文的语音识别系统?本文将带你从零上手开源神器 Vosk,实现本地语音转文字,即使在树莓派等设备上也能运行顺畅。