语音识别

做萤石二次开发的哈哈8 小时前
人工智能·语音识别
如何调用接口向指定设备下发语音播放?接口功能语音文件下发,指定设备播放,需要设备支持能力集 support_talk=1或3请求地址https://open.ys7.com/api/lapp/voice/send
05大叔14 小时前
人工智能·语音识别
生成式任务生成式任务的应用图像领域: 图像/视频生成,图像补全语音邻域: 语音合成等 TTS,又或者地铁上的广播
limingade15 小时前
人工智能·语音识别
做自己的小爱通话-AI手机电话外呼-从手机ivr应答走向手机ai应答做自己的小爱通话-AI手机电话外呼-从手机ivr应答走向手机ai应答--本地AI电话机器人上一篇:Android应用app实现AI电话机器人接打电话
天上路人1 天前
人工智能·语音识别
采用AI 神经网络降噪技术降噪模组A-59F如何区分“人声”与“环境噪声”?在传统语音通话系统中,环境噪声一直是影响沟通质量的核心问题。无论是在开放式办公室、工厂车间、车载环境,还是户外复杂场景中,麦克风都会同时接收到人声与大量背景声音。对于普通降噪方案而言,持续性的空调声、电流声或机械低频噪声相对容易处理,但真正困难的是那些不断变化、具有随机性的复杂噪音,例如突然出现的敲击声、风噪、犬吠、键盘声、多人交谈声以及街道环境中的车辆鸣笛。这类噪音频谱复杂,并且很多频段与人声高度重叠,传统滤波方式往往很难准确区分。
2601_954035052 天前
语音识别
手机办公+AI搭配用法:多款实用工具深度测评我是一名全职新媒体从业者,日常工作基本脱离不了手机。外出探店、随时对接客户、临时改文案、整理素材,大多数工作都得靠手机完成。但手机办公一直有个通病:设备受限、文件杂乱、素材不好留存、换设备就丢数据。之前我试过不少AI办公工具,要么功能单一,要么多端数据不通,要么素材没法长期沉淀,越用越乱。2026年我深度测评了多款主流手机AI办公工具,今天结合日常真实工作场景聊聊使用感受,重点分享我近期一直在用、彻底改善我移动办公痛点的话袋AI。
2601_954035052 天前
语音识别
告别手动记纪要:2026年5款录音转文字工具测评我是小琳,一名在互联网公司做了三年的项目专员,日常不是泡在各种会议里,就是在整理会议纪要的路上。相信很多职场朋友都和我有一样的困扰:部门周会、项目推进会、跨部门协调会一场接一场,开会时一边要跟上领导思路、参与讨论,一边要奋笔疾书记笔记,手速永远赶不上语速,经常记了上句漏了下句。会后还要对着潦草的笔记和录音,花两三个小时梳理重点、整理纪要,偶尔漏记关键决策还得返工,加班成了常态。2026年,我陆续试用了5款热门录音转文字工具,今天就从真实体验出发,聊聊它们的优缺点,重点说说帮我解放双手的话袋AI。
一切皆是因缘际会2 天前
大数据·人工智能·安全·ai·架构·语音识别
AI技术新风口:边缘计算与智能体协同,解锁产业落地新范式2025 AI技术新风口:边缘计算与智能体协同,解锁产业落地新范式当AI大模型的参数竞赛逐渐降温,产业界的目光开始从“实验室能力”转向“场景化落地”。2025年,AI技术的核心突破不再局限于基础模型的能力跃迁,而是聚焦“边缘端高效部署”与“智能体自主协同”的深度融合,打破了以往“云端算力依赖”“技术与场景脱节”的行业痛点。据IDC发布的《2025年全球AI边缘计算市场报告》显示,今年全球AI边缘计算市场规模将突破890亿美元,年增长率达42.3%,其中智能体与边缘计算的协同应用占比超60%,广泛渗透于工业
大拿爱科技3 天前
aigc·音视频·语音识别
视频里的字幕和文案怎么批量提取?从ASR到内容复用的工具拆解很多团队在复盘短视频素材时,会遇到一个非常实际的问题:视频已经拍完或发布了,但原始文案、字幕稿、口播脚本没有统一保存。后续想做二次剪辑、拆条、重发、改标题或整理知识库时,只能一条条打开视频手动听写。对内容团队来说,这类重复工作不难,但非常耗时。
2601_958352903 天前
人工智能·语音识别·嵌入式开发·ai降噪·回音消除
从模拟到数字全接口打通:A-59P 为通话设备提供灵活音频升级方案在语音通话设备的迭代过程中,模拟与数字接口的长期并存一直是行业面临的核心挑战之一。大量存量设备仍采用传统模拟音频接口,而新兴产品则普遍转向数字接口以获得更高的音质和抗干扰能力。这种技术代际差异导致了设备升级困难、新老系统兼容性差、开发成本居高不下等问题。A-59P 语音处理模组通过全面的接口设计,实现了从模拟到数字的全链路打通,为各类通话设备提供了灵活、高效的音频升级解决方案。
大拿爱科技3 天前
人工智能·aigc·音视频·语音识别
声音克隆接入短视频流程时,哪些环节最容易出问题?在短视频生产中,声音克隆看起来只是“生成一段配音”,但真正接入流程后,会牵涉脚本、授权、字幕、音频质量、剪辑节奏和批量复核。很多团队第一次使用 AI 配音时,问题不是生成不了声音,而是生成后的声音无法稳定进入发布流程。
沉浸式学习ing3 天前
人工智能·ai·自然语言处理·音视频·语音识别·notion
B站视频怎么快速总结?AI自动生成要点+思维导图+逐字稿B站上看了那么多视频,留下了什么?B站可能是中文互联网信息密度最高的平台之一。技术教程、行业分析、产品拆解、网课回放——你每天可能花1-2小时在上面。
2601_958352903 天前
人工智能·语音识别·信号处理·嵌入式开发·音频降噪·双麦波束成形·硬件拆解
拆解 EN-46:一块 15mA 的 DSP 芯片如何实现 50dB 降噪随着智能语音交互技术的普及,环境噪音抑制已成为各类语音终端的核心需求。从 TWS 耳机到智能门禁,从车载通话到工业对讲机,清晰的语音采集是所有语音应用的基础。然而,在电池供电的低功耗场景中,传统降噪方案面临着严峻的挑战:
做萤石二次开发的哈哈3 天前
人工智能·语音识别
怎样通过接口模糊检索语音文件名称?接口功能查询上传的语音文件请求地址https://open.ys7.com/api/lapp/voice/query
山河君4 天前
人工智能·算法·音视频·语音识别·信号处理
从 ACF 到 YIN:基频检测算法原理与实现在语音处理中,“基频(Fundamental Frequency,F0)”是一个非常核心但又容易被误解的概念。
电子科技圈4 天前
人工智能·mcu·编辑器·视觉检测·音视频·语音识别·视频编解码
XMOS推出适配VS Code编辑器的XTC工具插件全面提升XCORE边缘AI处理器开发效率和优化开发者体验领先的边缘AI与智能音视频媒体处理技术和芯片解决方案提供商XMOS近日宣布,为其XCORE边缘AI处理器推出适配深受开发工程师们广泛欢迎的VS Code集成开发环境官方插件,以进一步优化开发者开发体验,全面提升XCORE边缘AI处理器开发效率。
HDD9854 天前
人工智能·语音识别·效率工具·语音转文字
2026年录音转文字工具实测:免费且好用的选择有哪些?在日常工作和学习中,录音转文字的需求越来越普遍。无论是会议纪要、课堂笔记、采访整理,还是短视频文案提取,手动逐字敲打不仅耗时,还容易遗漏关键信息。2026年,AI语音识别技术已经相当成熟,市面上涌现出不少免费且实用的工具。但面对众多选择,如何找到真正免费、无套路、高准确率的工具?我花了几天时间实测了多款主流软件,从准确率、功能丰富度、免费额度、使用体验等维度进行对比,希望能帮你找到最合适的那一款。
天上路人4 天前
人工智能·语音识别
双波束拾音技术在双向翻译机中的应用 —— 基于 A-59F 模组的原理、效果与场景解析跨语言实时交互的核心痛点在于双人声源分离难、环境噪声干扰强、全双工对话易串音。本文以德宇科创 A-59F 多功能语音处理模组为核心,深度拆解其 ** 双波束拾音(Dual-Beam Forming)** 技术原理,结合 AI 智能降噪、强效啸叫抑制、全双工回音消除三大核心能力,实测验证双向拾音在翻译场景的应用效果,最终明确其在跨境商务、国际展会、文旅接待等场景的适配价值,为低成本、高性能双向翻译设备开发提供技术参考与落地指南。
源来猿往5 天前
人工智能·语音识别
语音识别AI之----fbank和mfccFbank(滤波器组能量特征)和MFCC(梅尔频率倒谱系数)是语音识别中最核心的声学特征提取方法,二者均通过模拟人耳非线性听觉特性处理语音信号。Fbank直接输出梅尔滤波器组的能量值,而MFCC在Fbank基础上增加对数压缩和离散余弦变换(DCT),进一步降维并去除特征相关性。现代语音识别系统中,Fbank因保留更多频谱细节更适用于深度学习模型(如CNN/RNN),而MFCC因维度低、相关性弱传统上更适合GMM-HMM系统。
开开心心就好5 天前
人工智能·学习·游戏·音视频·hbase·语音识别·storm
支持添加网址的资源快速打开工具软件介绍多个应用和电影文件快速收藏打开器是一款高效的批量资源启动工具,专门解决每天打开固定应用、文件或文件夹的需求,让日常操作更省心。
HDD9855 天前
语音识别·效率工具·语音转文字
2026 年主流语音转文字工具实测横评:术语准、长时稳、多人清、纪要能用作为研发从业者,语音转写工具早已成为日常办公刚需。技术会议纪要、需求评审记录、架构设计讨论、线上故障复盘、客户沟通整理…… 几乎每天都要和录音、转写、整理打交道。一款术语准、长时稳、多人清、纪要能用的工具,能直接把研发从低效重复劳动里解放出来。