技术栈
语音识别
打小就很皮...
2 天前
人工智能
·
语言模型
·
语音识别
前端 AI 开发实战:基于自定义工具类的大语言模型与语音识别调用指南
在人工智能技术快速发展的今天,将大语言模型(LLM)和语音识别(ASR)功能集成到前端应用中,已经成为提升用户体验、打造智能化应用的重要手段。本文将结合一段实际的 AI 工具类代码,详细讲解如何在前端项目中快速实现大语言模型交互与语音识别功能,帮助开发者快速搭建属于自己的 AI 应用。
会游泳的石头
2 天前
java
·
阿里云
·
语音识别
在Java项目中实现本地语音识别与热点检测,并集成阿里云智能语音服务
随着语音交互技术的发展,如何高效地处理用户的语音输入成为许多应用的重要课题。本文将详细介绍如何在一个Java项目中同时实现:
shao918516
2 天前
人工智能
·
ffmpeg
·
语音识别
·
transformers
·
gradio
·
asr
Gradio全解20——Streaming:流式传输的多媒体应用(3)——实时语音识别技术
本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。本章讲述流式传输的应用,包括音频、图像和视频格式的流式传输。音频应用包括流式传输音频、构建音频对话式聊天机器人、实时语音识别技术和自动语音检测功能;图像应用包括基于WebRTC的摄像头实时目标检测;视频应用包括构建视频流目标检测系统。
小咖自动剪辑
3 天前
实时互动
·
音视频
·
语音识别
·
实时音视频
·
视频编解码
自动剪辑批量混剪视频过原创软件工具视频帧级处理技术实践批量截图解析
在视频内容生产与分析场景中,高效的帧级处理是素材解构的核心环节。本文结合实战经验,解析基于智能帧截取算法、参数化配置系统、多线程并行处理的批量帧处理技术方案,构建可复用的工程化框架,为视频分析、数据标注、素材预处理提供技术支撑。
月巴月巴白勺合鸟月半
3 天前
人工智能
·
语音识别
·
健康医疗
语音识别质量的跟踪
这个项目是用来生成结构化的电子病历的。数据的来源是医生的录音。中间有一大堆的处理,语音识别,关键字匹配,结构化处理,病历编辑......。最多的时候给上百家医院服务。
开开心心就好
4 天前
开发语言
·
人工智能
·
macos
·
微信
·
pdf
·
c#
·
语音识别
无限制文本转语音解决方案
软件介绍祈风TTS是由B站UP主@Solifrayz开发的一款无需安装的文字转语音工具,采用免安装绿色版本设计,通过直接运行EXE文件即可启动使用。
MARS_AI_
4 天前
人工智能
·
自然语言处理
·
语音识别
·
信息与通信
从 “可办“ 到 “好办“:云蝠大模型如何重塑政务服务体验
在数字化浪潮席卷全球的今天,政务服务作为政府与民众互动的核心纽带,正经历着前所未有的变革。传统政务服务模式受限于人力资源、技术瓶颈和服务响应效率,难以满足民众日益增长的多元化需求。云蝠智能大模型呼叫技术的出现,为政务服务智能化转型注入了新动能,成为推动政府治理能力现代化的关键力量。
小咖自动剪辑
5 天前
音视频
·
语音识别
·
实时音视频
·
视频编解码
海外平台短剧批量混剪自动剪辑智能去重与多语言适配方案解析
在短剧出海的浪潮中,如何通过标准化技术流程实现「高效生产 + 合规分发」成为行业关键课题。本文结合 TikTok、YouTube 等平台的运营经验,解析基于智能去重算法、多语言字幕生成、动态元素叠加的全流程解决方案,为内容团队提供可复用的工程化技术方案。
唯创电子
6 天前
人工智能
·
智能家居
·
语音识别
·
语音芯片
·
录音芯片
芯资讯|WTR096-16S录音语音芯片:重塑智能家居的情感连接与安全守护
随着城市化进程加速,现代家庭正面临两大核心挑战: 情感陪伴缺失:超60%的双职工家庭存在“亲子陪伴真空期”,儿童独自居家场景增加; 操作复杂度攀升:智能设备功能迭代导致用户学习成本陡增,超40%用户因操作困难放弃高阶功能。 而WTR096-16S录音语音芯片方案,通过“语音交互+智能录音”双核驱动,不仅解决设备易用性问题,更构建起家庭成员间的全天候情感纽带。
J先生x
6 天前
人工智能
·
语音识别
【开源项目】基于sherpa-onnx的实时语音识别系统 - LiveASR
你是否曾经为语音识别系统的部署和配置而烦恼?今天给大家介绍一个基于sherpa-onnx的实时语音识别系统 - LiveASR,让语音识别变得简单易用!
Chrome深度玩家
8 天前
android
·
人工智能
·
语音识别
谷歌翻译安卓版拍照翻译精准度与语音识别评测【轻松交流】
谷歌翻译作为一款免费的翻译应用,已经成为许多用户解决语言障碍的得力工具。其功能不仅限于文本翻译,还包括拍照翻译和语音翻译,方便用户在不同场合下使用。今天,我们将重点评测谷歌翻译安卓版的拍照翻译和语音识别功能,看看它们在实际使用中的表现如何。
DisonTangor
9 天前
人工智能
·
开源
·
aigc
·
语音识别
月之暗面开源 Kimi-Audio-7B-Instruct,同时支持语音识别和语音生成
我们向您介绍在音频理解、生成和对话方面表现出色的开源音频基础模型–Kimi-Audio。该资源库托管了 Kimi-Audio-7B-Instruct 的模型检查点。
poppyCL
9 天前
ocr
·
语音识别
·
cmusphinx
java使用CMU sphinx语音识别
进入sourceforge网站下载 点击菜单Files,其中Acoustic and Language Models是语言资源包文件夹,下面还有sphinx不同版本的源码,源码中默认只包含英文资源包。
带电的小王
10 天前
linux
·
语音识别
·
实时音视频
·
sherpa-ncnn
sherpa-ncnn:Linux(x86/ARM32/ARM64)构建sherpa-ncnn --语音转文本大模型
更多内容:XiaoJ的知识星球x86构建:32-bit ARM构建:64-bit ARM构建:构建后,您将获得两个二进制文件:
正在走向自律
10 天前
人工智能
·
python
·
opencv
·
语音识别
·
ai数字人
·
ai伦理与法律
AI数字人:繁荣背后的伦理困境与法律迷局(8/10)
摘要:本文深入剖析 AI 数字人从虚拟走向现实的历程,阐述其融合多技术实现从静态到动态交互的跨越,爆发式应用于各领域带来的商业价值与社会影响,同时直面由此引发的伦理法律挑战,包括身份认同、数据隐私、责任归属及权利保护等困境,最后从技术、法律、社会层面探索破局之路,展望构建 “技术 - 伦理 - 法律” 协同进化的生态,实现科技向善。
A_ugust__
11 天前
人工智能
·
语音识别
·
xcode
Vue3集成浏览器API实时语音识别
浏览器爱好者
11 天前
人工智能
·
chrome
·
语音识别
如何下载适用于语音识别功能增强的Google Chrome浏览器
谷歌浏览器一直是互联网用户的首选工具之一,尤其是它强大的扩展功能,使得用户可以根据需求定制浏览器。对于需要使用语音识别功能的用户来说,谷歌浏览器提供了优秀的支持,通过简单的设置和插件,可以显著提升语音识别的体验。
A_ugust__
12 天前
人工智能
·
语音识别
Vue3集成百度实时语音识别
yt94832
12 天前
人工智能
·
语音识别
基于GMM的语音识别
语音识别是近年来发展非常迅速的一项计算机智能技术,广泛应用在语音控制、身份识别等多个领域。本次项目主要研究语音识别的预处理过程和特征参数的提取环节。通过对原始语音信号进行预加重和分帧、加窗,滤除低频干扰,提升对语音识别有用的部分,消除了部分噪音和失真。预处理之后进行信号的特征提取,主要选取了短时平均过零率和MFCC两个特征参数,应用matlab软件绘制波形图并提取特征参数矩阵,为之后的语音信号的识别打下了基础。
非凡ghost
13 天前
android
·
人工智能
·
智能手机
·
语音识别
·
软件需求
超级扩音器手机版:随时随地,大声说话
在日常生活中,我们常常会遇到手机音量太小的问题,尤其是在嘈杂的环境中,如KTV、派对或户外活动时,手机自带的音量往往难以满足需求。今天,我们要介绍的 超级扩音器手机版,就是这样一款由上海聚告德业文化发展有限公司开发的手机扩音软件。它不仅操作简单,还能显著提升手机的音量,满足用户在不同场景下的需求。