语音识别

开开心心就好10 小时前
人工智能·vscode·学习·游戏·音视频·语音识别·媒体
整合多家平台资源的免费学习应用软件介绍终身教育平台是国家开放大学推出的官方移动学习应用,主打支持全民终身学习。它覆盖生活技能、职场素养、兴趣爱好、职业技能、老年学习、学历继续教育等多个领域,还整合了软件通、爱奇艺知识、虎课网、喜马拉雅等多家优质平台资源,累计收录超50万门课程。
Prannt21 小时前
ai·音频·语音识别
星朗智能语音——声音设计本来想试试声音克隆功能,但我上哪去找杀手和熊孩子的干音原声去克隆啊?!直到昨天,群里的视频剪辑大佬甩给我一个宝藏网站的隐藏功能——声音设计。体验了十分钟后,我直接惊掉下巴!它居然完全不需要你提供任何录音,只要你像玩捏脸游戏一样,用文字描述出你想要的声音特征(比如:25岁冷酷男青年,语速缓慢,带点沙哑),它就能凭空给你“捏”出一个绝无仅有、感情丰沛的专属音色!
J心流1 天前
语音识别
FunASR-1.5 方言识别前两天我在家跟我妈视频,她说她想用手机上的语音助手查个天气预报,结果连说了三遍,手机愣是没听懂。我妈普通话其实还行,就是带点口音。但这点口音,对一个正常人来说完全不影响交流。你随便在大街上拉个人,都能听懂她在说什么。
Prannt1 天前
ai·音视频·语音识别
星朗智能语音——视频音色替换直到前几天,经常混剪辑圈的群友悄悄扔给我一个链接,说是一个极其硬核的“AI视频音色替换”工具。抱着半信半疑的态度试了一下,结果惊掉下巴!它居然能直接提取原视频的音轨,自动语音识别并替换成专业主播的声音,最后再完美合并回原视频,连口型和时间轴都对得严丝合缝! 最关键的是,它和市面上那些割韭菜的包年软件不同,完全按次/按时长计费,用多少花多少!保护隐私做得也贼棒,生成后限时自动销毁。
憨波个2 天前
人工智能·深度学习·算法·音频·语音识别
【说话人日志】DOVER-Lap:overlap-aware diarization 输出融合算法论文:DOVER-Lap: A Method for Combining Overlap-aware Diarization Outputs 作者:Desh Raj, Leibny Paola Garcia-Perera, Zili Huang, Shinji Watanabe, Daniel Povey, Andreas Stolcke, Sanjeev Khudanpur 时间:2020 arXiv:2011.01997 任务:Speaker Diarization Output Combinatio
憨波个2 天前
人工智能·算法·音频·语音识别·聚类
【说话人日志】DOVER:diarization 输出融合算法论文:DOVER: A Method for Combining Diarization Outputs 作者:Andreas Stolcke, Takuya Yoshioka 单位:Microsoft Speech and Dialog Research Group 时间:2020 arXiv v2 / ASRU 2019 相关工作 arXiv:1909.08090 任务:Speaker Diarization Output Combination,把多个 diarization 系统或多个通道的输出融
Prannt3 天前
ai·音视频·语音识别
星朗智能语音——语音合成——上传文件配音作为一个重度小说迷加考研党,我平时手里攒了大量几十万字的TXT小说、专业课复习资料和长篇会议纪要。一直想把它们转成语音,在通勤或者闭目养神的时候听。
写代码写到手抽筋4 天前
人工智能·5g·语音识别
通信同步原理与5G NR同步实际应用同步是数字通信的核心前提,其本质是让接收端与发射端“步调一致”,从“能接收信号”到“能正确判决码元”,再到“能解析有用信息”,分为三个层层递进的层次,每一层都依赖前一层的完成,结合经典案例和NR实例详细说明。
z19408920664 天前
经验分享·笔记·语音识别
Word题库转结构化:告别换行、选项与答案乱象许多教师、培训师或内容创作者都遇到过这样的困境:辛苦搜集或编写的题库以Word文档形式保存,却充斥着各种格式问题。题干与选项挤在一行,选项标识(A、B、C、D)与内容粘连,而答案则可能散落在文档末尾或另一个文件中。
烟雨江南7854 天前
人工智能·语音识别
精度与速度的终极博弈:语音识别本地部署中的 INT8 量化与 TensorRT 插件级加速全流程灵声智库 (ASR 推理加速) 硬核白皮书在语音识别本地部署的实战中,FP16 模型往往难以兼顾边缘设备的实时性要求。如何将高深莫测的 Transformer 架构压榨到 INT8 精度,且不出现识别率的断崖式下跌?本文将通过灵声智库的研发视角,手把手带你拆解从 PyTorch 模型导出到 TensorRT 自定义插件(Plugin)编写的全链路调优过程。
工作log4 天前
人工智能·whisper·语音识别
10分钟搭建本地语音识别服务 (Whisper large-v3-turbo)你是否厌倦了为在线语音识别 API 付费?或者担心数据隐私问题?本文将导引你如何使用 Hugging Face 的轻量级模型 openai/whisper-large-v3-turbo,在你的本机搭建一个完全免费的语音转文字 REST API 服务,并解决实际部署中可能遇到的各种“坑”。
烟雨江南7854 天前
人工智能·语音识别
苟富拒绝方言“滑铁卢”:语音识别本地部署中的领域增量微调(Fine-tuning)与样本自动标注全流程贵受到广泛发生过施工方灵声智库 (ASR 模型自适应) 硬核白皮书作者/署名:灵声智库 首席技术专家在语音识别本地部署的实战中,开发者常面临一个尴尬局面:通用模型在面对特定行业(如医疗、煤矿、法律)或方言口音时,识别率会发生断崖式下跌。如何在不具备海量手动标注数据的前提下,实现模型的领域自适应?本文将分享灵声智库在增量微调(Fine-tuning)与半监督学习算法上的落地经验。
Prannt4 天前
人工智能·音视频·语音识别
星朗智能语音识别——视频转文字最近在做B站和抖音的视频更新,每次剪辑完最痛苦的环节就是——上字幕!网课录屏、会议录像动辄一两个小时,一边听一边手打字幕真的让人头皮发麻。市面上的视频转文字工具我也试了不少,好用的基本都要你“开通包月/包年会员”,免费的不仅限制视频大小,识别准确率还堪忧。
唯创知音5 天前
人工智能·语音识别·产后康复器械·语音播报方案·语音方案
产后康复器械语音播报语音识别解决方案一、产后康复器械为什么需要语音功能产后康复是一个涉及生理恢复、心理调适和生活方式恢复的综合过程。无论是盆底肌训练仪、腹直肌修复设备,还是产后骨盆矫正器、乳腺疏通仪,这些器械需要面对的用户群体有着共同的特征:她们正处于身体机能的脆弱期和恢复期,对操作方式的理解能力因产后疲劳、激素波动而有所下降,同时对自身身体状况的变化格外敏感。在这种背景下,一款康复器械是否具备友好、清晰、有温度的人机交互能力,往往直接影响使用者的体验。
大龄程序员狗哥5 天前
人工智能·语音识别
第46篇:语音识别入门——让AI“听懂”人类语言(概念入门)在我刚开始接触AI项目时,最让我头疼的就是如何让机器理解用户的意图。我们当时做了一个智能客服的Demo,用户只能通过打字来交互。有一次产品经理跑过来问:“咱们这个能直接说话吗?就像Siri那样。” 我心想,这要求也太高了。但当我真正开始研究语音识别(Automatic Speech Recognition, ASR)时,才发现这个看似“黑科技”的领域,其实已经非常成熟,并且有清晰的路径可以让我们从零开始理解和应用。今天,我就带大家推开语音识别的大门,看看AI是如何一步步“听懂”我们说话的。
byte轻骑兵5 天前
人工智能·算法·音视频·语音识别·le audio·低功耗音频
【LE Audio】BASS精讲[5]: 状态特征解析,广播接收状态实时可视全流程在LE Audio的广播音频接收体系中,BASS的两大核心特征构成了指令-状态的完整交互闭环:上一篇解析的Broadcast Audio Scan Control Point是客户端向服务器下发指令的中央指挥台,而本次要详解的Broadcast Receive State则是服务器向客户端实时暴露广播接收状态的智能仪表盘。如果说控制点是让服务器做什么的指令入口,状态特征就是让客户端看得到服务器执行结果的状态窗口,所有与广播源同步、加密解密相关的状态变化,都会实时体现在这个仪表盘上,是客户端感知广播接收过程
开开心心就好5 天前
人工智能·游戏·ci/cd·docker·音视频·语音识别·媒体
支持批量添加水印的实用工具推荐软件介绍图片水印工具是一款专门用来给图片添加水印的工具。之前为了加水印功能安装了某大型图片处理软件,后来发现其实有很多小巧的工具就能满足需求,这款就是其中之一,比大型软件更轻便好用。
shao9185165 天前
语音识别·tts·语音克隆·elevenlabs·stt·变声器·音乐api
第11章 Streaming(中):高级音频应用(1)——项目六:语音克隆、变声器与文本转录器本章是音频的高级应用,首先介绍专业语音大模型ElevenLabs,并与Gradio结合实现语音克隆、语音变声器与文本转录器。然后介绍Python实时通信库FastRTC,内容包括WebRTC协议、FastRTC的内置功能与自定义路由、核心特性Stream的构造参数及运行方式、配置连接TURN服务器等。接着介绍如何通过Twilio连接TURN服务器,内容包括STUN、ICE与Twillo关系、Twilio的网络穿透服务。最后通过实现AI通话——通过Twilio接入Stream拨打和接听智能电话,内容主要有通
俊基科技5 天前
人工智能·语音识别
PI‑36 双麦降噪拾音模块|医院高清语音解决方案医院走廊人声嘈杂、设备持续运转、病房环境复杂,传统拾音与对讲系统常被噪音淹没,导致呼叫不清晰、对讲卡顿、录音失真、监护漏音……PI‑36 双 MIC 降噪拾音模块,专为医院严苛声学环境设计,双核 DSP 强效降噪、7 米远距离拾音、即插即用免调试,让医护沟通更顺畅、患者呼叫更清晰、录音留证更可靠。
懂AI的老郑5 天前
人工智能·语音识别
离线语音识别系统全解析(支持专业词汇训练)离线语音识别系统通过本地化部署实现无需网络连接的语音转文本功能,核心包含以下模块:音频处理流水线特征提取