【AIGC核心技术剖析】基于大规模弱监督的鲁棒语音识别【附源码】

论文研究了语音处理系统的能力,该系统只是为了预测互联网上的大量音频成绩单而训练的。当扩展到 680,000 小时的多语言和多任务监督时,生成的模型可以很好地推广到标准基准,并且通常与先前的完全监督结果竞争,但在零镜头传输设置中无需任何微调。与人类相比,这些模型接近其准确性和稳健性。论文正在发布模型和推理代码,作为进一步研究健壮语音处理的基础。



🧬code: https://github.com/mistralai/mistral-src

🦒colab: please try it 🐣 https://github.com/camenduru/Mistral-colab

🔥 Please join our discord server https://discord.gg/k5BwmmvJJU

🥳 Please join my patreon community https://patreon.com/camenduru

相关推荐
k09336 小时前
Oh My OpenAgent (OMO) 介绍与使用指南
aigc·ai编程
canonical_entropy8 小时前
NOP Chaos Flux 架构演变史:从 AMIS 重写到现代低代码运行时
前端·aigc·ai编程
captain_AIouo11 小时前
Captain AI以视频运营破局!助Ozon商家抢占流量红利
大数据·人工智能·经验分享·aigc·音视频
Artdesign_E11 小时前
如何让AI图文自动生成视频?一键图文转视频指南
图像处理·人工智能·aigc
DigitalOcean13 小时前
实战指南:AI调用成本降71%——利用“推理路由”告别大模型胡乱开销
llm·aigc·agent
秋秋202314 小时前
做了个 AI 对话页面才发现,流式渲染没想象中那么简单
前端·aigc
摄影图14 小时前
科技企业研发宣传图片素材 适配多场景宣传使用需求
大数据·人工智能·科技·aigc·贴图·插画
ZZH_AI项目交付14 小时前
AI 改完代码后,下一轮不能只看它改了哪些文件
aigc·ai编程
牛肉烧烤屋16 小时前
为什么大模型需要“思考模式”?
aigc·ai编程·deepseek
摄影图16 小时前
AI设计实用图片素材 适配多元创作推广需求
人工智能·科技·智能手机·aigc·贴图