对标 GPT-4o 的开源实时语音多模态模型：Moshi

三花AI2024-07-05 15:41

是由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型，支持听、说、看，最关键的是你现在就可以在浏览器中使用，如果这个链接延迟高，可以试试这个, 无需输入邮箱，点击 Join queue 即可。

简单体验了下，比较笨笨的，延迟很低，可以随时打断，如果你一直不说话还会主动找你，很接近 GPT-4o 了！非常期待后续的开源。

上一篇：SpringMVC的视图

下一篇：汉王、绘王签字版调用封装

热门推荐

012026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 02GitHub 镜像站点 03如何新建文件夹？电脑新建文件夹的4种方法 04AI科技热点日报 | 2026年07月01日 05国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……092026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？102026 年 AI 大模型 & AI 编程工具实战全总结