对标 GPT-4o 的开源实时语音多模态模型:Moshi

是由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,支持听、说、看,最关键的是你现在就可以在浏览器中使用,如果这个链接延迟高,可以试试这个, 无需输入邮箱,点击 Join queue 即可。

简单体验了下,比较笨笨的,延迟很低,可以随时打断,如果你一直不说话还会主动找你,很接近 GPT-4o 了!非常期待后续的开源。

相关推荐
zhl771 分钟前
YOLOv5:从0搭建你的第一个目标检测模型
人工智能
TechFind2 分钟前
用 OpenClaw 搭建企业微信 AI Agent:从零到自动化客服只需 30 分钟
人工智能·agent
FishCoderh2 分钟前
OpenClaw部署后Tools工具权限被禁用?一行配置解决
人工智能
飞哥数智坊1 小时前
openclaw 不是全站第一!但它的爆发,足以引人深思
人工智能
zone77393 小时前
001:LangChain的LCEL语法学习
人工智能·后端·面试
程序员鱼皮3 小时前
微软竟然出了免费的 AI 应用开发课?!我已经学上了
人工智能·程序员·ai编程
DevnullCoffe3 小时前
基于 OpenClaw + Pangolinfo API 的 Amazon 价格监控系统:架构设计与最佳实践
人工智能·架构
Baihai_IDP3 小时前
回头看 RLHF、PPO、DPO、GRPO 与 RLVR 的发展路径
人工智能·llm·强化学习
aristotle3 小时前
Openclow安装保姆级教程
人工智能·程序员
明明如月学长4 小时前
从 Subagent 到 Team:Claude Code 把 AI 协同玩明白了
人工智能