对标 GPT-4o 的开源实时语音多模态模型:Moshi

是由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,支持听、说、看,最关键的是你现在就可以在浏览器中使用,如果这个链接延迟高,可以试试这个, 无需输入邮箱,点击 Join queue 即可。

简单体验了下,比较笨笨的,延迟很低,可以随时打断,如果你一直不说话还会主动找你,很接近 GPT-4o 了!非常期待后续的开源。

相关推荐
Papicatch4 分钟前
【人工智能】-- 智能家居
图像处理·人工智能·python·人脸识别·智能家居
沽漓酒江13 分钟前
机器学习第四十六周周报 FMP
人工智能·机器学习
汀、人工智能24 分钟前
AI Agent技术的最新进展与改变世界的典型项目巡礼
人工智能·agent
过于真实呢29 分钟前
3-5 提高模型效果:归一化
人工智能·python·自然语言处理
The Open Group1 小时前
The Open Group 2024架构·AI标准峰会——合作伙伴+演讲嘉宾预热征集中!
人工智能·架构
阿_旭1 小时前
【YOLOv9教程】如何使用YOLOv9进行图像与视频检测
人工智能·深度学习·目标检测·ai·yolov9
林叔聊渠道分销1 小时前
从0到1构建渠道运营体系:实战案例与策略指南
大数据·运维·人工智能·产品运营·流量运营·渠道运营
X.AI6661 小时前
【大模型LLM面试合集】大语言模型基础_LLM为什么Decoder only架构
人工智能·语言模型·架构
galaxylove1 小时前
被⽹络罪犯利⽤的5⼤ChatGPT越狱提⽰
人工智能·chatgpt
dtge2 小时前
【ChatGPT】全面解析 ChatGPT:从起源到未来
人工智能·chatgpt