对标 GPT-4o 的开源实时语音多模态模型:Moshi

是由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,支持听、说、看,最关键的是你现在就可以在浏览器中使用,如果这个链接延迟高,可以试试这个, 无需输入邮箱,点击 Join queue 即可。

简单体验了下,比较笨笨的,延迟很低,可以随时打断,如果你一直不说话还会主动找你,很接近 GPT-4o 了!非常期待后续的开源。

相关推荐
Agent手记10 分钟前
成本数据多系统自动采集与分析实操指南:基于2026大模型Agent的超自动化实践
运维·人工智能·microsoft·ai·自动化
陈天伟教授15 分钟前
图解人工智能(34)深度学习面临的挑战
人工智能·深度学习·神经网络·cnn
拉卡拉开放平台17 分钟前
支付系统在文旅场景的进阶之路:聚合收单、分账与自动化对账
大数据·人工智能·自动化
jovi_AI电报33 分钟前
ChatGPT 对话太多,之前聊的好东西找不到了
人工智能·chatgpt
老鱼说AI34 分钟前
统计学习方法第一章讲解:统计与监督学习概率
人工智能·学习·学习方法
山川绿水36 分钟前
Bugku——原神祈愿
人工智能·网络安全·claude
gjhave38 分钟前
jetson上trtexec模型转换
人工智能·机器学习
互联网推荐官39 分钟前
2026上海GEO优化服务商综合实力深度评测
大数据·人工智能·技术分享·geo·上海
jike88ai43 分钟前
告别海外账号!OpenClaw+88api一站式配置:Claude/GPT/Gemini本地调用全流程
gpt·node.js·api·claude·openclaw·88api
Dfreedom.1 小时前
算子融合:从硬件本质到性能飞跃的深度学习优化艺术
人工智能·深度学习·gpu·gpu加速·模型加速·算子融合·模型计算