GPT-4o目前暂无音频输出的能力

OpenAI的发布会惊艳的操作,近乎实时的语音对话,让很多人向往。

但实际上Chat对话时,尚无输出音频的能力,可能还未开放。

这是国外的一个开发小哥的交流帖子,可能还需要些时日才能用的上实时的音频输出。

不过当前OpenAI也开放了两个TTS模型,基于之前的开放的Whisper能力,很有可能Chat输出的音频能力是基于这两个模型完成的。

并且有实时播放能力,相比以前只能全部请求完才能播放也是一个巨大的进步,并且支持中文输出。

相关推荐
程序员阿明6 小时前
spring boot 实现rtsp视频推流
spring boot·后端·音视频
EasyDSS7 小时前
EasyRTC嵌入式音视频通信SDK一对一音视频通信,打造远程办公/医疗/教育等场景解决方案
人工智能·音视频
Bald Baby11 小时前
uniapp实现H5、APP、微信小程序播放.m3u8监控视频
微信小程序·小程序·uni-app·音视频·视频
EasyDSS13 小时前
抛弃传统P2P技术,EasyRTC音视频基于WebRTC打造教育/会议/远程巡检等场景实时通信解决方案
人工智能·音视频
若苗瞬14 小时前
笔记本6GB本地可跑的图生视频项目(FramePack)
音视频·图生视频·framepack
郭老二16 小时前
【视频】使用海康SDK保存的MP4无法在浏览器(html5)中播放
音视频
开开心心就好17 小时前
便捷的电脑自动关机辅助工具
前端·python·pdf·ocr·电脑·音视频·散列表
Akamai中国1 天前
GPU加速Kubernetes集群助力音视频转码与AI工作负载扩展
人工智能·云原生·容器·kubernetes·云计算·音视频
亚马逊云开发者1 天前
基于亚马逊云科技构建音视频直播审核方案
科技·音视频
白熊1882 天前
【图像大模型】深度解析RIFE: 基于中间流估计的实时视频插帧算法
人工智能·算法·音视频·通用智能体·web search