GPT-4o目前暂无音频输出的能力

OpenAI的发布会惊艳的操作,近乎实时的语音对话,让很多人向往。

但实际上Chat对话时,尚无输出音频的能力,可能还未开放。

这是国外的一个开发小哥的交流帖子,可能还需要些时日才能用的上实时的音频输出。

不过当前OpenAI也开放了两个TTS模型,基于之前的开放的Whisper能力,很有可能Chat输出的音频能力是基于这两个模型完成的。

并且有实时播放能力,相比以前只能全部请求完才能播放也是一个巨大的进步,并且支持中文输出。

相关推荐
hazy1k41 分钟前
K230基础-录放音频
人工智能·stm32·单片机·嵌入式硬件·音视频·k230
三天哥11 小时前
演示和解读ChatGPT App SDK,以后Android/iOS App不用开发了?
人工智能·ai·chatgpt·aigc·openai·智能体·appsdk
新智元15 小时前
老黄押宝「美版 DeepSeek」!谷歌天才叛将创业,一夜吸金 20 亿美元
人工智能·openai
新智元15 小时前
刚刚,全球首个 GB300 巨兽救场!一年烧光 70 亿,OpenAI 内斗 GPU 惨烈
人工智能·openai
小美哥131417 小时前
格式工厂转换视频很慢、Pr视频剪辑导出很慢的优化设置(就用显卡的默认设置即可)
音视频·格式工厂
尘叶心简17 小时前
LangGraph实现自适应RAGAgent
aigc·openai
FogLetter17 小时前
从「关键词匹配」到「语义理解」:我是如何用 Embedding 让搜索「听懂人话」的?
前端·aigc·openai
FogLetter17 小时前
从“满嘴跑火车”到“有据可依”:给大模型配个“外部硬盘”RAG
aigc·openai
FogLetter18 小时前
LLM的“健忘症”与记忆魔法:一场与AI聊天的奇幻之旅
aigc·openai
码农小懒哥19 小时前
n8n vs Dify,看看它们各自的定位、优势、适用场景、限制
aigc·openai