OpenAI直播发布第6天:ChatGPT视频聊天、屏幕共享和圣诞语音包!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的"外挂 ",专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

今天是OpenAI连续12天直播发布会的第6天

本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

Day 6 发布内容

"鸽"了214天的ChatGPT视频聊天功能,今天它来了!

视频聊天 是ChatGPT高级语音模式(Advanced Voice Mode)中的核心功能之一,最早亮相于今年5月13日的春季直播发布会上,与之同时发布的还有GPT-4o模型。近4个月后的9月24日,OpenAI表示高级语音模式已经测试结束,开始正式推送。但当时发布的还不是高级语音的完整版本,只有语音聊天的功能,缺少了视觉相关的功能,如视频和屏幕共享。

关于高级语音模式(Advanced Voice Mode)是什么,感兴趣的小伙伴按需食用。

视频聊天

最新的高级语音模式在app页面会出现一个视频聊天的图标,点击后可进入视频聊天模式。

和微信视频聊天一样,只不过对方是ChatGPT,能够通过摄像头获取到环境内容,使得对话更加丰富实用。

高级语音模式(Advanced Voice Mode)由原生的多模态GPT-4o模型提供支持,能够进行端到端的语音和视频通话,即直接接收、理解和输出音频,并支持超过50种语言(这一点比当前的Gemini实时语音强一些),提供更自然、富有情感的对话体验。

和AI实时视频聊天的功能在工作、生活、学习中都很实用,比如今天demo中展示的在ChatGPT实时指导下制作手冲咖啡。ChatGPT能够识别出桌子上的器具并逐步指导,并且在整个过程中,ChatGPT能够提供实时观察和反馈,确保每一步操作都正确无误。

屏幕共享

除了正常的视频聊天,ChatGPT高级语音模式还支持拍照、上传照片和屏幕共享功能。入口在高级语音页面的下方三个点图标处,点击后选择即可。

共享屏幕后,ChatGPT能主动读取和理解当前页面的内容,这个功能非常适合让ChatGPT分析页面内容,比如短信和邮件。相当于有了一个实时的AI助手,可以对话,并且还能实时获取页面内容。

圣诞模式

ChatGPT专门针对圣诞节推出了圣诞模式

聊天框右侧的雪花图标即是圣诞模式的入口,点击后即可与圣诞老人进行对话,圣诞老人将使用他标志性的欢快声音实时回应。

值得注意的是,圣诞模式属于"限时"功能,仅在今天到12月底前可用。

如何与ChatGPT视频聊天?

OpenAI官方表示,高级语音模式的视频、屏幕共享以及图片上传功能正在逐步向ChatGPT Pro、Plus、Team付费用户灰度推送,预计在未来几天内完成。

如何辨别是否已经被推送到这些新功能?

很简单,进入ChatGPT高级语音模式后,如果能在左下角看到下面这个视频聊天的图标,就说明已经开启了视频功能。点击这个按钮,即可开始和ChatGPT视频聊天。

完整版的高级语音功能仅向付费用户开放,免费用户可试用一小段时长。

Day 6 完整版直播视频

OpenAI 12天直播发布回顾

OpenAI于12月5日开启"12天发布季",本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

日期 发布关键词 详细解读文章
🌟 Day 1 满血版 o1ChatGPT Pro 新套餐
✨ Day 2 强化学习微调(Reinforcement Fine-Tuning, RFT)
🎥 Day 3 文生视频模型 Sora
🖌️ Day 4 ChatGPT Canvas
🍎 Day 5 Apple Intelligence

结语

当ChatGPT有了视觉能力,它将成为一个更合格的AI助手。


精选推荐


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

相关推荐
飞哥数智坊4 小时前
我的“龙虾”罢工了!正好对比下GLM、MiniMax、Kimi 3家谁更香
人工智能
风象南5 小时前
很多人说,AI 让技术平权了,小白也能乱杀老师傅 ?
人工智能·后端
董董灿是个攻城狮6 小时前
大模型连载1:了解 Token
人工智能
孟健7 小时前
我用OpenClaw搭了11个AI Agent,它们学会了自我进化
agent·ai编程·claude
孟健7 小时前
Vibe Coding 的尽头是 AI Agent 军团:我用 16 个 Agent 自动化了整个创业公司
agent·ai编程·claude
RoyLin9 小时前
沉睡三十年的标准:HTTP 402、生成式 UI 与智能体原生软件的时代
人工智能
javaTodo11 小时前
OpenCode 完全指南:从 0 到 100K Star 的开源 AI 编码 Agent
openai·claude·cursor
needn11 小时前
TRAE为什么要发布SOLO版本?
人工智能·ai编程
毅航11 小时前
自然语言处理发展史:从规则、统计到深度学习
人工智能·后端
前端付豪11 小时前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain