OpenAI直播发布第6天:ChatGPT视频聊天、屏幕共享和圣诞语音包!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的"外挂 ",专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

今天是OpenAI连续12天直播发布会的第6天

本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

Day 6 发布内容

"鸽"了214天的ChatGPT视频聊天功能,今天它来了!

视频聊天 是ChatGPT高级语音模式(Advanced Voice Mode)中的核心功能之一,最早亮相于今年5月13日的春季直播发布会上,与之同时发布的还有GPT-4o模型。近4个月后的9月24日,OpenAI表示高级语音模式已经测试结束,开始正式推送。但当时发布的还不是高级语音的完整版本,只有语音聊天的功能,缺少了视觉相关的功能,如视频和屏幕共享。

关于高级语音模式(Advanced Voice Mode)是什么,感兴趣的小伙伴按需食用。

视频聊天

最新的高级语音模式在app页面会出现一个视频聊天的图标,点击后可进入视频聊天模式。

和微信视频聊天一样,只不过对方是ChatGPT,能够通过摄像头获取到环境内容,使得对话更加丰富实用。

高级语音模式(Advanced Voice Mode)由原生的多模态GPT-4o模型提供支持,能够进行端到端的语音和视频通话,即直接接收、理解和输出音频,并支持超过50种语言(这一点比当前的Gemini实时语音强一些),提供更自然、富有情感的对话体验。

和AI实时视频聊天的功能在工作、生活、学习中都很实用,比如今天demo中展示的在ChatGPT实时指导下制作手冲咖啡。ChatGPT能够识别出桌子上的器具并逐步指导,并且在整个过程中,ChatGPT能够提供实时观察和反馈,确保每一步操作都正确无误。

屏幕共享

除了正常的视频聊天,ChatGPT高级语音模式还支持拍照、上传照片和屏幕共享功能。入口在高级语音页面的下方三个点图标处,点击后选择即可。

共享屏幕后,ChatGPT能主动读取和理解当前页面的内容,这个功能非常适合让ChatGPT分析页面内容,比如短信和邮件。相当于有了一个实时的AI助手,可以对话,并且还能实时获取页面内容。

圣诞模式

ChatGPT专门针对圣诞节推出了圣诞模式

聊天框右侧的雪花图标即是圣诞模式的入口,点击后即可与圣诞老人进行对话,圣诞老人将使用他标志性的欢快声音实时回应。

值得注意的是,圣诞模式属于"限时"功能,仅在今天到12月底前可用。

如何与ChatGPT视频聊天?

OpenAI官方表示,高级语音模式的视频、屏幕共享以及图片上传功能正在逐步向ChatGPT Pro、Plus、Team付费用户灰度推送,预计在未来几天内完成。

如何辨别是否已经被推送到这些新功能?

很简单,进入ChatGPT高级语音模式后,如果能在左下角看到下面这个视频聊天的图标,就说明已经开启了视频功能。点击这个按钮,即可开始和ChatGPT视频聊天。

完整版的高级语音功能仅向付费用户开放,免费用户可试用一小段时长。

Day 6 完整版直播视频

OpenAI 12天直播发布回顾

OpenAI于12月5日开启"12天发布季",本系列将在每个工作日持续更新,为小伙伴们带来第一手的更新解读,敬请关注。

日期 发布关键词 详细解读文章
🌟 Day 1 满血版 o1ChatGPT Pro 新套餐
✨ Day 2 强化学习微调(Reinforcement Fine-Tuning, RFT)
🎥 Day 3 文生视频模型 Sora
🖌️ Day 4 ChatGPT Canvas
🍎 Day 5 Apple Intelligence

结语

当ChatGPT有了视觉能力,它将成为一个更合格的AI助手。


精选推荐


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

相关推荐
b***2511几秒前
动力电池自动点焊机:新能源汽车制造的智能焊接利器
大数据·人工智能
__Benco13 分钟前
OpenHarmony子系统开发 - 热管理(五)
人工智能·harmonyos
2201_7549184118 分钟前
机器学习--词向量转换
人工智能·机器学习
飞凌嵌入式19 分钟前
飞凌嵌入式T527核心板正式发布OpenHarmony4.1系统,实现从芯片架构到操作系统的全链路国产化
人工智能·嵌入式硬件·嵌入式·飞凌嵌入式
吾鳴33 分钟前
扣子(coze)实战|我用扣子搭建了一个自动分析小红薯笔记内容的AI应用|详细步骤拆解
人工智能
iTiro39 分钟前
LIME深度解析:如何让复杂的机器学习模型“开口说话”?
人工智能
Gofree1 小时前
Pytorch实现mnist手写数字识别
人工智能
蚝油菜花1 小时前
月之暗面开源16B轻量级多模态视觉语言模型!Kimi-VL:推理仅需激活2.8B,支持128K上下文与高分辨率输入
人工智能·开源
童欧巴1 小时前
即梦3.0全面测评,AI文生图的天花板又被击穿了
人工智能·aigc
蚝油菜花1 小时前
传统OCR集体阵亡!Versatile-OCR-Program:开源多语言OCR工具,精准解析表格和数学公式等复杂结构
人工智能·开源