本文首发于公众号：X小鹿AI副业

大家好，我是程序员X小鹿，前互联网大厂程序员，自由职业2年+，也是一名 AIGC 爱好者，持续分享前沿的「AI工具」和「AI 副业玩法」，期待和大家一起交流~

看了 OpenAI 最新的布会，一个感受，强到让人感到恐怖，这还是 AI 吗？!

仅仅 26 分钟的发布会，但更新的内容，简直可以用「炸裂」一词来形容。

这是 OpenAI 这次发布会的主要内容：

1、桌面级应用和用户界面的更新

2、GPT-4o 模型的发布

3、GPT-4o 免费访问

4、GPT-4o 现场功能演示

一、在线演示

先来看在线演示感受一下吧。下面是发布会上的在线演示环节。

语音演示

在发布会现场演示环节，相比于以往和 AI 对话，最明显的几点改变是：

1、可以中断了，不必等它完成才可以说话。

2、模型是实时响应的，和真人对话的时延，没有什么两样。

3、而且它还能全面感知你情绪。

4、生成各种情感风格的声音。

比如让它讲一个睡前故事，在提醒它在讲睡前故事中多一些情感、再多一些情感时，发现它可以很快的调整过来。

还有在最后，告诉它以歌声结束时，它都可以很快的调整过来。太强了！

在线解题

还演示了 GPT-4o 的在线解题功能。

在纸上写了一个线性方程，要求 GPT 不要直接告诉用户解决方案，只是让它在这个过程中给出提示。

它会一步步引导用户，解决问题。简直像一个私人家教！

在整个对话过程中非常自然，就像生活中的两个人正常交流一样。这跟之前的 AI 语音对话的感觉完全不一样。

桌面程序的视觉功能

发布会上还演示了代码编程方面的应用。

使用 ChatGPT 桌面应用程序的视觉功能，它可以看到屏幕上发生的一切。演示中展示的代码，ChatGPT 都可以很好的解释出来。

实时翻译

实时翻译环节，演示了一位只会说意大利语、一位只会说英语的两人之间的交流，让 ChatGPT 充当他们之间的翻译。简直不要太丝滑。

根据外表感知用户情绪

二、GPT-4o

这次 OpenAI 发布会最大的更新，应该就是 GPT-4o 模型的发布，以及基于 GPT-4o 模型更新的一些新特性。

GPT-4o 可以实时推理音频、视觉和文本。

GPT-4o，o 即 omni，代表全面的意思。

它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像输出的任意组合。可以以极短的时间（类似人类响应时间），响应音频输入。

今天登上 ChatGPT 的时候，发现已经更新了，ChatGPT 4o 已经可以使用了。

API 也有了重大更新。开发人员现在还可以在 API 中将 GPT-4o 作为文本和视觉模型进行访问。

与 GPT-4 Turbo 相比，GPT-4o 的速度快 2 倍，价格减半，速率限制高出 5 倍。

OpenAI 也将在未来几周内，向 API 中的一小群受信任的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

三、结束语

看完 OpenAI 的发布会，直呼这还是 AI 吗？! 强到让人恐怖啊，不过也确实挺让人兴奋的。

总的来说，OpenAI 这次发布的 GPT-4o 确实让人眼前一亮。它不仅在理解和生成自然语言方面更进一步，也展示了许多实际应用的潜力。

随着 OpenAI 发布 GPT-4o，这将无疑为各行各业带来更为强大的工具和更为智能的解决方案。无论是日常工作中的助力，还是各种创意项目中的点子火花，GPT-4o 都让我们对未来充满了期待。

GPT-4o 来了，AGI 还会远吗？

四、参考网址

openai.com/index/hello...

help.openai.com/en/articles...

OpenAI 深夜发布 GPT-4o，强到让人恐怖，这还是 AI？！又一批人将面临失业...