一、前言

9 月 25 日，ChatGPT 多模态增加了新的语音功能 和图像功能。这些功能提供了一种新的、更直观的界面，允许我们与 ChatGPT 进行语音对话或展示我们正在谈论的内容。

ChatGPT 现在可以看、听、和说话了，而不单单是一个文本驱动的工具了。

正值十一小长假，很多人选择出去旅行。ChatGPT 新推出的这项功能能否用在旅行中呢？一起来看看。

二、图像交互功能

ChatGPT 在 9 月 25 日新推出的这个版本中，添加了图片交互能力。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像，例如照片、屏幕截图以及包含文本和图像的文档。

如何使用呢？

以网页版的 ChatGPT 为例。

点输入框左侧的「图片」按钮，就可以上传图片。可以上传一张或多张图片。

上传后，针对图片中的内容，输入我们想问的问题即可。例如就像下面这样。

看看 ChatGPT 的回答。回答得还不错，看来 ChatGPT 对图像内容的理解还是可以的。

在生活中有哪些应用呢？

比如刚刚上面举的这个例子：景点识别。

现在正值十一小长假，很多人外出旅行。

当我们看到一个不知名但很有趣的景点或地标时，可以拍摄照片并展示给 ChatGPT，它可以帮助我们识别并提供相关信息。

如果我们在旅行中遇到技术问题，如相机设置等，也可以向 ChatGPT 展示问题所在，获取技术支持和建议。

再来看几个官方的示例。

这个例子中上传了两张图，一张是使用说明，另一个是工具箱。然后向 ChatGPT 提问「工具箱中是否有正确的工具」。

另外，如果要聚焦图像的特定部分，还可以使用手机版 ChatGPT 中的绘图工具，圈出某个位置。

这个例子是询问「如何降低自行车座」。同时使用了 ChatGPT 中的绘图工具，圈出某个位置，然后再进行提问。

再比如，在家中拍摄冰箱和食品储藏室的照片，来确定晚餐菜单，并询问详细的食谱。

也可以拍摄数学问题的照片、或者工作中数据的复杂图表，圈出问题，并与 ChatGPT 共同探讨解决方法。

此时脑海中飘过电视上之前经常播的一个广告：哪里不会点哪里~

三、语音交互功能

ChatGPT 的多模态，除了新增了「图像交互功能」外，还增加了「语音交互功能」。

用户可以使用语音与 ChatGPT 进行双向对话。

其实以前也是支持语音的，只不过是仅限于「听」

新的语音功能由新的「text-to-speech」模型驱动，能够从简短的样本语音中生成类似人类的音频。

但语音交互功能目前只在手机端可以使用。

如何使用呢？

在手机端应用中点「设置」→「新功能」，选择加入语音对话。

点击位于主屏幕右上角的耳机按钮，然后从 5 种不同的声音中选择喜欢的声音，就可以开始进行对话了。

语音功能可以用来做什么呢？

比如练习外语口语，让它充当你的外教老师。

再比旅途中与它交谈，让它充当我们的随身导游。

或者也可以用它来为家里小孩讲睡前故事，等等。

四、模型的局限性和风险

用户可能依赖 ChatGPT 处理专业话题，例如研究领域。不鼓励在没有适当验证的情况下使用高风险用例。
模型擅长转录英文文本，但在处理某些其他语言时表现不佳。

五、目前可用范围

目前 ChatGPT 多模态新增的图像和语音功能，只在 Plus 用户 和企业用户下可以使用。开发者和其他用户群体将在此后不久获得这些功能。
另外，语音功能只在 iOS 和 Android 上可以使用，而图像功能在网页和手机上均可使用。

六、结束语

随着技术的不断进步，我们正见证着人工智能领域的一次次重大突破。ChatGPT 的多模态功能，不仅为我们提供了与机器交流的新方式，还为我们打开了无尽的可能性。

通过语音、图像和文字的结合，我们可以更加直观、高效地与 AI 助手互动，从而更好地满足我们的日常需求。

正如 OpenAI 所展示的，未来的 AI 将不仅仅是文字和代码，而是一个能「看见」、「听到」并「说话」的实体。

关于 ChatGPT 多模态的图片功能和语音功能，感兴趣的可以移步官方进一步了解：

openai.com/blog/chatgp...

ChatGPT多模态升级，支持图片和语音，体验如何？

一、前言

二、图像交互功能

如何使用呢？

在生活中有哪些应用呢？

三、语音交互功能

如何使用呢？

语音功能可以用来做什么呢？

四、模型的局限性和风险

五、目前可用范围

六、结束语