GPT-4 Vision | 指北教程

⚡ OpenAI推出GPT-4 Vision


本文将向您介绍有关 GPT-4 Vision 的所有信息,从访问它到动手进入现实世界的示例,以及它的局限性。


😘 Contents

[TOC]

1️⃣ 什么是 GPT-4 Vision

  • GPT-4 Vision,通常缩写为 GPT-4V,是 OpenAI 高级模型 GPT-4 的一项创新功能。GPT-4V 于 2023 年 9 月推出,使 AI 能够解释视觉内容和文本。GPT-4 以其增强的视觉能力给人留下深刻印象,为用户提供更丰富、更直观的交互体验。
  • GPT-4V 模型使用带有预训练组件的视觉编码器进行视觉感知,将编码的视觉特征与语言模型对齐。GPT-4 建立在复杂的深度学习算法之上,使其能够有效地处理复杂的视觉数据。
  • 有了这款具有视觉功能的 GPT-4,您现在可以分析图像输入并开辟人工智能研发可能性的新世界。将图像功能整合到 AI 系统(尤其是大型语言模型)中,标志着 AI 的下一个前沿领域,为突破性应用解锁了新颖的界面和功能。这为与机器进行更直观、更类似人类的交互铺平了道路,标志着向全面理解文本和视觉数据迈出了一大步。
  • 简单来说,GPT-4V 允许用户上传图像作为输入并询问有关图像的问题,这种任务类型称为视觉问答 (VQA)。想象一下,与一个不仅会听你说什么,还会观察和分析你展示的图片的人交谈。这就是适合你的 GPT-4V。

2️⃣ GPT-4 Vision 如何工作

GPT-4V 于 2022 年接受训练,具有独特的理解图像的能力,而不仅仅是识别物体。它查看来自互联网和其他来源的大量图像,类似于在阅读标题时翻阅巨大的相册。它理解上下文、细微差别和微妙之处,使其能够像我们一样看待世界,但具有机器的计算能力。

主要功能

  • 多模态处理: GPT-4 Vision 可以处理文本和图像输入,使您能够参与有关图像的交互式对话,并利用模型的知识库生成基于视觉内容的创意文本格式。
  • 图像分析和理解: GPT-4 Vision 可以分析和理解图像内容,提供描述、识别对象,甚至解释场景。此功能为图像分类、对象检测和视觉内容审核提供了可能性。
  • 创意文本生成: GPT-4 Vision 可以根据图像生成创意文本格式,包括诗歌、代码、脚本、音乐作品、电子邮件、信件等。此功能使作家、艺术家和设计师能够探索新的创作可能性。
  • 跨语言翻译: GPT-4 Vision可以翻译图像中的文本,打破语言障碍,促进不同文化和语言之间的沟通。

训练和机制

  • GPT-4V 利用先进的机器学习技术来解释和分析视觉和文本信息。它的实力在于它对庞大数据集的训练,其中不仅包括文本,还包括来自互联网各个角落的各种视觉元素。

  • 训练过程结合了强化学习,增强了 GPT-4 作为多模态模型的能力。

  • 但更有趣的是两阶段的训练方法。最初,该模型已准备好掌握视觉语言知识,确保它理解文本和视觉之间的复杂关系。

  • 在此之后,先进的人工智能系统对更小、更高质量的数据集进行微调。这一步对于提高其生成的可靠性和可用性至关重要,确保用户获得最准确和最相关的信息。

3️⃣ 动手实践

GPT-4 Vision 目前(截至 2023 年 10 月)仅适用于 ChatGPT Plus 和企业用户。ChatGPT Plus 每月收费 20 美元,可以从您的常规免费 ChatGPT 帐户升级到。

访问 GPT-4 Vision 的方法:

  • 访问 OpenAI ChatGPT 网站并注册一个帐户。
  • 登录您的帐户并导航到"升级到Plus"选项。
  • 继续升级以获得 ChatGPT Plus 的访问权限(注意:这是每月 20 美元的订阅费)
  • 在聊天窗口中选择"GPT-4"作为您的模型,如下图所示。
  • 点击图片图标上传图片,并添加提示,指示 GPT-4 执行。

4️⃣ GPT-4 Vision 真实世界的用例和示例

1. 学术研究

GPT-4 Vision 将高级语言建模与视觉功能相结合,为学术领域开辟了新的可能性,尤其是在破译历史手稿方面。传统上,这项任务是由熟练的古文字学家和历史学家进行的细致而耗时的工作。

我们首先给出一张图片,它似乎是一篇旧报纸文章的一部分:

GPT-4 Vision 在读取图像内容和解释图像方面做得很好:

该模型能够读取、破译内容并提供分析,同时提供现实的答案,即图像的某些部分被截断和遮挡。

2. 网站开发

GPT-4 愿景可以在提供所需设计的视觉图像时为网站编写代码。它从视觉设计到网站的源代码。该模型的这种单一功能可以大大减少构建网站所需的时间。

让我们用手绘的简单设计来提示 GPT-4 Vision,用于博客网站。

一旦它提供了源代码,我们只需按照说明复制粘贴并创建 HTML 和 CSS 文件。以下是该网站的外观:

它看起来不是惊人的相似吗?当然,我们举了一个简单的例子,但你可以从这里开始,在很短的时间内开发一个更复杂和量身定制的网站,这要归功于新引入的 GPT-4 Vision 模型。

3. 数据解读

该模型能够分析数据可视化,以解释基础数据,并基于可视化提供关键见解。为了测试这个功能,我们可以简单地给出一个图并征求见解。

虽然它在理解绘图的整体上下文和线性趋势方面做得很好,但它将起始年份提到为 1950 年会出错,尽管数据点仅从 1960 年开始。该模型还推导出人口增长和经济发展等因素------虽然它们可能是正确的,但这些见解不能仅从这张特定的图表中得出。

人们可以提出多个后续问题来完善 GPT-4 Vision 模型的初始输出。根据我们的测试,仍然需要人工参与来审查见解,并且该模型可以提高数据解释用例的生产力。

4.创意内容创作

随着 ChatGPT 的出现,社交媒体上充斥着各种提示工程技术,许多人发现了令人惊讶的创造性方法来利用生成技术来发挥自己的优势。

在本教程中,我们将使用 DALL-E-3(在 ChatGPT Plus 中也可用)和 GPT-4 Vision,创造性地创建社交媒体帖子。

  • 第 1 步:让 GPT-4 创建生成图像的提示。假设你想创建一个帖子,对比初创公司和公司数据科学家角色之间的差异。
  • 第 2 步:使用提示符并从 DALL-E 生成图像。您可以调整和完善提示,直到您对输出感到满意为止。
  • 第 3 步:使用图像并要求 GPT-4 Vision 创建一个与图像并排的帖子。

通过调整和提供更详细的提示,可以获得更好的输出,并可以进一步探索创意内容的生成。值得注意的是,不建议在互联网或社交媒体上发送带有 AI 生成内容的垃圾邮件,因为这些内容有其自身的局限性。相反,用你自己的经验进行事实核查和完善。

当然,这并不是一个可能的用例的详尽列表------GPT-4 Vision 具有更多功能。相反,将其视为通过将技术应用于您选择的领域来探索您的好奇心的灵感和起点。

5️⃣ GPT-4 Vision 的局限性和降低风险

因为自 2023 年 3 月推出 GPT-4 以来,OpenAI 自己又花了几个月的时间,通过内部和外部的"红队"练习对其进行测试,以确定这种生成技术的缺点,他们在系统卡中概述了这些缺点。

1.准确性和可靠性

虽然 GPT-4 模型代表了可靠性和准确性的重大进步,但情况并非总是如此。根据 OpenAI 的说法,根据内部测试,GPT-4 Vision 有时仍然可能不可靠和不准确。该团队甚至提到"ChatGPT 可能会犯错误。

2. 隐私和偏见问题

根据 OpenAI 的说法,与其前辈类似,GPT-4 Vision 继续强化社会偏见和世界观,包括对某些边缘化群体的有害刻板印象和贬低性联想。因此,重要的是要了解这一限制并采取其他必要步骤来处理用例本身的偏差,而不是依赖模型来解决它。

除了偏见问题外,与 ChatGPT 共享的数据还可用于训练模型,除非选择退出;因此,请务必注意不要与模型共享任何敏感或私人信息。用户还可以通过进入"设置和测试版"部分下的"数据控件"来选择不共享数据以改进模型。

3. 限制执行危险任务

GPT-4 Vision 无法回答要求识别图像中特定个体的问题。这是设计上预期的"拒绝"行为。此外,OpenAI 建议不要在高风险任务上使用 GPT-4 Vision,其中包括:

  • 科学能力:模型可能会遗漏文本或字符,忽略提供科学信息的图像中的数学符号,并且无法识别空间位置和颜色映射。
  • 医疗建议:该模型有时会为基于医学成像的问题提供正确的答案,但有时会为同一问题提供动摇。如果回答不一致,则不应依赖模型的答案或输出来代替专业医疗建议。
  • 虚假信息风险:据说人们在附有图像时会相信陈述(与它们是否真实无关)。该模型可用于生成为图像输入量身定制的合理、逼真和有针对性的文本内容,因此具有虚假信息风险。
  • 仇恨内容:在某些情况下,该模型拒绝回答带有仇恨符号和极端主义内容的问题,但情况并非总是如此。对于OpenAI来说,这仍然是一个具有挑战性的问题。

因此,作为用户,我们需要在负责任地使用 GPT-4 Vision 时保持警惕,尤其是在上述高风险任务和敏感环境中。

6️⃣ GPT-4 Vision API调用

  • 如果您本地有一个图像或一组图像,则可以将它们以 Base 64 编码格式传递给模型
python 复制代码
import os
import requests
import base64
 
# Configuration
GPT4V_KEY = "YOUR_API_KEY"
encoded_image = base64.b64encode(open(IMAGE_PATH, 'rb').read()).decode('ascii')
headers = {
    "Content-Type": "application/json",
    "api-key": GPT4V_KEY,
}
 
# Payload for the request
payload = {
  "messages": [
    {
      "role": "system",
      "content": [
        {
          "type": "text",
          "text": "You are an AI assistant that helps people find information."
        }
      ]
    }
  ],
  "temperature": 0.7,
  "top_p": 0.95,
  "max_tokens": 800
}
 
GPT4-V_ENDPOINT = "https://xx.openai.azure.com/openai/deployments/gpt-4-vision-preview/chat/completions?api-version=2023-07-01-preview"
 
# Send request
try:
    response = requests.post(GPT4-V_ENDPOINT, headers=headers, json=payload)
    response.raise_for_status()  # Will raise an HTTPError if the HTTP request returned an unsuccessful status code
except requests.RequestException as e:
    raise SystemExit(f"Failed to make the request. Error: {e}")
 
# Handle the response as needed (e.g., print or process)
print(response.json())

🤝 Thank you

❤️ 每周免费分享AIGC相关最新资讯,感兴趣可以关注,喜欢动动小手点个赞,谢谢支持!

相关推荐
ChoSeitaku24 分钟前
链表循环及差集相关算法题|判断循环双链表是否对称|两循环单链表合并成循环链表|使双向循环链表有序|单循环链表改双向循环链表|两链表的差集(C)
c语言·算法·链表
Fuxiao___33 分钟前
不使用递归的决策树生成算法
算法
我爱工作&工作love我38 分钟前
1435:【例题3】曲线 一本通 代替三分
c++·算法
白-胖-子1 小时前
【蓝桥等考C++真题】蓝桥杯等级考试C++组第13级L13真题原题(含答案)-统计数字
开发语言·c++·算法·蓝桥杯·等考·13级
workflower1 小时前
数据结构练习题和答案
数据结构·算法·链表·线性回归
好睡凯1 小时前
c++写一个死锁并且自己解锁
开发语言·c++·算法
Sunyanhui11 小时前
力扣 二叉树的直径-543
算法·leetcode·职场和发展
一个不喜欢and不会代码的码农2 小时前
力扣105:从先序和中序序列构造二叉树
数据结构·算法·leetcode
前端郭德纲2 小时前
浏览器是加载ES6模块的?
javascript·算法
SoraLuna2 小时前
「Mac玩转仓颉内测版10」PTA刷题篇1 - L1-001 Hello World
算法·macos·cangjie