如何使用 GPT-4o API 实现视觉、文本、图像等功能

引言

在积累了大量关于搜索引擎的炒作之后，OpenAI 发布了 ChatGPT-4o，这是其受到广泛好评的 ChatGPT-4 模型的升级版，并成为其旗舰产品 ChatGPT 的核心。这个改进版本在速度和性能上有显著提升，在文本、视觉和音频处理方面提供了增强的能力。这款创新模型将在包括 Free、Plus 和 Team 在内的各种 ChatGPT 计划中可用，并将集成到多个 API 中，例如 Chat Completions、Assistants 和 Batch。如果你想访问 GPT 4o API 来生成和处理视觉、文本等内容，那么这篇文章适合你。

什么是 GPT-4o？
GPT-4o API 能做什么？
推荐一个个人自用的GPT4o额度购买网站 2元=1美元额度：山玖API / ai.modelapi.site
如何使用 GPT-4o API 实现视觉和文本功能？
GPT-4o API 的优势和应用
总结

什么是 GPT-4o？

GPT-4o 是 OpenAI 最新和最强大的 AI 模型。这不仅仅是 AI 聊天机器人领域的又一步，而是一个具有突破性功能的飞跃，称为 多模态能力。

多模态能力

GPT-4o 可以无缝处理来自不同格式的信息，包括：

文本：进行对话、回答问题，生成创意性文本内容，如诗歌或代码。
音频：解析语音、分析音乐、情感识别等。
视觉：解析图像内容、描述场景，为图像分类或视频生成字幕。

优势

更自然的对话
增强的信息处理
广泛的新应用场景

如何升级GPT来使用GPT4o呢？

【GPT-4o使用教程绝对有用】24年12月最新GPT-4o使用指南GPT-4o使用教程 -- 智技AI

GPT-4o API 能做什么？

GPT-4o 的 API 释放了它在各种任务中的潜力，使其成为开发人员和用户的强大工具。

主要功能

聊天补全
图像和视频理解
音频处理
文本生成
代码补全
JSON 模式和函数调用

如何使用 GPT-4o API 实现视觉和文本功能？

1. 访问和身份验证

ini 复制代码

import openai
openai.api_key = "<Your API KEY>"

2. 聊天完成

ini 复制代码

response = openai.chat.completions.create(
  model="gpt-4o",
  messages=[
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Who won the world series in 2020?"},
    {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
    {"role": "user", "content": "Where was it played?"}
  ]
)
print(response.choices[0].message.content)

3. 图像处理

ini 复制代码

response = openai.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "What's in this image?"},
        {"type": "image_url", "image_url": {"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"}}
      ]
    }
  ],
  max_tokens=300,
)
print(response.choices[0])

4. 视频处理

ini 复制代码

import cv2
import base64
import time
from openai import OpenAI

client = OpenAI(api_key="<Your API KEY>")
video = cv2.VideoCapture("<Your Video Address>")
base64Frames = []
while video.isOpened():
    success, frame = video.read()
    if not success:
        break
    _, buffer = cv2.imencode(".jpg", frame)
    base64Frames.append(base64.b64encode(buffer).decode("utf-8"))
video.release()

PROMPT_MESSAGES = [
    {"role": "user", "content": ["These are frames from a video. Generate a compelling description.", *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::50])]},
]
params = {"model": "gpt-4o", "messages": PROMPT_MESSAGES, "max_tokens": 200}
result = client.chat.completions.create(**params)
print(result.choices[0].message.content)

5. 音频处理

ini 复制代码

from openai import OpenAI
client = OpenAI()
audio_file = open("/path/to/file/audio.mp3", "rb")
transcription = client.audio.transcriptions.create(
  model="whisper-1",
  file=audio_file
)
print(transcription.text)

6. 图像生成

ini 复制代码

from openai import OpenAI
client = OpenAI()
response = client.images.generate(
  model="dall-e-3",
  prompt="a man with big moustache and wearing long hat",
  size="1024x1024",
  quality="standard",
  n=1,
)
image_url = response.data[0].url

7. 音频生成

ini 复制代码

from pathlib import Path
from openai import OpenAI
client = OpenAI()
speech_file_path = Path("speech.mp3")
response = client.audio.speech.create(
  model="tts-1",
  voice="alloy",
  input="Data science is an interdisciplinary academic field..."
)
response.stream_to_file(speech_file_path)

GPT-4o API 的优势和应用

提高效率：自动化任务，加速数据分析，按需生成创意内容。
个性化体验：增强聊天机器人和教育工具。
打破沟通障碍：实时翻译、为视障用户描述图像。
促进 AI 创新：推动 AI 研究。

总结

GPT-4o 在 AI 领域是一次重大变革。它具备多模态能力，可以理解文本、音频和视觉内容。其 API 为开发者和用户提供了强大的工具，能够优化各种应用场景。随着 AI 技术的不断进步，GPT-4o 将进一步改变人们与技术互动的方式。