tl;dr:GET、PUT、PROMPT。现在,可以使用新的 PromptObject API 仅使用自然语言对存储在 MinIO 上的对象进行总结、交谈和提问。在本文中,我们将探讨这个新 API 的一些用例以及代码示例。
赋予动机:
对象存储和 S3 API 的无处不在在很大程度上可以归功于其始终如一的简单性。简单性扩展。当 S3 API 于 2006 年向世界推出时,它永远改变了开发人员及其应用程序与数据交互的方式。存储被简化为两个词:GET 和 PUT。通过简单的 REST API,开发人员可以突然利用未来几十年的爆炸式增长的数据量。18 年后,我们面临着一个新的但有趣的挑战。用户和应用程序需要越来越多地使用自然语言来与爆炸式增长的多模态数据进行交互。如果这种新型交互变得像存储和检索对象本身一样简单,那会怎样?输入 PromptObject。
此功能作为一个简单的函数公开,可以使用您选择的客户端 SDK 调用。例如, minio_client.prompt_object(bucket, object, prompt, *kwargs)
在 Python 或 minioClient.PromptObject(bucket, object, prompt, options)
Go 中。
要更深入地了解 API 和好处,请务必查看简介博客文章。本文的其余部分将介绍一些真实世界的示例,说明当可以编程方式提示对象时会发生什么。
PromptObject 在野外:
PromptObject 的动机主要是对真实世界用例和应用程序类型的想象,使用这样的 API 可以更轻松地构建这些用例和应用程序类型。以下是一些:
文档问答
对象存储是非结构化数据(如长 PDF、文档和幻灯片)的所在地。现在,可以使用简单的客户端 SDK 函数对冗长而复杂的文档提出问题。例如,回答用户上传文档问题的聊天机器人应用程序只需使用用户的问题和文档调用 PromptObject,然后返回答案。无需自定义 OCR、内存 RAG 或 LLM 消息构造。只需初始化 MinIO 客户端,像为 GetObject 或 PutObject 指定对象一样指定对象,然后提供提示:
from minio import Minio
client = Minio(
<MINIO_HOST>,
access_key=...,
secret_key=...,
secure=...,
)
client.prompt_object(
"my-bucket",
"Supermicro-server-Sys-1029p-n32r.docx",
prompt="How would I install a Non-F model processor into the processor carrier?",
)
针对多个任意对象的问题解答
PromptObject 公开一个名为 supporting_objects 的参数,该参数可以接受任意对象、URL、文本和二进制数据 (!) 的列表作为 PromptObject 调用的附加上下文。这对于需要综合来自许多不同来源的信息的自动化任务特别有用。例如,在前面的示例的基础上,想象一下构建一个 AI 执行研究助理,它可以代理地搜索 Web,从对象存储中获取相关对象,并从用户的笔记中获取内容。一旦收集了正确的数据源,应用程序必须能够回答其中的问题。无需构建自定义工具来支持任意文件类型,最重要的是,将所有这些文件下载到应用程序内存中进行广泛的预处理,只需将键或 URL 形式的"指针"(如果需要,还可以发送实际对象)到 PromptObject 进行理解和问答。下面是它可能的样子:
# Question Answering with Supporting Objects
client.prompt_object(
bucket_name="my-bucket",
object_name="2024ReportAboutAI.pdf",
prompt="Based only on the provided context, which US state has the most\ data center construction? Furthermore, which global region is investing\ the most in data center construction?",
supporting_objects=[
"https://market.us/wp-content/uploads/2022/12/Data-Center-Construction-Market-Region.jpg",
client.presigned_get_object("my-bucket", "LastYearsReportAboutAI.pdf"),
"According to global consultancy McKinsey & Co., U.S. market demand is\ expected to double to 35 gigawatts (GW) by 2030, up from 17 GW in 2022. As of 2023, the U.S. accounts for roughly 40 percent of the global market.",
base64.b64encode(some_pdf_file.read()).decode('utf-8'), # bytes as base64
]
)
请注意所使用的各种支持对象源。(1) Web 上的 URL,(2) MinIO 上另一个对象的预签名 URL,(3) 文本,(4) 某些文件的字节(以 base64 字符串表示)
卫星图像分析
存储图像通常是为了执行分析任务,例如识别、分类或某种解析。例如,假设有一个应用程序,它可以从大量卫星图像中自动检测飞机。现在,您可以在指向所需图像的"指针"(存储桶和对象名称)上请求自然语言提示,例如"此卫星图像中可以看到多少架飞机",而不是让您的应用程序软件承担下载这些对象和构建推理请求的负担,并简单地使用答案:
# Satellite Image Analysis
client.prompt_object(
bucket_name="my-bucket",
object_name="patch_18.png",
prompt="How many aircraft are visible in this satellite image?"
)
现在让我们尝试一个稍微高级一点的示例,使用我们之前学习的 supporting_objects
参数:
前面,我们了解了如何使用 supporting_objects 向 PromptObject
调用添加更多上下文。假设卫星图像分析应用程序的用户希望能够提供他们感兴趣的特定飞机的参考图像,而不是检测任何和所有飞机。使用 supporting_objects 和 PromptObject
,现在只需几行代码即可实现。现在,我们可以提供感兴趣飞机的图像,并调整提示,以便在分析之前的相同卫星图像时相应地留意该特定飞机:
# Advanced Satellite Image Analysis
client.prompt_object(
bucket_name="my-bucket",
object_name="patch_18.png",
prompt="Based on the image of the reference aircraft, can you count how many of the same type of aircraft are present in the satellite image? Where on the image is it? Pay close attention to the reference aircraft in order to identify the same type of aircraft in the satellite image.",
supporting_objects=[
"https://i.pinimg.com/736x/51/f4/6b/51f46b63879237f7e932601070a8525a.jpg"
],
)
来自非结构化数据的结构化答案
我个人最喜欢的功能是能够从非结构化数据(如图像)中获得结构化答案。如果您的应用程序依赖于 PromptObject 输出遵循特定架构的答案,则也可以强制执行该操作。例如,应用程序的任务可能是识别工厂车间图像中存在的不同汽车,然后将该结果传递给另一个服务。在这种情况下,遵循已知架构的结构化答案比仅使用自然语言的答案更可取。执行此操作的最佳方法是将 JSON 架构传递给 PromptObject 调用。在 Python 中,为了让事情变得更简单,我们可以使用 Pydantic 为结果定义一个模型类,并从中生成一个 JSON 模式,如下所示:
from pydantic import BaseModel, Field
from typing import List
# Answer Structured Query on Factory Floor Image Capture
class Car(BaseModel):
"""The structured description of a car ."""
color: str = Field(..., description="Color of the car.")
count: int = Field(..., description="Number of cars of this color.")
class Cars(BaseModel):
cars: List[Car] = Field(..., description="List of distinct cars in the image and their counts.")
client.prompt_object(
"my-bucket",
"SNAPSHOT_028393.png",
prompt="Count the number of cars by color. Provide your answer with the provided JSON schema.",
extra_body={"guided_json": Cars.model_json_schema()}
)
在此示例中,我们使用 extra_body 和 guided_json 传递所需的 JSON 架构。extra_body 是转发到语言模型推理服务器的 kwarg。根据您使用的推理服务器,此规范可能会有所不同。PromptObject 支持所有这些 PromptObject 。
结束语
从根本上说,Prompt API 是为了让您的应用程序、代理和用户比以往任何时候都更容易与数据交互。使用 PromptObject 可以构建的内容实际上只受您的想象力的限制。在这篇文章中,我们只探讨了几个用例,希望这些用例能让您思考如何在自己的出色 AI 应用程序和项目中利用此 API。我们期待看到您构建的内容!