如何使用 OpenAI API 构建Agents

Agents

学习如何使用 OpenAI API 构建智能体 (Agents)。

原文

智能体 (Agents) 表示能够智能完成任务的系统,范围可以从执行简单的工作流到追求复杂的、开放式的目标。

OpenAI 提供了一套 丰富且可组合的原语 (primitives),使你能够构建智能体。本指南将逐步讲解这些原语,以及它们如何组合在一起,形成一个健壮的智能体平台。


概览

构建智能体涉及多个领域的组件组合,例如 模型、工具、知识与记忆、音频与语音、安全防护 (guardrails)、编排 (orchestration) ------ OpenAI 为每个领域都提供了可组合的原语。

领域 描述 OpenAI 原语
模型 (Models) 智能核心,具备推理、决策和处理多模态的能力。 o1, o3-mini, GPT-4.5, GPT-4o, GPT-4o-mini
工具 (Tools) 与外部世界交互的接口:环境交互、函数调用、内置工具等。 函数调用、Web 搜索、文件搜索、电脑操作
知识与记忆 (Knowledge and memory) 让智能体拥有外部和持久化知识。 向量存储、文件搜索、Embeddings
音频与语音 (Audio and speech) 创建能理解音频并以自然语言回应的智能体。 音频生成、实时、语音代理
安全防护 (Guardrails) 防止无关、有害或不理想的行为。 审核、指令层级 (Python)、指令层级 (TypeScript)
编排 (Orchestration) 开发、部署、监控并改进智能体。 Python Agents SDK、TypeScript Agents SDK、Tracing、评估、微调
语音智能体 (Voice agents) 创建能理解语音并以自然语言回应的智能体。 Realtime API、Python Agents SDK 语音支持、TypeScript Agents SDK 语音支持

模型 (Models)

模型 智能体优势
o3 和 o4-mini 最适合长期规划、困难任务和复杂推理。
GPT-4.1 最适合智能体执行。
GPT-4.1-mini 在能力与延迟之间有良好平衡。
GPT-4.1-nano 最适合低延迟场景。

大型语言模型 (LLM) 是许多智能体系统的核心,负责决策和与世界交互。OpenAI 的模型支持广泛的能力:

  • 高智能: 能够进行推理和规划,以应对最困难的任务。
  • 工具调用: 支持调用你的函数,并利用 OpenAI 的内置工具
  • 多模态: 原生理解文本、图像、音频、代码和文档。
  • 低延迟: 支持实时音频对话,以及更小、更快的模型。

详细的模型对比,请访问 models 页面。


工具 (Tools)

工具让智能体能够与外部世界交互。OpenAI 支持 函数调用,可连接你的代码;同时支持 内置工具,用于常见任务,如网页搜索和数据检索。

工具 描述
函数调用 与开发者定义的代码交互。
Web 搜索 获取最新的互联网信息。
文件搜索 在文档中进行语义搜索。
电脑操作 理解并控制计算机或浏览器。
本地 Shell 在本地机器上执行命令。

知识与记忆 (Knowledge and memory)

知识和记忆帮助智能体存储、检索并利用超出初始训练数据的信息。

  • 向量存储 让智能体在运行时对你的文档进行语义搜索并检索相关信息。
  • Embeddings 高效表示数据以便快速检索,为动态知识解决方案和长期记忆提供支持。

你可以通过 OpenAI 的 向量存储Embeddings API 集成你的数据。


安全防护 (Guardrails)

安全防护确保你的智能体在生产环境中行为安全、一致,并且在你预期的范围内。


编排 (Orchestration)

构建智能体是一个过程。OpenAI 提供了工具,帮助你有效地构建、部署、监控、评估并改进智能体系统。

阶段 描述 OpenAI 原语
构建与部署 使用 Agents SDK 快速构建智能体、实施安全防护,并处理对话流程。 Agents SDK Python, Agents SDK TypeScript
监控 实时观察智能体行为、调试问题,并通过追踪获取洞察。 Tracing
评估与改进 衡量智能体表现,识别改进空间,并持续优化。 Evaluations, Fine-tuning

快速开始 (Get started)

Python

bash 复制代码
pip install openai-agents

查看文档 更多关于如何使用 Python Agents SDK 的信息。

查看 Python 仓库 这是一个开源库,包含实现细节和示例。


TypeScript/JavaScript

bash 复制代码
npm install @openai/agents

查看文档 更多关于如何使用 TypeScript Agents SDK 的信息。

查看代码 这是一个开源库,包含实现细节和示例。

相关推荐
阿湯哥13 小时前
基于MCP协议的LLM-Agent数据流转与业务实现详解
llm·框架·agent·mcp·分工
职业码农NO.114 小时前
智能体推理范式: Plan-and-Execute(规划与执行)
人工智能·python·数据分析·系统架构·知识图谱·agent·集成学习
大千AI助手18 小时前
基于OpenAPI生成的 SDK 的工业级和消费级概念区别
人工智能·python·机器学习·openai·代码生成·openapi·大千ai助手
KG_LLM图谱增强大模型1 天前
【102页最新综述】AI智能体时代的记忆系统:形式、功能与知识图谱长记忆动态机制全景解析
大数据·人工智能·agent
小时前端1 天前
谁说 AI 历史会话必须存后端?IndexedDB方案完美翻盘
前端·agent·indexeddb
sdguy1 天前
在 Windows 上正确安装 OpenAI Codex CLI:一次完整的 pnpm 全局环境修复实录
后端·openai
沛沛老爹1 天前
Web开发者进阶AI Agent:LangChain提示词模板与输出解析器实战
人工智能·ai·langchain·llm·agent·提示词·web转型
lpfasd1232 天前
多模态多Agent智能助手系统完整方案汇总
语言模型·agent·多模态
沛沛老爹2 天前
Web开发者快速上手AI Agent:提示词应用优化实战
人工智能·ai·agent·提示词·rag·入门知识
机器之心2 天前
T5Gemma模型再更新,谷歌还在坚持编码器-解码器架构
人工智能·openai