OpenAI系列模型介绍、API使用

概述

日常使用ChatGPT,也接触各种OpenAI系列模型,但对于他们的发布日期和功能定位,一直缺乏一个系统性地脉络梳理,本文记录一下。

时间线

以时间线方式从前往后梳理GPT系列模型,也是OpenAI最核心模型,专注于自然语言理解和生成。

  • GPT-1:发布于2018年6月,参数量约1.17亿,开创性地将Transformer架构应用于大规模无监督预训练+下游任务微调的范式;
  • GPT-2:发布于2019年2月,最大版本约15亿,展示LLM在零样本(zero-shot)学习上的惊人能力;
  • GPT-3:发布于2020年6月,参数量约1750亿,真正引爆大模型时代的巨作,展示前所未有的上下文学习(in-context learning)能力;
  • GPT-3.5:GPT-3系列重要迭代和优化,是ChatGPT(2022年11月发布)背后的初始模型。成本更低、推理速度更快,专为对话和指令遵循进行微调;包括GPT-3.5 Turbo
  • GPT-4:发布于2023年3月,第一个真正意义上的多模态大模型;
  • GPT-5:发布于2025年8月,系列最强模型。

多模态

ASR

OpenAI最经典的语音识别ASR模型,莫过于开源的Whisper,发布于2022年9月,能够将多种语言的语音转录为文本,并支持语音翻译,在噪声、口音等复杂环境下表现出色。

此外还有Transcribe(转录)两个模型

  • GPT-4o Transcribe:使用GPT-4o转录音频,与原始Whisper模型相比,降低单词错误率,并提高语言识别率和准确率,可获得更准确的转录;
  • GPT-4o mini Transcribe:使用GPT-4o mini转录音频。

TTS

文本转语音模型,参考TTS(上)TTS(下)

OpenAI API可使用的TTS模型包括3个:

  • TTS-1:1M Tokens要15刀;
  • TTS-1 HD:TTS-1的高质量版本,1M Tokens要30刀;
  • GPT-4o mini TTS:1M Tokens仅0.6刀;

Audio

同时具备ASR(语音转文本)和TTS(文本转语音)能力的模型,输入和输出都支持文本和音频,都支持函数调用(Function Calling,简称FC,调用外部API来执行操作)

系列包括:

  • GPT-4o Audio:官网能看到该模型是预览版(preview),支持流式(Streaming)输出
  • GPT-4o Mini Audio:预览版+经济版,支持流式(Streaming)输出;
  • GPT-Audio:是GPT-4o Audio的正式版;
  • GPT-Audio-Mini:正式版+经济版。

Realtime

同时具备ASR和TTS能力的模型,输入和输出都支持文本和音频,正式版模型输入还支持图片,都支持FC。

系列包括:

  • GPT-4o Realtime:预览版,也就是模型名称是gpt-4o-realtime-preview
  • GPT-4o mini Realtime:预览版+经济版本,模型名称为gpt-4o-mini-realtime-preview
  • GPT-Realtime:正式版,第一个通用实时模型,能够通过WebRTC、WebSocket或SIP连接实时响应音频和文本输入;
  • GPT-Realtime-Mini:GPT-Realtime的经济高效版。

模型对比

以及

可知正式版更便宜,性能更强,上下文窗口更大,还支持图片输入。

DALL·E

文生图模型,先后发布过3个版本:

  • DALL·E:发布于2021年1月,首个能根据文本描述生成高质量、多样化图像的模型,与CLIP同时发布;
  • DALL·E 2:发布于2022年4月,在DALL·E基础上,利用CLIP的文本编码器,实现了更高分辨率、更逼真、更可控的图像生成;
  • DALL·E 3:发布于2023年9月,深度集成到ChatGPT中,能更好地理解复杂、详细的提示词,并根据用户的反馈进行迭代修改。

除DALL·E系列外,还有GPT Image 1也是文生图模型,包括2个模型:

  • GPT-Image-1:价格和DALL·E有所不同
  • GPT-Image-1-Mini:经济版

Sora

发布于2024年2月15日的文生视频模型Sora,不再对外以API方式提供服务。

Sora 2发布于2025年9月30日,输入支持文本、图片,输出为音频和视频,包括

  • Sora 2:输出肖像分辨率为720x1280,风景为1280x720,每秒0.1刀;
  • Sora 2 Pro:输出肖像为720x1280,风景为1280x720,每秒0.3刀;输出肖像为1024x1792,风景为1792x1024,每秒0.5刀。

注:

  • Portrait:竖屏,画面比例为9:16,手机竖屏视频的标准格式,非常适合在Instagram Reels、YouTube Shorts等短视频平台上播放。手机正常自拍或拍摄人像时,就是这种模式;
  • Landscape:横屏,画面比例为16:9,传统电视、电脑显示器和YouTube长视频的标准高清(HD)格式。手机横过来拍视频,或用相机、摄像机拍摄时,通常就是这种模式。

用于实现深度搜索和深度研究(DeepResearch(上)),输入和输出都只支持文本,支持流式输出和结构化输出。

系列包括:

  • GPT-4o Search:预览版,支持流式输出和结构化输出;
  • GPT-4o mini Search:预览版+轻量级版,支持流式输出和结构化输出;
  • o3-deep-research:非预览版,输入支持图片,支持流式输出;
  • o4-mini-deep-research:非预览版,输入支持图片,支持流式输出;

o系列

包括:

  • o1-preview:推理模型,经过强化学习训练,可执行复杂的推理。在回答之前会先思考,在回应用户之前会产生一个很长的内部思维链。预览版,支持流式输出、结构化输出、FC,不再以API方式提供服务;
  • o1:正式版,支持图片输入、流式输出、结构化输出、FC;
  • o1-mini:正式版+经济版,支持流式输出,不再以API方式提供服务;
  • o3:功能全面且强大的跨领域模型。提供卓越的STEM(Science、Technology、Engineering、Mathematics)功能,尤其擅长科学、数学和编码;为数学、科学、编程和视觉推理任务树立新的标准,在技术写作和指令执行方面也表现出色。可用于文本、代码和图像分析的多步骤问题。支持图片输入、流式输出、结构化输出、FC;继任者为GPT-5;
  • o3-mini:支持函数调用、结构化输出、流式输出;三种推理努力选项(低、中、高);
  • o3-Pro:支持图片输入、结构化输出、FC;使用更多计算资源进行更深入的思考,并持续提供更优质的答案。旨在解决棘手问题,部分请求可能需要几分钟才能完成。为避免超时,请尝试使用后台模式;
  • o4-mini:推理模型,支持图片输入、流式输出、结构化输出、FC、微调;继任者为GPT-5 Mini;

GPT-4

系列包括:

  • GPT-4 Turbo:预览版,支持微调;
  • GPT-4:支持流式输出、微调;
  • ChatGPT-4o:在ChatGPT聊天Web端使用的模型,支持图片输入、流式输出、预测输出;
  • GPT-4o:o代表omni,是大多数任务的最佳模型,也是除o系列模型之外功能最强大的模型。支持图片输入、流式输出、预测输出、结构化输出、FC、微调、蒸馏;
  • GPT-4o mini:适用于专注型任务,非常适合进行微调,支持图片输入、流式输出、预测输出、结构化输出、FC、微调;
  • GPT-4.1:擅长指令跟踪和工具调用,拥有跨领域的广泛知识。拥有1M Token上下文窗口,无需推理步骤,延迟低。支持图片输入、流式输出、结构化输出、FC、微调、蒸馏。支持的工具:联网搜索、文件搜索、图片生成、代码解释、MCP;继任者是GPT-5;
  • GPT-4.1 Mini:GPT-4.1的更小、更快版本;支持图片输入、流式输出、结构化输出、FC、微调、预测输出;继任者是GPT-5 Mini;
  • GPT-4.1 Nano:相比于GPT-4.1和GPT-4.1 Mini,速度最快(推理能力最弱)、成本最省;擅长指令跟踪和工具调用,具有1M Token上下文窗口,无需推理步骤即可实现低延迟。支持图片输入、流式输出、结构化输出、FC、微调、预测输出。推荐使用GPT-5 Nano。

GPT-OSS

体验地址文档,OpenAI时隔多年开源的两个MoE模型:

  • GPT-OSS-20B:总参数为210亿,但启动参数仅为36亿。
  • GPT-OSS-120B:1170亿总参数,但每个Token仅启动51亿参数;

稀疏启动设计使得模型可保持强大效能,大幅降低运行成本。在注意力机制方面,两个模型都采用交替的密集和局部带状稀疏注意力模式,结合分组多查询注意力(分组大小为8),有效提升推论和存储器效率。原生支援128k上下文长度,并使用旋转位置嵌入(RoPE)进行位置编码,展现在长文本处理方面的优势。

在训练过程中未对模型的CoT进行任何直接监督,为监测模型的不当行为、欺骗和滥用提供可能。

在安全性方面,采用「最坏情况微调」评估方法,通过在专门的生物学和网络安全资料上对模型进行恶意微调,模拟攻击者可能采用的手段,研究团队发现即使经过广泛的恶意微调,这些模型仍无法达到其「防范准备框架」所定义的高能力水平。这一发现为开源模型的安全性提供重要的实证支撑。

特点:

  • 上下文长度皆为128k;
  • 可调节的推理强度:根据具体场景和延迟要求,灵活设置推理模式(低、中、高),实现性能与响应速度的平衡;
  • 完整的思维链输出:可访问模型完整的推理过程,有助于调试和提升对结果的信任(但并非面向终端用户展示);
  • 支持微调:可通过参数微调将模型深度定制为适配自身任务的专用版本;
  • 原生智能体能力:模型原生支持函数调用、网页浏览、Python代码执行以及结构化输出,具备智能体能力;
  • 原生MXFP4量化训练:MoE层采用MXFP4精度训练,GPT-OSS-120B可在单张H100上运行,GPT-OSS-20B可在16GB显存内运行,硬件友好,推理高效。

评测

GPT-OSS-120B在多个任务上超越o3-mini,并在竞赛编程(Codeforces)、通用问题解决(MMLU与HLE)、工具调用(TauBench)方面表现出色,与o4-mini持平甚至略有超越。在健康问答(HealthBench)和竞赛数学(AIME 2024与2025)任务中,GPT-OSS-120B的表现甚至优于o4-mini。

GPT-OSS-20B也在上述评测中达到或超过o3-mini的水平,在竞赛数学和健康任务上甚至实现反超。

GPT-5

系列模型:

  • GPT-5:当前最强模型,支持图片输入、流式输出、结构化输出、FC、蒸馏;支持工具:联网搜索、文件搜索、图片生成、代码解释、MCP;
  • GPT-5 Mini:速度略快(推理能力略弱)、成本略节省;
  • GPT-5 Nano:速度最快(推理能力最弱)、成本最省;
  • GPT-5 Pro:同o3-Pro(对于比o3)类似;
  • GPT-5-Codex:针对Codex(OpenAI推出的AI CLI工具)或类似环境中的代理编码任务进行优化,仅在Responses API中可用,底层模型快照将定期更新;
  • GPT-5 Chat:ChatGPT聊天应用后台使用的模型。

注:除GPT-5-Codex外,还有个Codex-Mini-Latest,是o4-mini微调版本,也用于Codex CLl,价格不一样。

引入Router,可以自动调用,实时判断请求难度、所需工具、延迟预算,自动在GPT-5(快)和GPT-5 thinking(深思)之间切换;额度用完还能降级到mini版。用户不用再手动选模型,像操作系统的线程调度器,把"算力/思考时间"当资源自动分配。

注重强任务分工,Instruction following & agentic tool use模块大幅升级,模型能把复杂请求拆成多步、跨多个外部工具(浏览器、代码沙箱、数据库等)协同完成。

安全机制成为平台内置的能力,而不只是模型被训练出的习惯。比如问一个危险的问题,之前GPT是拒绝回答,现在是部分回答你,解释原因并给出替代方案。

三方榜单

评测

  • HealthBench:OpenAI 2025年新建的真实病例基准;
  • HealthBench Hard:一个子集
  • GPQA Pro:高阶科学
  • Humanity's Last Exam (Full Set):跨学科难题的终极闭卷基准
  • LongFact & FActScore:开放事实检索基准;GPT-5 thinking 幻觉率约为o3的六分之一。
  • Sycophancy Eval:奉承/过度认同率从14.5%→<6%,聊天风格更客观。
  • Deception Stress-Test:误导性/虚假完成率4.8%→2.1%,更诚实可靠。
  • Economically-Important Tasks(OpenAI内部):覆盖40+职业,约50%任务与专家持平或更好,显著领先o3与ChatGPT Agent。
  • SWE-bench Verified:软件工程领域,Bug修复
  • MMMU:多模态领域;大学级别的视觉逻辑题,相当于让模型看图说理;
  • AIME:美国奥数入门级竞赛题,专门考长链条数学推理能力
  • CharXiv:多模态基准
  • Aider Polyglot:多语言代码编辑任务。

新增4个官方人格Personas(Cynic毒舌、Robot机器人、Listener倾听者、Nerd)

复制代码
复制代码

embedding

参考Embedding入门概述

OpenAI Embedding模型演进史

  • text-embedding-ada-002:发布于2022年12月。一个里程碑式的模型,用单一模型取代此前五个独立专用嵌入模型(如text-similarity-ada-001等),极大简化开发者选择;性能强大、价格低廉;迅速成为行业事实上的标准。
  • text-embedding-3:最新模型,在性能、多语言支持和灵活性上实现巨大飞跃,包括text-embedding-3-small和text-embedding-3-large。引入核心功能:可调节的输出维度。用户可通过API参数dimensions将向量长度动态缩减(如large模型可缩减至256维,small模型可缩减至512维),在几乎不损失性能的前提下,大幅节省存储和计算开销。

API

网络上随处可见的OpenAI Python库的使用,略过。

参数Verbosity:可控制模型响应输出的长度,分为low、medium、high。

py 复制代码
response = client.responses.create(
	model="gpt-5-mini",
	input=question,
	text={"verbosity": verbosity}
)

Free-Form:函数调用,GPT-4中传递给各种工具是JSON数据,现在可以传递原始文本,如Python代码、SQL查询、Shell命令等。

py 复制代码
response = client.responses.create(
	model="gpt-5-mini",
	input="Please use the code_exec tool to calculate the cube of the number of vowels in the word 'pineapple'",
	text={"format": {"type": "text"}},
	tools=[{
		"type": "custom",
		"name": "code_exec",
		"description": "Executes arbitrary python code",
	}]
)

输出为可执行的Python代码。

Context-Free Grammar:CFG,通过CFG可确保模型输出符合编程语言、数据格式、其他结构化文本的语法规则,比如确保输出的Python代码没有语法错误等。

py 复制代码
email_regex = r"^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}$"
prompt = "Give me a valid email address for John Doe. It can be a dummy email"
response = client.responses.create(
	model="gpt-5", # grammar-constrained model
	input=prompt,
	text={"format": {"type": "text"}},
	tools=[{
		"type": "custom",
		"name": "email_grammar",
		"description": "Outputs a valid email address.",
		"format": {
			"type": "grammar",
			"syntax": "regex",
			"definition": email_regex
		}
	}],
	parallel_tool_calls=False
)
print("GPT-5 Output:", response.output[1].input)

最小化推理:最小化推理模式可减少API调用成本,加快响应速度,比如数据提取、格式化等任务。

py 复制代码
response = client.responses.create(
	reasoning={
		"effort": "minimal"   
	}
)

参考

相关推荐
NAGNIP8 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab10 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab10 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP13 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年13 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼14 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS14 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区15 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈15 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang16 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx