OpenAI系列模型介绍、API使用

概述

日常使用ChatGPT,也接触各种OpenAI系列模型,但对于他们的发布日期和功能定位,一直缺乏一个系统性地脉络梳理,本文记录一下。

时间线

以时间线方式从前往后梳理GPT系列模型,也是OpenAI最核心模型,专注于自然语言理解和生成。

  • GPT-1:发布于2018年6月,参数量约1.17亿,开创性地将Transformer架构应用于大规模无监督预训练+下游任务微调的范式;
  • GPT-2:发布于2019年2月,最大版本约15亿,展示LLM在零样本(zero-shot)学习上的惊人能力;
  • GPT-3:发布于2020年6月,参数量约1750亿,真正引爆大模型时代的巨作,展示前所未有的上下文学习(in-context learning)能力;
  • GPT-3.5:GPT-3系列重要迭代和优化,是ChatGPT(2022年11月发布)背后的初始模型。成本更低、推理速度更快,专为对话和指令遵循进行微调;包括GPT-3.5 Turbo
  • GPT-4:发布于2023年3月,第一个真正意义上的多模态大模型;
  • GPT-5:发布于2025年8月,系列最强模型。

多模态

ASR

OpenAI最经典的语音识别ASR模型,莫过于开源的Whisper,发布于2022年9月,能够将多种语言的语音转录为文本,并支持语音翻译,在噪声、口音等复杂环境下表现出色。

此外还有Transcribe(转录)两个模型

  • GPT-4o Transcribe:使用GPT-4o转录音频,与原始Whisper模型相比,降低单词错误率,并提高语言识别率和准确率,可获得更准确的转录;
  • GPT-4o mini Transcribe:使用GPT-4o mini转录音频。

TTS

文本转语音模型,参考TTS(上)TTS(下)

OpenAI API可使用的TTS模型包括3个:

  • TTS-1:1M Tokens要15刀;
  • TTS-1 HD:TTS-1的高质量版本,1M Tokens要30刀;
  • GPT-4o mini TTS:1M Tokens仅0.6刀;

Audio

同时具备ASR(语音转文本)和TTS(文本转语音)能力的模型,输入和输出都支持文本和音频,都支持函数调用(Function Calling,简称FC,调用外部API来执行操作)

系列包括:

  • GPT-4o Audio:官网能看到该模型是预览版(preview),支持流式(Streaming)输出
  • GPT-4o Mini Audio:预览版+经济版,支持流式(Streaming)输出;
  • GPT-Audio:是GPT-4o Audio的正式版;
  • GPT-Audio-Mini:正式版+经济版。

Realtime

同时具备ASR和TTS能力的模型,输入和输出都支持文本和音频,正式版模型输入还支持图片,都支持FC。

系列包括:

  • GPT-4o Realtime:预览版,也就是模型名称是gpt-4o-realtime-preview
  • GPT-4o mini Realtime:预览版+经济版本,模型名称为gpt-4o-mini-realtime-preview
  • GPT-Realtime:正式版,第一个通用实时模型,能够通过WebRTC、WebSocket或SIP连接实时响应音频和文本输入;
  • GPT-Realtime-Mini:GPT-Realtime的经济高效版。

模型对比

以及

可知正式版更便宜,性能更强,上下文窗口更大,还支持图片输入。

DALL·E

文生图模型,先后发布过3个版本:

  • DALL·E:发布于2021年1月,首个能根据文本描述生成高质量、多样化图像的模型,与CLIP同时发布;
  • DALL·E 2:发布于2022年4月,在DALL·E基础上,利用CLIP的文本编码器,实现了更高分辨率、更逼真、更可控的图像生成;
  • DALL·E 3:发布于2023年9月,深度集成到ChatGPT中,能更好地理解复杂、详细的提示词,并根据用户的反馈进行迭代修改。

除DALL·E系列外,还有GPT Image 1也是文生图模型,包括2个模型:

  • GPT-Image-1:价格和DALL·E有所不同
  • GPT-Image-1-Mini:经济版

Sora

发布于2024年2月15日的文生视频模型Sora,不再对外以API方式提供服务。

Sora 2发布于2025年9月30日,输入支持文本、图片,输出为音频和视频,包括

  • Sora 2:输出肖像分辨率为720x1280,风景为1280x720,每秒0.1刀;
  • Sora 2 Pro:输出肖像为720x1280,风景为1280x720,每秒0.3刀;输出肖像为1024x1792,风景为1792x1024,每秒0.5刀。

注:

  • Portrait:竖屏,画面比例为9:16,手机竖屏视频的标准格式,非常适合在Instagram Reels、YouTube Shorts等短视频平台上播放。手机正常自拍或拍摄人像时,就是这种模式;
  • Landscape:横屏,画面比例为16:9,传统电视、电脑显示器和YouTube长视频的标准高清(HD)格式。手机横过来拍视频,或用相机、摄像机拍摄时,通常就是这种模式。

用于实现深度搜索和深度研究(DeepResearch(上)),输入和输出都只支持文本,支持流式输出和结构化输出。

系列包括:

  • GPT-4o Search:预览版,支持流式输出和结构化输出;
  • GPT-4o mini Search:预览版+轻量级版,支持流式输出和结构化输出;
  • o3-deep-research:非预览版,输入支持图片,支持流式输出;
  • o4-mini-deep-research:非预览版,输入支持图片,支持流式输出;

o系列

包括:

  • o1-preview:推理模型,经过强化学习训练,可执行复杂的推理。在回答之前会先思考,在回应用户之前会产生一个很长的内部思维链。预览版,支持流式输出、结构化输出、FC,不再以API方式提供服务;
  • o1:正式版,支持图片输入、流式输出、结构化输出、FC;
  • o1-mini:正式版+经济版,支持流式输出,不再以API方式提供服务;
  • o3:功能全面且强大的跨领域模型。提供卓越的STEM(Science、Technology、Engineering、Mathematics)功能,尤其擅长科学、数学和编码;为数学、科学、编程和视觉推理任务树立新的标准,在技术写作和指令执行方面也表现出色。可用于文本、代码和图像分析的多步骤问题。支持图片输入、流式输出、结构化输出、FC;继任者为GPT-5;
  • o3-mini:支持函数调用、结构化输出、流式输出;三种推理努力选项(低、中、高);
  • o3-Pro:支持图片输入、结构化输出、FC;使用更多计算资源进行更深入的思考,并持续提供更优质的答案。旨在解决棘手问题,部分请求可能需要几分钟才能完成。为避免超时,请尝试使用后台模式;
  • o4-mini:推理模型,支持图片输入、流式输出、结构化输出、FC、微调;继任者为GPT-5 Mini;

GPT-4

系列包括:

  • GPT-4 Turbo:预览版,支持微调;
  • GPT-4:支持流式输出、微调;
  • ChatGPT-4o:在ChatGPT聊天Web端使用的模型,支持图片输入、流式输出、预测输出;
  • GPT-4o:o代表omni,是大多数任务的最佳模型,也是除o系列模型之外功能最强大的模型。支持图片输入、流式输出、预测输出、结构化输出、FC、微调、蒸馏;
  • GPT-4o mini:适用于专注型任务,非常适合进行微调,支持图片输入、流式输出、预测输出、结构化输出、FC、微调;
  • GPT-4.1:擅长指令跟踪和工具调用,拥有跨领域的广泛知识。拥有1M Token上下文窗口,无需推理步骤,延迟低。支持图片输入、流式输出、结构化输出、FC、微调、蒸馏。支持的工具:联网搜索、文件搜索、图片生成、代码解释、MCP;继任者是GPT-5;
  • GPT-4.1 Mini:GPT-4.1的更小、更快版本;支持图片输入、流式输出、结构化输出、FC、微调、预测输出;继任者是GPT-5 Mini;
  • GPT-4.1 Nano:相比于GPT-4.1和GPT-4.1 Mini,速度最快(推理能力最弱)、成本最省;擅长指令跟踪和工具调用,具有1M Token上下文窗口,无需推理步骤即可实现低延迟。支持图片输入、流式输出、结构化输出、FC、微调、预测输出。推荐使用GPT-5 Nano。

GPT-OSS

体验地址文档,OpenAI时隔多年开源的两个MoE模型:

  • GPT-OSS-20B:总参数为210亿,但启动参数仅为36亿。
  • GPT-OSS-120B:1170亿总参数,但每个Token仅启动51亿参数;

稀疏启动设计使得模型可保持强大效能,大幅降低运行成本。在注意力机制方面,两个模型都采用交替的密集和局部带状稀疏注意力模式,结合分组多查询注意力(分组大小为8),有效提升推论和存储器效率。原生支援128k上下文长度,并使用旋转位置嵌入(RoPE)进行位置编码,展现在长文本处理方面的优势。

在训练过程中未对模型的CoT进行任何直接监督,为监测模型的不当行为、欺骗和滥用提供可能。

在安全性方面,采用「最坏情况微调」评估方法,通过在专门的生物学和网络安全资料上对模型进行恶意微调,模拟攻击者可能采用的手段,研究团队发现即使经过广泛的恶意微调,这些模型仍无法达到其「防范准备框架」所定义的高能力水平。这一发现为开源模型的安全性提供重要的实证支撑。

特点:

  • 上下文长度皆为128k;
  • 可调节的推理强度:根据具体场景和延迟要求,灵活设置推理模式(低、中、高),实现性能与响应速度的平衡;
  • 完整的思维链输出:可访问模型完整的推理过程,有助于调试和提升对结果的信任(但并非面向终端用户展示);
  • 支持微调:可通过参数微调将模型深度定制为适配自身任务的专用版本;
  • 原生智能体能力:模型原生支持函数调用、网页浏览、Python代码执行以及结构化输出,具备智能体能力;
  • 原生MXFP4量化训练:MoE层采用MXFP4精度训练,GPT-OSS-120B可在单张H100上运行,GPT-OSS-20B可在16GB显存内运行,硬件友好,推理高效。

评测

GPT-OSS-120B在多个任务上超越o3-mini,并在竞赛编程(Codeforces)、通用问题解决(MMLU与HLE)、工具调用(TauBench)方面表现出色,与o4-mini持平甚至略有超越。在健康问答(HealthBench)和竞赛数学(AIME 2024与2025)任务中,GPT-OSS-120B的表现甚至优于o4-mini。

GPT-OSS-20B也在上述评测中达到或超过o3-mini的水平,在竞赛数学和健康任务上甚至实现反超。

GPT-5

系列模型:

  • GPT-5:当前最强模型,支持图片输入、流式输出、结构化输出、FC、蒸馏;支持工具:联网搜索、文件搜索、图片生成、代码解释、MCP;
  • GPT-5 Mini:速度略快(推理能力略弱)、成本略节省;
  • GPT-5 Nano:速度最快(推理能力最弱)、成本最省;
  • GPT-5 Pro:同o3-Pro(对于比o3)类似;
  • GPT-5-Codex:针对Codex(OpenAI推出的AI CLI工具)或类似环境中的代理编码任务进行优化,仅在Responses API中可用,底层模型快照将定期更新;
  • GPT-5 Chat:ChatGPT聊天应用后台使用的模型。

注:除GPT-5-Codex外,还有个Codex-Mini-Latest,是o4-mini微调版本,也用于Codex CLl,价格不一样。

引入Router,可以自动调用,实时判断请求难度、所需工具、延迟预算,自动在GPT-5(快)和GPT-5 thinking(深思)之间切换;额度用完还能降级到mini版。用户不用再手动选模型,像操作系统的线程调度器,把"算力/思考时间"当资源自动分配。

注重强任务分工,Instruction following & agentic tool use模块大幅升级,模型能把复杂请求拆成多步、跨多个外部工具(浏览器、代码沙箱、数据库等)协同完成。

安全机制成为平台内置的能力,而不只是模型被训练出的习惯。比如问一个危险的问题,之前GPT是拒绝回答,现在是部分回答你,解释原因并给出替代方案。

三方榜单

评测

  • HealthBench:OpenAI 2025年新建的真实病例基准;
  • HealthBench Hard:一个子集
  • GPQA Pro:高阶科学
  • Humanity's Last Exam (Full Set):跨学科难题的终极闭卷基准
  • LongFact & FActScore:开放事实检索基准;GPT-5 thinking 幻觉率约为o3的六分之一。
  • Sycophancy Eval:奉承/过度认同率从14.5%→<6%,聊天风格更客观。
  • Deception Stress-Test:误导性/虚假完成率4.8%→2.1%,更诚实可靠。
  • Economically-Important Tasks(OpenAI内部):覆盖40+职业,约50%任务与专家持平或更好,显著领先o3与ChatGPT Agent。
  • SWE-bench Verified:软件工程领域,Bug修复
  • MMMU:多模态领域;大学级别的视觉逻辑题,相当于让模型看图说理;
  • AIME:美国奥数入门级竞赛题,专门考长链条数学推理能力
  • CharXiv:多模态基准
  • Aider Polyglot:多语言代码编辑任务。

新增4个官方人格Personas(Cynic毒舌、Robot机器人、Listener倾听者、Nerd)

复制代码
复制代码

embedding

参考Embedding入门概述

OpenAI Embedding模型演进史

  • text-embedding-ada-002:发布于2022年12月。一个里程碑式的模型,用单一模型取代此前五个独立专用嵌入模型(如text-similarity-ada-001等),极大简化开发者选择;性能强大、价格低廉;迅速成为行业事实上的标准。
  • text-embedding-3:最新模型,在性能、多语言支持和灵活性上实现巨大飞跃,包括text-embedding-3-small和text-embedding-3-large。引入核心功能:可调节的输出维度。用户可通过API参数dimensions将向量长度动态缩减(如large模型可缩减至256维,small模型可缩减至512维),在几乎不损失性能的前提下,大幅节省存储和计算开销。

API

网络上随处可见的OpenAI Python库的使用,略过。

参数Verbosity:可控制模型响应输出的长度,分为low、medium、high。

py 复制代码
response = client.responses.create(
	model="gpt-5-mini",
	input=question,
	text={"verbosity": verbosity}
)

Free-Form:函数调用,GPT-4中传递给各种工具是JSON数据,现在可以传递原始文本,如Python代码、SQL查询、Shell命令等。

py 复制代码
response = client.responses.create(
	model="gpt-5-mini",
	input="Please use the code_exec tool to calculate the cube of the number of vowels in the word 'pineapple'",
	text={"format": {"type": "text"}},
	tools=[{
		"type": "custom",
		"name": "code_exec",
		"description": "Executes arbitrary python code",
	}]
)

输出为可执行的Python代码。

Context-Free Grammar:CFG,通过CFG可确保模型输出符合编程语言、数据格式、其他结构化文本的语法规则,比如确保输出的Python代码没有语法错误等。

py 复制代码
email_regex = r"^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}$"
prompt = "Give me a valid email address for John Doe. It can be a dummy email"
response = client.responses.create(
	model="gpt-5", # grammar-constrained model
	input=prompt,
	text={"format": {"type": "text"}},
	tools=[{
		"type": "custom",
		"name": "email_grammar",
		"description": "Outputs a valid email address.",
		"format": {
			"type": "grammar",
			"syntax": "regex",
			"definition": email_regex
		}
	}],
	parallel_tool_calls=False
)
print("GPT-5 Output:", response.output[1].input)

最小化推理:最小化推理模式可减少API调用成本,加快响应速度,比如数据提取、格式化等任务。

py 复制代码
response = client.responses.create(
	reasoning={
		"effort": "minimal"   
	}
)

参考

相关推荐
KKKlucifer4 小时前
生成式 AI 冲击下,网络安全如何破局?
网络·人工智能·web安全
ARM+FPGA+AI工业主板定制专家4 小时前
基于JETSON ORIN/RK3588+AI相机:机器人-多路视觉边缘计算方案
人工智能·数码相机·机器人
文火冰糖的硅基工坊4 小时前
[创业之路-691]:历史与现实的镜鉴:从三国纷争到华为铁三角的系统性启示
人工智能·科技·华为·重构·架构·创业
lljss20204 小时前
5. 神经网络的学习
人工智能·神经网络·学习
jie*4 小时前
小杰深度学习(fourteen)——视觉-经典神经网络——ResNet
人工智能·python·深度学习·神经网络·机器学习·tensorflow·lstm
闲看云起4 小时前
论文阅读《LIMA:Less Is More for Alignment》
论文阅读·人工智能·语言模型·自然语言处理
jie*4 小时前
小杰深度学习(sixteen)——视觉-经典神经网络——MobileNetV2
人工智能·python·深度学习·神经网络·tensorflow·numpy·matplotlib
TGITCIC4 小时前
有趣的机器学习-利用神经网络来模拟“古龙”写作风格的输出器
人工智能·深度学习·神经网络·ai大模型·模型训练·训练模型·手搓模型
whltaoin5 小时前
AI 超级智能体全栈项目阶段五:RAG 四大流程详解、最佳实践与调优(基于 Spring AI 实现)
java·人工智能·spring·rag·springai