【LLM】Openai之gpt-oss模型和GPT5模型

note

gpt-oss模型代理能力：使用模型的原生功能进行函数调用、网页浏览（https://github.com/openai/gpt-oss/tree/main?tab=readme-ov-file#browser）、Python 代码执行（https://github.com/openai/gpt-oss/tree/main?tab=readme-ov-file#python）和结构化输出。
gpt-oss模型，原生 MXFP4 量化：模型使用原生 MXFP4 精度训练 MoE 层，使得 gpt-oss-120b 可以在单个 H100 GPU 上运行，而 gpt-oss-20b 模型可以在 16GB 内存内运行。
GPT5模型在文本、网页开发、视觉、复杂提示词、编程、数学、创造成、长查询等方面，都是第一名。全面超越Gemini-2.5-pro、Grok4等一众竞品。
GPT-5 是一个一体化系统，包含三个核心部分：一个智能高效的基础模型，可解答大多数问题；一个深度推理模型（即GPT-5思维模块），用于处理更复杂的难题；以及一个实时路由模块，能够基于对话类型、问题复杂度、工具需求及用户显式指令（如prompt含"仔细思考这个问题"）智能调度模型。
Openai目前面向普通用户，GPT-5提供免费、plus和Pro三种模式。同时在API平台上，推出了GPT-5、GPT-5 nano、GPT-5 mini三种模型选择。

一、gpt-oss模型

1、gpt-oss-120b和gpt-oss-20b模型

Openai开源两个模型：gpt-oss-120b，对标 o4-mini，117B 参数，5.1B 激活量，运行该模型，需要 80G 内存，单卡 H100 GPU 可运行。gpt-oss-20b，对标 o4-mini，21B 参数，3.6B 激活量，运行该模型，需要 16G 内存，单卡 4060 Ti 可运行。原生MXFP4量化，模型采用原生MXFP4精度训练MoE层。

关于部署，https://github.com/openai/gpt-oss，主页中写了多种不同方案，包括vllm, ollama、PyTorch / Triton / Metal、LM Studio等。https://gpt-oss.com/，可以直接体验openai开源的gpt-oss-120b 和 gpt-oss-20b

2、gpt-oss模型特点

2025 年 8 月 5 日，OpenAI 正式发布其自 GPT‑2 以来的首款开源权重模型系列------gpt‑oss‑120b 与 gpt‑oss‑20b

1、模型定位与开放策略

1、gpt‑oss‑120b (~116.8B 参数)：与 OpenAI 自研的 o4‑mini 相当，可在单卡 NVIDIA H100（80GB）上运行，并以 Apache 2.0 协议免费开源。

2、gpt‑oss‑20b (~20.9B 参数)：性能接近 o3‑mini，可在仅 16GB 显存的消费级机器上运行，适配本地 PC 环境。

2、核心架构亮点与量化策略

1、Mixture-of-Experts 架构：gpt‑oss‑120b 配备 128 个专家，gpt‑oss‑20b 则具有 32 个专家；每个 token 调度 top‑4 专家并使用 gated SwiGLU 激活函数。

2、MXFP4 量化：对 MoE 权重采用 4.25-bit 量化；使得大模型在单卡可运行，小模型可在 16GB 环境中部署，显著降低推理资源门槛。

3、长上下文支持：使用 YaRN 技术实现最高 131,072 token 上下文窗口，对结构化任务与复杂推理尤为有益。

您可以根据任务需求调整三个级别的推理水平：

低：适用于一般对话的快速响应。
中：平衡速度与细节。
高：深入且详细的分析。推理级别可以在系统提示中设置，例如，"Reasoning: high"。

3、模型微调训练

可以使用swift框架进行微调：

python 复制代码

# 42GB
CUDA_VISIBLE_DEVICES=0 \
swift sft \
    --model openai-mirror/gpt-oss-20b \
    --train_type lora \
    --dataset 'AI-ModelScope/alpaca-gpt4-data-zh#500' \
              'AI-ModelScope/alpaca-gpt4-data-en#500' \
              'swift/self-cognition#500' \
    --torch_dtype bfloat16 \
    --num_train_epochs 1 \
    --per_device_train_batch_size 1 \
    --per_device_eval_batch_size 1 \
    --router_aux_loss_coef 1e-3 \
    --learning_rate 1e-4 \
    --lora_rank 8 \
    --lora_alpha 32 \
    --target_modules all-linear \
    --gradient_accumulation_steps 16 \
    --eval_steps 50 \
    --save_steps 50 \
    --save_total_limit 2 \
    --logging_steps 5 \
    --max_length 2048 \
    --output_dir output \
    --warmup_ratio 0.05 \
    --dataloader_num_workers 4 \
    --model_author swift \
    --model_name swift-robot

参数	解释	推荐范围
--lora_rank	LoRA 中低秩矩阵的秩rank，决定适配层的参数规模。默认 8。	4‑16 常见；更大 rank 增加适配能力但显存也随之上升。
--lora_alpha	LoRA 中的缩放系数（α），通常设置为 rank × 4（这里 8×4=32），用于保持 LoRA 参数对原模型梯度的比例。	经验值：α = 4 × rank；如 rank=4 → α=16，rank=16 → α=64。
--target_modules	要插入 LoRA 的模块。all-linear 表示把 LoRA 应用于 LoRA 模型中所有 Linear（全连接）层（包括投影层、FFN、中间层等）。也可以指定具体层名或正则表达式（如 q_proj, v_proj, v_proj）。	对大多数 LLM，all-linear 已足够；如果想只微调注意力投影可改成 q_proj,k_proj,v_proj。

场景	建议的改动
显存不足	把 `per_device_train_batch_size` 降到1（已经是1)，再把 `gradient_accumulation_steps` 增大（如 32-64)，或把 `torch_dtype` 改成 `float16`（如果 GPU 支持）。
收敛慢	把 `learning_rate` 调高到 2e-4 或 5e-4（注意观察 loss 曲线是否出现震荡），或延长 warmup (`warmup_ratio=0.1`)。
验证不够频繁	把 `eval_steps` 缩小到 20，或把 `logging_steps` 设为1，及时捕捉训练过程异常。
想要更高质量的 LoRA	增大 `lora_rank`（例如 16）并相应把 `lora_alpha` 设为 64；若显存仍足够，也可以把 `target_modules` 从 all-linear 改成只在 attention 投影上（`q_proj,k_proj,v_proj`），这样参数更集中。
多卡训练	把 `CUDA_VISIBLE_DEVICES=0,1,2,3`（或不写)，并把 `--tensor_parallel_size` 参数（Swift 自动解析）设为 GPU 数量，例如 `--tensor_parallel_size 4`；此时 `per_device_train_batch_size` 仍然指每卡的大小，整体有效 batch = `per_device_train_batch_size` × `gradient_accumulation_steps` × `num_gpus`。
想快速实验	把 `--num_train_epochs` 改成 0.1（只跑少量 steps)，配合 `--max_steps 200`（自行添加）来做 smoke test，确认 pipeline 正常后再正式跑。
使用混合精度	`--torch_dtype bfloat16` 已经是混合精度；若 GPU 不支持 BF16，可改为 `float16`，并确保 `torch.backends.cudnn.benchmark = True`（Swift 默认开启）。

二、GPT5模型

GPT5模型在文本、网页开发、视觉、复杂提示词、编程、数学、创造成、长查询等方面，都是第一名。全面超越Gemini-2.5-pro、Grok4等一众竞品。
GPT-5 是一个一体化系统，包含三个核心部分：一个智能高效的基础模型，可解答大多数问题；一个深度推理模型（即GPT-5思维模块），用于处理更复杂的难题；以及一个实时路由模块，能够基于对话类型、问题复杂度、工具需求及用户显式指令（如prompt含"仔细思考这个问题"）智能调度模型。
Openai目前面向普通用户，GPT-5提供免费、plus和Pro三种模式。同时在API平台上，推出了GPT-5、GPT-5 nano、GPT-5 mini三种模型选择。

GPT5在多模态榜单的效果：

Reference

1\] [GPT5发布，毫无新意，AGI没有盼头了](https://mp.weixin.qq.com/s/yg7eVEidz4N18P2aqdPRHw) \[2\] https://huggingface.co/blog/zh/welcome-openai-gpt-oss \[3\] https://openai.com/index/introducing-gpt-5/ \[4\] grok、genmini模型 \[5\] [OpenAI 重返开源！gpt-oss系列社区推理、微调实战教程到！](https://mp.weixin.qq.com/s/-vpB4vebmVYkF3SLDTkaFg) \[6\] LLM评测榜单：https://lmarena.ai/leaderboard