英伟达开源253B语言模型：Llama-3.1-Nemotron-Ultra-253B-v1 模型情况

Llama-3.1-Nemotron-Ultra-253B-v1 模型情况

1. 模型概述

Llama-3.1-Nemotron-Ultra-253B-v1 是一个基于 Meta Llama-3.1-405B-Instruct 的大型语言模型 (LLM)，专为推理、人类对话偏好和任务（如 RAG 和工具调用）而优化。该模型支持 128K 令牌的上下文长度，并可以在单个 8xH100 节点上进行推理。

关键特点

准确性与效率的平衡：通过神经架构搜索 (NAS) 方法显著减少内存占用，降低 GPU 需求，同时提升推理效率。
垂直压缩技术：进一步优化延迟。
多阶段后训练：包括监督微调和基于 GRPO 算法的强化学习，提升推理和非推理能力。
商业用途：适用于 AI 代理系统、聊天机器人、RAG 系统和其他 AI 驱动的应用。

2. 技术细节

模型架构

架构类型：密集型解码器 Transformer 模型。
基础模型：基于 Llama-3.1-405B-Instruct，通过 NAS 定制。
参数数量：2530 亿。
NAS 优化：
- 跳过注意力层：某些块中完全跳过注意力层或替换为单线性层。
- 可变 FFN 层：不同块的 FFN 层扩展/压缩比率不同。
- FFN 融合：将多个连续的 FFN 层融合为更少的宽层。

训练过程

知识蒸馏：使用 650 亿令牌进行知识蒸馏。
持续预训练 (CPT)：使用 880 亿令牌进行进一步训练。
多阶段后训练：包括监督微调和基于 GRPO 的强化学习。

3. 使用方法

推理模式

推理模式控制：通过系统提示控制推理模式（ON/OFF）。
推荐参数：
- 推理模式 ON：温度 0.6，Top P 0.95。
- 推理模式 OFF：贪心解码（温度 0）。

代码示例

使用 Hugging Face Transformers

bash 复制代码

import torch
from transformers import AutoTokenizer, pipeline

model_id = "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1"
model_kwargs = {
    "torch_dtype": torch.bfloat16,
    "trust_remote_code": True,
    "device_map": "auto"
}

tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id

pipeline = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    max_new_tokens=32768,
    temperature=0.6,
    top_p=0.95,
    **model_kwargs
)

# 推理模式 ON
print(pipeline([{"role": "system", "content": "detailed thinking on"}, {"role": "user", "content": "Solve ..."}]))

# 推理模式 OFF
print(pipeline([{"role": "system", "content": "detailed thinking off"}, {"role": "user", "content": "Solve ..."}]))

使用 vLLM

bash 复制代码

pip install vllm==0.8.3
python3 -m vllm.entrypoints.openai.api_server \
  --model "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
  --trust-remote-code \
  --seed=1 \
  --host="0.0.0.0" \
  --port=5000 \
  --served-model-name "nvidia/Llama-3_1-Nemotron-Ultra-253B-v1" \
  --tensor-parallel-size=8 \
  --max-model-len=32768 \
  --gpu-memory-utilization 0.95 \
  --enforce-eager

4. 性能评估

评估数据集

训练数据：包括 FineWeb、Buzz-V1.2 和 Dolma 等。
多阶段后训练数据：支持数学、代码、推理和指令遵循能力的提升。

评估结果

推理模式 ON：
- GPQA：72.50%
- AIME25：66.31%
- MATH500：97.00%
推理模式 OFF：
- GPQA：16.67%
- AIME25：29.03%
- MATH500：80.40%

5. 伦理考虑

可信 AI：NVIDIA 强调可信 AI 是一项共同责任，开发者需确保模型符合行业和用途要求，并防止未预见的滥用。

6. 适用场景

AI 代理系统：如聊天机器人、RAG 系统。
编程语言支持：适用于英语和多种编程语言（如 Python）。
多语言支持：支持德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

7. 硬件与软件要求

推荐硬件：NVIDIA Hopper 和 Ampere 架构。
操作系统：Linux。
软件版本：推荐使用 Transformers 4.48.3。