说说大模型的命名的含义

说说大模型的命名的含义

  • [0. 概述](#0. 概述)
  • [1. Base 模型(基座 / 原生模型)](#1. Base 模型(基座 / 原生模型))
  • [2. Instruct 模型(指令模型 / 对话模型)](#2. Instruct 模型(指令模型 / 对话模型))
  • [3. Thinking 模型(思考模型 / 推理增强模型)](#3. Thinking 模型(思考模型 / 推理增强模型))
  • [4. Chat 模型(对话专用,在 Instruct 基础上再优化)](#4. Chat 模型(对话专用,在 Instruct 基础上再优化))
  • [5. A3B](#5. A3B)
    • [5.1. A3B 的核心含义](#5.1. A3B 的核心含义)
    • [5.2. A3B 的技术背景与应用](#5.2. A3B 的技术背景与应用)

0. 概述

大模型命名有点道道,这里就说道说道:

  • Base:毛坯房,只会 "续写文字",不会听话。
  • Instruct:精装修,听懂人话、能对话、能干活,日常 90% 场景用它。
  • Thinking:带 "大脑思考室" 的增强版,专门做复杂推理、数学、逻辑、长思考,算力 / 参数开销更大。
  • Chat:对话专用,在 Instruct 基础上再优化

1. Base 模型(基座 / 原生模型)

  • 全称:Base Model / Pre-trained Model
  • 来源:只做过海量无标注文本预训练(看书、网页、代码),没做过人类指令对齐。
  • 能力:
    • 擅长:文本续写、补全、风格模仿、语言建模
    • 不擅长:听不懂指令、不会问答、不会按要求做事
  • 输出:你给一句开头,它顺着往下写,不会 "理解你的意图"。
  • 用途:
    • 供研究、二次微调(做垂直领域模型)
    • 做 LoRA、全量微调的基底
  • 命名常见后缀:-base、-pretrain

例子:Llama 3-8B-Base、Qwen3-30B-Base

2. Instruct 模型(指令模型 / 对话模型)

  • 全称:Instruct-tuned Model / Chat Model
  • 来源:在 Base 基础上做了:
    • SFT 监督微调(学习人类问答 / 指令格式)
    • 常见再加 RLHF/DPO(对齐人类偏好,更安全、更有用)
  • 能力:
    • 听懂自然语言指令(写文案、总结、代码、翻译、对话)
    • 有上下文、有角色、有格式约束
  • 输出:直接给答案 / 结果,不废话、不瞎续写。
  • 用途:
    • 聊天机器人、API 服务、日常工具、办公助手
    • 绝大多数用户、产品、部署都用 Instruct
  • 命名常见后缀:-instruct、-chat、-it

例子:Llama 3-8B-Instruct、Qwen3-30B-Instruct、GPT-3.5-turbo(本质就是 instruct)

3. Thinking 模型(思考模型 / 推理增强模型)

  • 不是标准学术名,是厂商为 "强推理" 单独分出的版本,常见于 MoE 架构(比如你问的 A3B 系列)。
  • 来源:
    • 通常基于 Instruct 再增强:长推理链、CoT(思维链)、多步思考
    • MoE 模型里:思考模式会激活更多专家 / 更多参数
      • 例如:普通模式 A3B(激活 3B),思考模式激活更多(A22B 等)
  • 能力:
    • 极强:数学、逻辑、代码、规划、推理、多步解题、长文本分析
    • 会 "先思考再回答",展示中间步骤(...)
  • 缺点:
    • 生成更慢、token 更多、算力 / 显存更高
    • 简单问题反而没必要用
  • 用途:
    • 数学竞赛、代码 debug、复杂逻辑推理、科研推导、长决策链
    • 命名常见后缀 / 关键词:-thinking、-reasoning、-max、-plus、-deepseek-r1 这类推理向

例子:Qwen3-Thinking、DeepSeek-R1、Kimi 思考模式、部分闭源 "深度思考版"

4. Chat 模型(对话专用,在 Instruct 基础上再优化)

  • 和 Instruct 高度重叠,但更偏多轮对话、人格、记忆、闲聊
  • 常见后缀:-chat
    • 例:Llama-3-8B-Chat、Qwen-Chat

5. A3B

还有比如名称里面带A3B,指Activated 3 Billion(激活 30 亿参数)

5.1. A3B 的核心含义

A = Activated(激活):表示 MoE 架构中动态参与计算的专家子网络参数

3 = 3 Billion(30 亿):每次推理仅激活约 30 亿参数,通常占总参数的10% 左右

B = Billion(十亿):参数数量单位,与模型名称中常见的 "3B""7B" 含义一致

5.2. A3B 的技术背景与应用

  • MoE 架构基础:混合专家模型将总参数拆分为多个 "专家" 子网络,每次推理仅选择少量专家参与计算,而非全部参数同时工作
  • 首创与推广:由通义千问 Qwen3 系列模型首创(如 Qwen3-30B-A3B),后被 Kimi(Moonlight-16B-A3B)、百度(ERNIE-4.5-VL-28B-A3B)等厂商采用
  • 命名规范扩展:已形成统一范式,如 Qwen3-235B-A22B 表示总参数 2350 亿、激活 220 亿参数
相关推荐
前沿科技说i1 小时前
2026年AI大模型API中转站:主流服务商性能与成本
人工智能
黄啊码4 小时前
【黄啊码】程序员真正该担心的,不是 AI 会写代码
人工智能
weixin_468466854 小时前
Ava 2.0 智能应用场景落地指南
人工智能·自然语言处理·大模型·智能交互·ava
John_ToDebug4 小时前
MCP 深度解析:大模型的“万能插头”
人工智能·经验分享·ai
浦信仿真大讲堂4 小时前
CST 仿真软件与 AI 融合的工程应用实战
人工智能·仿真软件·达索仿真·达索软件
mit6.8245 小时前
A Software Engineer‘s Apology | CODA
人工智能
段一凡-华北理工大学5 小时前
2026 高炉炼铁智能化技术全景与演进路径~系列文章11:演进路径与行业未来
大数据·网络·人工智能·算法·工业智能体·高炉炼铁智能化
小脑斧1235 小时前
AI技能化落地:从对话式大模型到可生产、可复用的AI工程体系
人工智能·skills·openclaw·hermes·marvis
西陵5 小时前
Agent 为什么会陷入 Doom Loop?OpenClaw 的破解之道
前端·人工智能·ai编程
飞哥数智坊5 小时前
动动嘴皮子就把事干了,Mic Air + TRAE SOLO 让我越来越懒
人工智能