基础篇--概念原理-2-参数是什么?——从原理到实战,一篇讲透

参数是什么?------从原理到实战,一篇讲透

作者 :Weisian
发布时间:2026年4月

直击痛点

"面试官:'7B、70B 里的参数到底是什么意思?'你:'就是模型里的数字......'面试官:'那为什么参数量越大模型越聪明?70B 一定比 7B 好吗?'你:'呃......不一定吧......'"------这是大模型面试中的经典"翻车现场":听说过"参数"这个词,但说不清参数是什么、为什么重要、怎么调优。

在大模型时代,参数是最核心却又最容易被混淆的概念之一:

  • 初学者:把参数和算力画等号,以为参数越多越好;
  • 算法工程师:不清楚不同参数的作用,微调时无从下手;
  • 产品经理:不理解参数对模型性能、部署成本的影响,选型踩坑;
  • 面试者:背了"参数是权重"的定义,却讲不清原理和实际价值,错失高薪机会。

解决方案 :本文将从生活类比出发,深入浅出地讲解参数的本质、三大类型、规模与能力的关系、推理参数的调优技巧,并提供基于本地 Ollama + Qwen2.5 的完整可运行代码。

📌 核心一句话:大模型的参数,本质是模型从海量数据中"学来的经验",是存储语义规则、逻辑关联的"记忆单元",相当于模型的"大脑神经元连接"------参数越多,模型能记住的"经验"越细致,理解和生成能力越强(但不是绝对)。
📌 面试金句先记牢(全文精华速览):

  • 参数定义:训练中学习到的可调整权重和偏置,是模型理解和推理的核心依据。
  • 参数 vs 神经元:神经元是容器,参数是容器里的内容。
  • 三大参数类型:模型参数(权重/偏置)、超参数(训练配置)、推理参数(生成配置)。
  • 规模跃迁:B=Billion(十亿),1B以下像小学生,7B-13B像大学生,70B+像研究生。
  • 参数越多越好? 不是,需匹配数据量与算力,否则过拟合且成本飙升。
  • Scaling Law:性能随参数量、数据量、计算量幂律增长,但边际效应递减。
  • 推理参数:温度(随机性)、Top-p(多样性)、Top-k(候选集)、重复惩罚(流畅性)。
  • 微调与参数:微调是调整部分参数(如LoRA),让模型适配特定任务。
  • 本地部署与参数:参数规模决定显存,7B模型需10-15GB,13B需20-30GB(量化后可减半)。
  • 优化技巧:量化(INT4/INT8)、剪枝,降低部署成本。
  • 参数量≠智能:数据质量和训练方法同样关键,70B不一定比7B更适合你的任务。

一、参数的本质:从"数字大脑"到"生活类比"

1.1 一句话定义

大模型的参数,是模型在训练过程中从海量文本数据中学习到的"经验值",本质是神经网络中神经元之间的连接权重(Weight)和偏置(Bias),是模型"理解"语言、完成推理的核心依据。

1.2 参数的诞生:从"随机噪声"到"有序经验"(训练过程)

大模型不是天生聪明的。它的参数一开始是随机值,就像一台所有旋钮都乱拧的音响。训练的过程,就是通过海量数据"教会"模型如何拧对每一个旋钮。

参数产生的五步循环

  1. 初始化:模型创建时,参数随机生成,此时模型什么都不会。
  2. 输入数据:给模型输入海量文本,让模型尝试预测"下一个词"。
  3. 计算误差:将模型预测的结果和真实结果对比,计算"误差"(损失函数)。
  4. 反向传播:将误差从输出层往回传,告诉每个参数"你该往哪边拧"以减少误差。
  5. 更新参数:所有参数根据指令微调一点点。重复步骤2-5,直到误差足够小。

流程图解

复制代码
初始状态:所有参数随机(乱拧的音响)
     │
     ▼
喂数据:"猫"这个字的向量应该是什么?
     │
     ▼
模型预测:猜一个答案
     │
     ▼
计算误差:猜错了多少?(损失函数)
     │
     ▼
反向传播:误差往回传,告诉每个参数"你该往哪边拧"
     │
     ▼
更新参数:所有参数微调一点点
     │
     ▼
重复......直到误差足够小

简单说:训练 = 用数据把"乱拧的旋钮"调到正确位置

生活类比:模型就像一个刚出生的孩子,参数就是它通过"读书(学习数据)"记住的"知识点"和"逻辑规则"------比如"太阳从东方升起""下雨需要带伞",这些规则被转化为数字(参数),存储在模型的"大脑"(神经网络)中。

1.3 核心误区:参数存储的是"规则",不是"数据"

很多人误以为大模型的参数直接存储了训练数据,这是完全错误的。

核心真相 :参数不存储任何原始数据,只存储"数据中的逻辑规则和语义关联"。

例如,模型看过数百万句包含"你好"的对话,它不会记住这些句子,而是通过参数学习到"你好"是一种问候语,通常用于对话开头------这些"规则"被转化为数字(参数)存储。

1.4 7B、70B 里的"B"是什么?参数如何组成?

B = Billion(十亿)

  • 7B = 70 亿个参数
  • 70B = 700 亿个参数
  • 175B = 1750 亿个参数(GPT-3 的规模)

这些数字描述的是:模型里一共有多少个可学习权重


二、参数的分类:业界最合理的"三层体系"

为了彻底理清概念,我们将参数分为三层模型参数(核心)超参数(训练配置)推理参数(生成配置)。面试中90%的混淆都源于没分清这三层。

2.1 第一层:模型参数(核心:可学习参数)------权重(Weight)和偏置(Bias)

这是常说的"7B、13B"所指的参数,占比99%以上,是模型真正"学到"的知识。训练后固定,决定模型能力上限。

类型 本质 作用 生活类比
权重 神经元间的连接强度,数字越大,两个神经元关联越强 决定一个输入对输出的影响有多大 你和家人的熟悉程度(权重)很高,和陌生人很低
偏置 神经元的激活阈值,决定神经元是否被激活 让神经元即使输入较弱也能"激活" 闹钟的叫醒时间,到点就响(激活),不到不响。

深度解析:Embedding(嵌入参数)------一切的开端

在模型内部,每个词(Token)都被表示为一个长长的数字列表,这就是Embedding。例如,在 Qwen2.5 中,每个词的 Embedding 是一个 4,096 维的向量

复制代码
"国王" 的 Embedding ≈ [0.12, -0.34, 0.56, ..., 0.78]  (共4096个数字)
"王后" 的 Embedding ≈ [0.11, -0.33, 0.55, ..., 0.79]  (非常接近!)
"苹果" 的 Embedding ≈ [0.89, 0.12, -0.45, ..., 0.01]  (完全不同!)

权重 vs 偏置:一个形象的比喻

想象你在嘈杂的房间里听人说话。权重 就像音量旋钮------把说话声音大的调得更高,声音小的压得更低。偏置则像一个"助听器增益"按钮------即使某人说话声音小,你也可以整体抬高音量,让他的声音能被听见。两者配合,才能把信息从噪声中提取出来。

特点

  • 数量庞大,训练时自动调整,决定模型能力上限。
  • 训练完成后固定,不可手动修改。

为什么 Embedding 维度是 4096?

因为计算机喜欢 2 的幂次(2、4、8、16、32......),而 4096 是 2^12。研究发现,这个维度恰好是能力与效率的平衡点:维度太少,无法捕捉语义的细微差别;维度太多,计算成本爆炸。

2.2 第二层:超参数(训练配置)------人工预设的"学习规则"

超参数是训练前人工设定的规则,不参与反向传播更新,但决定训练效率和泛化能力。

超参数 作用 生活类比
学习率(Learning Rate) 每次参数调整的步长,太大不稳定,太小收敛慢 走路步长
批次大小(Batch Size) 每次输入模型的样本数量 一次吃多少饭
迭代次数 (Epochs) 整个数据集被完整训练的次数 复习遍数
Dropout率 训练时随机关闭部分神经元,防止过拟合 考试时不允许查资料

训练超参数 = 学习方法与节奏,决定学得快不快、稳不稳。

2.3 第三层:推理参数(生成配置)------控制"怎么说话"的旋钮

这是调用模型时调节的参数,不改变模型的知识 ,只控制输出风格。面试中出现频率最高。

推理参数 作用 生活类比 Ollama 参数名
温度 控制输出随机性,越低越确定 骰子的权重 temperature
Top-p 动态选择累积概率达p的词集 从最有可能的前几个答案里选 top_p
Top-k 只考虑概率最高的k个词 只考虑前三名候选人 top_k
重复惩罚 降低已出现词的重复概率 防止一个人一直说话 repeat_penalty
最大输出Token 限制输出长度 说话字数限制 num_predict

这部分是工程调优、产品效果、面试问答的重中之重。


三、参数规模与智能水平:越大就一定越聪明吗?

3.1 规模跃迁:从"小学生"到"研究生"

核心答案:参数规模与模型能力不是线性关系,而是存在**"跃迁点"**。每跨过一个规模门槛,模型会"顿悟"出新的能力。

参数规模 能力表现 类比 代表模型
100M - 1B 基础理解、简单语义 小学生 BERT-base (110M)
1B - 7B 开始有推理能力、能总结 高中生 GPT-2 1.5B
7B - 13B 逻辑推理、创作、代码生成 大学生 LLaMA-7B、Qwen-7B
30B - 70B 系统性思考、跨领域推断 研究生 LLaMA-65B、Qwen-72B
100B+ "世界模型"、抽象推理 专家 GPT-3 175B

生活类比 :就像学数学。加减乘除(小模型)谁都会,但到了微积分(大模型),只有经过系统训练的人才能理解。不是"多学一点点"就能从算术跳到微积分,而是需要质的飞跃

3.2 Scaling Law(规模法则):规模越大,性能越强?

Scaling Law 是 OpenAI 在 2020 年发现的规律:模型的性能随着参数量、数据量、计算量的增加而幂律增长

关键陷阱 :性能提升是幂律,不是线性的,边际效应递减。

  • 从 1B → 7B:性能大幅提升(跃迁)
  • 从 7B → 13B:性能提升明显
  • 从 13B → 70B:性能提升显著
  • 从 70B → 100B:提升幅度变小

面试加分回答

"Scaling Law 告诉我们,参数量翻倍并不会让性能翻倍。GPT-3(175B)相比 GPT-2(1.5B)参数增加了 116 倍,但性能只提升了约 37%。所以不是参数越大越好,而是要在性能和成本之间找平衡。"

3.3 为什么参数量大会变聪明?------"世界模型"的涌现

当参数足够多时,模型会自发学会一种叫 "世界模型" 的能力。它不是死记硬背,而是理解世界如何运作

小模型(1B)的思维方式

复制代码
问:"为什么天空是蓝色的?"
想:"蓝色"和"天空"经常一起出现 → "因为天空是蓝色的"
答:"因为天空是蓝色的。"(循环论证)

大模型(70B)的思维方式

复制代码
问:"为什么天空是蓝色的?"
想:光 → 散射 → 波长 → 瑞利散射 → 蓝光波长短 → 被散射得更强
答:"蓝光的波长更短,会在大气分子中发生瑞利散射,因此蓝色被各方向扩散,所以人眼看到的是蓝色。"

为什么大模型能学会这些?

参数足够多,意味着模型有足够的"存储空间"来存放:

  1. 因果关系链:A 导致 B,B 导致 C
  2. 抽象概念映射:"快乐"≈"高兴"≈"愉悦"
  3. 推理模式:如果-那么、因为-所以

3.4 三个必须知道的"坑":参数不是万能的

问题 说明 示例
训练成本爆炸 参数量增加,训练成本指数级增长 GPT-3 训练成本约 1200 万美元
推理成本飙升 70B 模型需要多块 A100,7B 单卡就能跑 推理延迟差 10 倍以上
数据和训练方法更关键 参数只是"容器",喂什么数据更重要 LLaMA-13B 在很多任务上超越了 GPT-3 175B,因为用了更高质量的数据

面试金句

"参数量决定模型'能不能学会',数据决定模型'学到的是什么东西',训练策略决定模型'能不能真正理解'。"


四、参数的实际影响:性能、成本、速度

4.1 性能:参数决定能力上限

参数越多:

  • 理解越深刻(长文本、隐晦语义);
  • 推理越强(数学、代码、多步逻辑);
  • 生成越稳定、结构化越好。

4.2 部署成本:参数越多越贵

参数越大,显存占用越高,成本越高。

  • 7B:个人显卡可跑
  • 13B:中高端显卡
  • 70B:专业卡/A100/多卡

4.3 推理速度:参数越大越慢

同算力下,参数翻倍,速度下降约50%~70%。

实时交互(客服、对话)优先用7B


五、参数与工程落地:显存、速度与优化

参数与显存的换算公式(面试高频)

面试高频题:"7B 模型需要多大显存?"

计算公式

复制代码
显存 ≈ 参数量 × 每个参数占用的字节数 × 1.2(额外开销系数)

不同精度下的显存占用(以7B模型为例)

精度 每参数占用 7B 模型理论显存 实际推理显存(含开销)
FP32 4 字节 ~28 GB ~34 GB
FP16 2 字节 ~14 GB ~17 GB
INT8 1 字节 ~7 GB ~8.5 GB
INT4 0.5 字节 ~3.5 GB ~4.2 GB

推理时的额外开销

  • KV Cache:约 1-2 GB(取决于序列长度)
  • 激活值:约 0.5-1 GB
  • 实际需要 ≈ 参数量显存 × 1.2

快速估算

复制代码
7B 模型 INT8 量化 → 约 8-10 GB 显存(RTX 3080/4070 可以)
7B 模型 FP16 → 约 14-16 GB 显存(RTX 4090 可以)
70B 模型 INT4 量化 → 约 40-45 GB 显存(需要 A100 或双卡)

快速选型建议

  • 8G 显存:7B INT4
  • 12G 显存:7B INT8
  • 24G 显存:13B INT8 / 7B FP16
  • 40G+ 显存:70B INT4

六、参数优化:在性能与成本间找平衡

6.1 量化(最常用)

把高精度参数(FP16)压缩为低精度(INT8/INT4),牺牲少量性能,大幅降低显存。

精度 压缩比 性能损失 适用
FP16 1:1 0% 极致性能
INT8 1:2 5% 均衡
INT4 1:4 10~15% 成本优先

说明:如将FP16转为INT8,显存减半,性能仅降低5%左右,性价比非常高。

Ollama量化模型:

bash 复制代码
ollama pull qwen2_5-7b:q4_0
ollama pull qwen2_5-7b:q8_0

6.2 剪枝

删掉权重极小、几乎无用的参数,减小模型体积。

类比:整理房间,扔掉没用的东西。

6.3 LoRA(微调必用)

只训练少量额外参数 (适配器),不动主模型,节省显存+训练快。
全量微调 :更新全部参数,效果好但成本极高。
LoRA (Low-Rank Adaptation):仅训练少量额外的低秩矩阵(<1%参数),省显存、速度快,是当前主流方案。


七、微调与参数:如何"定制"模型?

7.1 预训练 vs 微调:知识 vs 行为

面试常考:"预训练和微调有什么区别?"

核心答案

  • 预训练 :在海量数据上学习"世界知识",注入的是知识
  • 微调 :在特定数据上学习"行为模式",注入的是行为

生活类比

预训练就像一个人读了 12 年书(积累知识),微调就像入职培训(学会怎么干活)。一个人知识再多,不培训也不会按公司规范做事;反之,培训不能替代知识积累。

7.2 全参数微调 vs 参数高效微调(PEFT)

方式 原理 更新参数比例 显存需求 适用场景
全参数微调 更新所有参数 100% 极大(3倍模型显存) 大公司、领域大改
LoRA 插入低秩矩阵 <1% 较小(+5-10%) 大多数场景
QLoRA LoRA + 量化 <1% 小(4-bit 量化) 消费级显卡
Adapter 插入适配层 约3-5% 较小 特定任务适配

为什么 LoRA 省显存?

  • 全量微调:更新全部参数,效果好但成本极高。
  • LoRA (Low-Rank Adaptation):仅训练少量额外的低秩矩阵(<1%参数),省显存、速度快,是当前主流方案。

LoRA 的核心思想:不直接更新大的权重矩阵 W,而是学习两个小矩阵 A 和 B,使得 W + B×A 近似等于更新后的权重。

复制代码
原始权重 W: 4096 × 4096 ≈ 1600 万参数
LoRA 矩阵 A: 4096 × 8 ≈ 3.2 万参数
LoRA 矩阵 B: 8 × 4096 ≈ 3.2 万参数
总共约 6.4 万参数,只有原始权重的 0.4%!

7.3 实战:用 Ollama 进行 LoRA 微调

python 复制代码
"""
使用 Ollama 进行 LoRA 微调的示例
注意:这需要准备训练数据,实际运行时间较长
"""

# 1. 准备训练数据(JSONL 格式)
# 示例数据:questions.jsonl
"""
{"instruction": "什么是机器学习?", "output": "机器学习是人工智能的一个分支,让计算机从数据中学习规律而不需要显式编程。"}
{"instruction": "解释什么是神经网络", "output": "神经网络是受生物神经元启发的计算模型,由多层节点组成,通过权重连接来学习数据模式。"}
"""

# 2. 创建 Modelfile
modelfile_content = """
FROM qwen2_5-7b-q6

# 设置推理参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# 设置系统提示
SYSTEM 你是一个专业的技术助手,用中文回答问题。

# 微调数据路径(需要先准备数据)
TEMPLATE """{{ .System }}

用户:{{ .Prompt }}
助手:"""
"""

# 3. 使用 Ollama 命令行创建微调模型
# ollama create my-finetuned-model -f ./Modelfile

# 4. 使用微调后的模型
# ollama run my-finetuned-model "什么是机器学习?"

print("""
📚 LoRA 微调步骤概要:

1. 准备训练数据(JSONL 格式,每行一个问答对)
2. 创建 Modelfile 指定基础模型和参数
3. 运行: ollama create my-model -f ./Modelfile
4. 测试: ollama run my-model "你的问题"

⚠️ 注意:完整的 LoRA 微调需要使用 transformers + peft 库,
Ollama 主要支持模型导入和推理,训练建议使用:
- unsloth (高效微调)
- transformers + peft (标准方案)
- Axolotl (配置化微调)
""")

八、推理参数:控制模型"怎么说话"的旋钮

除了模型内部的"可训练参数",我们在调用模型时还可以调节 "推理参数" (也叫超参数 Hyperparameters)。这些参数不改变模型的知识,但能控制模型的输出风格

8.1 温度(Temperature):创造力的调节器

温度参数 控制模型输出的随机性。它是面试中出现频率最高的推理参数。

数学原理

复制代码
原始分数 (logits): [2.0, 1.0, 0.0]
     │
     ▼ 除以温度 T
T=0.5: [4.0, 2.0, 0.0]  → softmax → [0.87, 0.12, 0.01] (非常确定)
T=1.0: [2.0, 1.0, 0.0]  → softmax → [0.67, 0.24, 0.09] (正常)
T=2.0: [1.0, 0.5, 0.0]  → softmax → [0.51, 0.31, 0.18] (更均匀)

通俗解释

  • 低温度(0.1-0.4):模型"保守",总是选最可能的词 → 回答稳定、可预测
  • 中温度(0.5-0.8):平衡创造性和确定性 → 适合大多数场景
  • 高温度(0.9-1.5):模型"放飞自我",会选一些意想不到的词 → 适合创意写作

生活类比

温度就像汽车的"驾驶模式"。低温 = 经济模式(省油、稳定);高温 = 运动模式(有劲、但费油)。

代码实战

python 复制代码
from langchain_ollama import ChatOllama

def demonstrate_temperature():
    """演示温度参数的效果"""
    
    prompts = [
        "未来的城市交通将会",
        "给这个产品起一个创意名称:一款可以自动浇花的智能花盆",
    ]
    
    temperatures = [0.2, 0.7, 1.2]
    
    for prompt in prompts:
        print(f"\n📝 提示词: {prompt}")
        print("-" * 50)
        
        for temp in temperatures:
            llm = ChatOllama(
                model="qwen2_5-7b-q6",
                temperature=temp,
                num_predict=100
            )
            
            response = llm.invoke(prompt)
            print(f"\n🌡️ 温度 = {temp}:")
            print(f"   {response.content[:150]}...")

# demonstrate_temperature()

预期效果

复制代码
🌡️ 温度 = 0.2:
   未来的城市交通将会更加智能化、自动化和电动化。

🌡️ 温度 = 0.7:
   未来的城市交通将会出现飞行汽车、地下真空管道和智能交通调度系统。

🌡️ 温度 = 1.2:
   未来的城市交通将会由反重力悬浮车和量子传送网络主导,人们可以在城市间瞬间移动...

8.2 Top-p(核采样):概率分布的智能裁剪

Top-p(也叫 Nucleus Sampling)通过设定一个概率累积阈值 p,只从累积概率达到 p 的最小 Token 集合中采样。

工作原理

复制代码
假设下一个词的候选及其概率:
"猫" 0.4 → 累积 0.4
"狗" 0.3 → 累积 0.7
"鸟" 0.2 → 累积 0.9
"鱼" 0.1 → 累积 1.0

设置 p=0.8 → 只保留"猫""狗""鸟"(累积到0.9,超过0.8)

生活类比

就像你只考虑"最有可能的前几名候选人"。p=0.9 意味着你考虑了累计占 90% 可能性的所有选项。

Top-p vs Top-k

参数 原理 优点 缺点
Top-k 只考虑概率最高的 k 个 简单可控 固定数量可能不灵活
Top-p 考虑累积概率到 p 的所有 自适应 计算稍复杂

代码实战

python 复制代码
def demonstrate_top_p():
    """演示 Top-p 参数的效果"""
    
    prompt = "写一个关于人工智能的短故事开头"
    
    top_p_values = [0.3, 0.7, 0.95]
    
    print(f"📝 提示词: {prompt}\n")
    
    for top_p in top_p_values:
        llm = ChatOllama(
            model="qwen2_5-7b-q6",
            temperature=0.8,
            top_p=top_p,
            num_predict=120
        )
        
        response = llm.invoke(prompt)
        print(f"🎲 Top-p = {top_p}:")
        print(f"   {response.content[:100]}...\n")

8.3 重复惩罚(Repetition Penalty):防止"复读机"

重复惩罚通过降低已出现 Token 的概率,防止模型陷入重复循环。

数学原理

复制代码
惩罚后的概率 = 原始概率 / (惩罚因子 ^ 出现次数)

出现1次 → 除以 1.1
出现2次 → 除以 1.21
出现3次 → 除以 1.33

生活类比

就像开会时,一个人发言次数越多,他下次发言的"权重"就越低------给其他人发言的机会。

代码对比

python 复制代码
def demonstrate_repetition_penalty():
    """演示重复惩罚的效果"""
    
    prompt = "列举5个编程语言的名称"
    
    print(f"📝 提示词: {prompt}\n")
    
    # 无重复惩罚(默认)
    llm_default = ChatOllama(
        model="qwen2_5-7b-q6",
        temperature=0.7,
        repeat_penalty=1.0  # 无惩罚
    )
    
    # 高重复惩罚
    llm_penalized = ChatOllama(
        model="qwen2_5-7b-q6",
        temperature=0.7,
        repeat_penalty=1.2  # 适度惩罚
    )
    
    print("❌ 无重复惩罚 (penalty=1.0):")
    print(f"   {llm_default.invoke(prompt).content[:200]}\n")
    
    print("✅ 有重复惩罚 (penalty=1.2):")
    print(f"   {llm_penalized.invoke(prompt).content[:200]}")

8.4 推理参数速查表

参数 作用 低值效果 高值效果 推荐起始值
temperature 控制随机性 稳定、保守 创意、随机 0.7
top_p 控制候选集大小 保守、聚焦 多样、发散 0.9
top_k 限制候选数量 稳定但可能重复 多样但可能跑题 40-60
repeat_penalty 防止重复 可能复读 避免重复但可能怪异 1.1
max_tokens 限制输出长度 回答短 回答长 512-2048

场景推荐配置

应用场景 temperature top_p repeat_penalty
事实问答 0.1-0.3 0.5-0.7 1.05
代码生成 0.2-0.4 0.8-0.9 1.1
客服对话 0.5-0.7 0.7-0.9 1.1
创意写作 0.8-1.2 0.9-0.95 1.15
头脑风暴 1.0-1.5 0.95-1.0 1.2

九、面试高频题详解(附参考答案)

Q1:什么是大模型的参数?7B 里的 B 是什么意思?

参考答案:参数是模型内部的可调节数值(权重和偏置),是模型存储知识和做出决策的基本单元。7B 里的 B 代表 Billion(十亿),所以 7B 就是 70 亿个参数。

Q2:参数量越大模型就越聪明吗?为什么?

参考答案:大体上是,但不是绝对的。根据 Scaling Law,参数量增加会带来性能幂律增长,但存在边际效应递减。更重要的是,参数量只是"容量",真正决定模型能力的是训练数据质量和训练策略。经典例子:LLaMA-13B 在很多任务上超越了参数量大 10 倍的 GPT-3 175B。

Q3:温度参数(Temperature)是什么?怎么用?

参考答案 :温度参数控制模型输出的随机性。原理是调整 softmax 函数的分布:低温度(<1)使概率分布更尖锐,输出稳定;高温度(>1)使分布更平滑,输出更有创造性。使用建议:事实问答用 0.1-0.3,代码生成用 0.2-0.4,创意写作用 0.8-1.2。

Q4:Top-p 和 Top-k 有什么区别?

参考答案 :两者都用于控制生成时的候选词范围。Top-k 固定选择概率最高的 k 个词,简单但不够灵活。Top-p (核采样)动态选择累积概率达到 p 的最小词集,能自适应分布情况。推荐:大多数场景用 Top-p,p 设为 0.9-0.95。

Q5:7B 模型需要多大显存?怎么估算?

参考答案 :公式:显存 ≈ 参数量 × 每参数字节数 × 1.2。7B 模型:FP16 约需 17GB,INT8 约需 8.5GB,INT4 约需 4.2GB。实际建议:消费级显卡(8-12GB)用 INT8 量化的 7B 模型;高端显卡(24GB)可跑 FP16 的 7B。

Q6:预训练和微调的区别是什么?

参考答案预训练 在大规模无标注数据上学习语言规律和世界知识,注入的是"知识";微调 在特定任务的标注数据上调整模型行为,注入的是"行为"。生活类比:预训练像大学教育(积累知识),微调像岗前培训(学习工作规范)。

Q7:LoRA 和全量微调有什么区别?

参考答案LoRA 只训练少量额外参数(低秩矩阵),显存占用小(+5-10%)、速度快、不会破坏原模型,是大多数场景的首选。全量微调更新所有参数,效果可能更好,但显存需求极大(约3倍模型显存),成本高昂。


总结

核心知识点速记口诀

复制代码
参数是模型的小旋钮,权重偏置各有用。
7B 就是七十亿,规模越大越聪明。
但参数多不是万能,数据质量更关键。
推理参数调风格,温度高低控随机。
Top-p 裁剪候选词,重复惩罚防复读。
显存需求算清楚,量化压缩能省钱。
预训练学知识库,微调定制行为模。
面试把原理讲透,Offer 拿到手不慌。

选型决策树(实用建议)

  • 个人学习/本地部署:7B + INT4 量化
  • 企业客服/简单RAG:13B + INT8 量化
  • 复杂推理/Agent:70B + 量化 + 多卡
  • 成本极度敏感:7B + INT4 + 优质数据微调

写在最后

参数,是大模型的"记忆细胞"和"计算开关"。理解参数,你就理解了大模型为什么能"记住"那么多知识,为什么"越大越聪明",也知道了如何在成本和效果之间做权衡。

面试官问参数,不是在考"定义",而是在考察你的基础扎实程度对模型本质的理解工程化思维

记住:能讲清楚参数的人,模型选型、成本估算、效果调优都不会差。


如果觉得有帮助,欢迎点赞、收藏、转发!有问题欢迎在评论区留言交流。

相关推荐
天真小巫2 小时前
2026.5.2总结
职场和发展
weisian1512 小时前
基础篇--概念原理-1-Token是什么?——从原理到实战,一篇讲透
人工智能·职场和发展·token
AI人工智能+电脑小能手3 小时前
【大白话说Java面试题】【Java基础篇】第26题:Java的抽象类和接口有哪些区别
java·开发语言·面试
逻辑驱动的ken5 小时前
Java高频面试考点场景题20
java·开发语言·深度学习·面试·职场和发展
Wect5 小时前
深度剖析浏览器跨域问题
前端·面试·浏览器
刀法如飞7 小时前
Java数组去重的20种实现方式——指导AI解决不同问题的思路
java·算法·面试
ayqy贾杰7 小时前
Cursor SDK发布!开发者可直接搬走其内核
前端·vue.js·面试
JAVA面经实录91716 小时前
Java企业级工程化·终极完整版背诵手册(无遗漏、全覆盖、面试+落地通用)
java·开发语言·面试
小程故事多_8018 小时前
[大模型面试系列] 多轮对话 Agent 设计实战(含窗口优化 + 工具调用精髓)
人工智能·面试·职场和发展