基础篇--概念原理-2-参数是什么？——从原理到实战，一篇讲透

参数是什么？------从原理到实战，一篇讲透

作者：Weisian
发布时间：2026年4月

直击痛点：

"面试官：'7B、70B 里的参数到底是什么意思？'你：'就是模型里的数字......'面试官：'那为什么参数量越大模型越聪明？70B 一定比 7B 好吗？'你：'呃......不一定吧......'"------这是大模型面试中的经典"翻车现场"：听说过"参数"这个词，但说不清参数是什么、为什么重要、怎么调优。

在大模型时代，参数是最核心却又最容易被混淆的概念之一：

初学者：把参数和算力画等号，以为参数越多越好；
算法工程师：不清楚不同参数的作用，微调时无从下手；
产品经理：不理解参数对模型性能、部署成本的影响，选型踩坑；
面试者：背了"参数是权重"的定义，却讲不清原理和实际价值，错失高薪机会。

解决方案 ：本文将从生活类比出发，深入浅出地讲解参数的本质、三大类型、规模与能力的关系、推理参数的调优技巧，并提供基于本地 Ollama + Qwen2.5 的完整可运行代码。

📌 核心一句话：大模型的参数，本质是模型从海量数据中"学来的经验"，是存储语义规则、逻辑关联的"记忆单元"，相当于模型的"大脑神经元连接"------参数越多，模型能记住的"经验"越细致，理解和生成能力越强（但不是绝对）。
📌 面试金句先记牢（全文精华速览）：

参数定义：训练中学习到的可调整权重和偏置，是模型理解和推理的核心依据。

参数 vs 神经元：神经元是容器，参数是容器里的内容。

三大参数类型：模型参数（权重/偏置）、超参数（训练配置）、推理参数（生成配置）。

规模跃迁：B=Billion（十亿），1B以下像小学生，7B-13B像大学生，70B+像研究生。

参数越多越好？ 不是，需匹配数据量与算力，否则过拟合且成本飙升。

Scaling Law：性能随参数量、数据量、计算量幂律增长，但边际效应递减。

推理参数：温度（随机性）、Top-p（多样性）、Top-k（候选集）、重复惩罚（流畅性）。

微调与参数：微调是调整部分参数（如LoRA），让模型适配特定任务。

本地部署与参数：参数规模决定显存，7B模型需10-15GB，13B需20-30GB（量化后可减半）。

优化技巧：量化（INT4/INT8）、剪枝，降低部署成本。

参数量≠智能：数据质量和训练方法同样关键，70B不一定比7B更适合你的任务。

一、参数的本质：从"数字大脑"到"生活类比"

1.1 一句话定义

大模型的参数，是模型在训练过程中从海量文本数据中学习到的"经验值"，本质是神经网络中神经元之间的连接权重（Weight）和偏置（Bias），是模型"理解"语言、完成推理的核心依据。

1.2 参数的诞生：从"随机噪声"到"有序经验"（训练过程）

大模型不是天生聪明的。它的参数一开始是随机值，就像一台所有旋钮都乱拧的音响。训练的过程，就是通过海量数据"教会"模型如何拧对每一个旋钮。

参数产生的五步循环：

初始化：模型创建时，参数随机生成，此时模型什么都不会。
输入数据：给模型输入海量文本，让模型尝试预测"下一个词"。
计算误差：将模型预测的结果和真实结果对比，计算"误差"（损失函数）。
反向传播：将误差从输出层往回传，告诉每个参数"你该往哪边拧"以减少误差。
更新参数：所有参数根据指令微调一点点。重复步骤2-5，直到误差足够小。

流程图解：

复制代码

初始状态：所有参数随机（乱拧的音响）
     │
     ▼
喂数据："猫"这个字的向量应该是什么？
     │
     ▼
模型预测：猜一个答案
     │
     ▼
计算误差：猜错了多少？（损失函数）
     │
     ▼
反向传播：误差往回传，告诉每个参数"你该往哪边拧"
     │
     ▼
更新参数：所有参数微调一点点
     │
     ▼
重复......直到误差足够小

简单说：训练 = 用数据把"乱拧的旋钮"调到正确位置。

生活类比：模型就像一个刚出生的孩子，参数就是它通过"读书（学习数据）"记住的"知识点"和"逻辑规则"------比如"太阳从东方升起""下雨需要带伞"，这些规则被转化为数字（参数），存储在模型的"大脑"（神经网络）中。

1.3 核心误区：参数存储的是"规则"，不是"数据"

很多人误以为大模型的参数直接存储了训练数据，这是完全错误的。

核心真相 ：参数不存储任何原始数据，只存储"数据中的逻辑规则和语义关联"。

例如，模型看过数百万句包含"你好"的对话，它不会记住这些句子，而是通过参数学习到"你好"是一种问候语，通常用于对话开头------这些"规则"被转化为数字（参数）存储。

1.4 7B、70B 里的"B"是什么？参数如何组成？

B = Billion（十亿）。

7B = 70 亿个参数
70B = 700 亿个参数
175B = 1750 亿个参数（GPT-3 的规模）

这些数字描述的是：模型里一共有多少个可学习权重。

二、参数的分类：业界最合理的"三层体系"

为了彻底理清概念，我们将参数分为三层：模型参数（核心） 、超参数（训练配置） 、推理参数（生成配置）。面试中90%的混淆都源于没分清这三层。

2.1 第一层：模型参数（核心：可学习参数）------权重（Weight）和偏置（Bias）

这是常说的"7B、13B"所指的参数，占比99%以上，是模型真正"学到"的知识。训练后固定，决定模型能力上限。

类型	本质	作用	生活类比
权重	神经元间的连接强度，数字越大，两个神经元关联越强	决定一个输入对输出的影响有多大	你和家人的熟悉程度（权重）很高，和陌生人很低
偏置	神经元的激活阈值，决定神经元是否被激活	让神经元即使输入较弱也能"激活"	闹钟的叫醒时间，到点就响（激活），不到不响。

深度解析：Embedding（嵌入参数）------一切的开端

在模型内部，每个词（Token）都被表示为一个长长的数字列表，这就是Embedding。例如，在 Qwen2.5 中，每个词的 Embedding 是一个 4,096 维的向量。

复制代码

"国王" 的 Embedding ≈ [0.12, -0.34, 0.56, ..., 0.78]  (共4096个数字)
"王后" 的 Embedding ≈ [0.11, -0.33, 0.55, ..., 0.79]  (非常接近！)
"苹果" 的 Embedding ≈ [0.89, 0.12, -0.45, ..., 0.01]  (完全不同！)

权重 vs 偏置：一个形象的比喻：

想象你在嘈杂的房间里听人说话。权重就像音量旋钮------把说话声音大的调得更高，声音小的压得更低。偏置则像一个"助听器增益"按钮------即使某人说话声音小，你也可以整体抬高音量，让他的声音能被听见。两者配合，才能把信息从噪声中提取出来。

特点：

数量庞大，训练时自动调整，决定模型能力上限。
训练完成后固定，不可手动修改。

为什么 Embedding 维度是 4096？

因为计算机喜欢 2 的幂次（2、4、8、16、32......），而 4096 是 2^12。研究发现，这个维度恰好是能力与效率的平衡点：维度太少，无法捕捉语义的细微差别；维度太多，计算成本爆炸。

2.2 第二层：超参数（训练配置）------人工预设的"学习规则"

超参数是训练前人工设定的规则，不参与反向传播更新，但决定训练效率和泛化能力。

超参数	作用	生活类比
学习率(Learning Rate)	每次参数调整的步长，太大不稳定，太小收敛慢	走路步长
批次大小(Batch Size)	每次输入模型的样本数量	一次吃多少饭
迭代次数 (Epochs)	整个数据集被完整训练的次数	复习遍数
Dropout率	训练时随机关闭部分神经元，防止过拟合	考试时不允许查资料

训练超参数 = 学习方法与节奏，决定学得快不快、稳不稳。

2.3 第三层：推理参数（生成配置）------控制"怎么说话"的旋钮

这是调用模型时调节的参数，不改变模型的知识 ，只控制输出风格。面试中出现频率最高。

推理参数	作用	生活类比	Ollama 参数名
温度	控制输出随机性，越低越确定	骰子的权重	`temperature`
Top-p	动态选择累积概率达p的词集	从最有可能的前几个答案里选	`top_p`
Top-k	只考虑概率最高的k个词	只考虑前三名候选人	`top_k`
重复惩罚	降低已出现词的重复概率	防止一个人一直说话	`repeat_penalty`
最大输出Token	限制输出长度	说话字数限制	`num_predict`

这部分是工程调优、产品效果、面试问答的重中之重。

三、参数规模与智能水平：越大就一定越聪明吗？

3.1 规模跃迁：从"小学生"到"研究生"

核心答案：参数规模与模型能力不是线性关系，而是存在**"跃迁点"**。每跨过一个规模门槛，模型会"顿悟"出新的能力。

参数规模	能力表现	类比	代表模型
100M - 1B	基础理解、简单语义	小学生	BERT-base (110M)
1B - 7B	开始有推理能力、能总结	高中生	GPT-2 1.5B
7B - 13B	逻辑推理、创作、代码生成	大学生	LLaMA-7B、Qwen-7B
30B - 70B	系统性思考、跨领域推断	研究生	LLaMA-65B、Qwen-72B
100B+	"世界模型"、抽象推理	专家	GPT-3 175B

生活类比 ：就像学数学。加减乘除（小模型）谁都会，但到了微积分（大模型），只有经过系统训练的人才能理解。不是"多学一点点"就能从算术跳到微积分，而是需要质的飞跃。

3.2 Scaling Law（规模法则）：规模越大，性能越强？

Scaling Law 是 OpenAI 在 2020 年发现的规律：模型的性能随着参数量、数据量、计算量的增加而幂律增长。

关键陷阱 ：性能提升是幂律，不是线性的，边际效应递减。

从 1B → 7B：性能大幅提升（跃迁）
从 7B → 13B：性能提升明显
从 13B → 70B：性能提升显著
从 70B → 100B：提升幅度变小

面试加分回答：

"Scaling Law 告诉我们，参数量翻倍并不会让性能翻倍。GPT-3（175B）相比 GPT-2（1.5B）参数增加了 116 倍，但性能只提升了约 37%。所以不是参数越大越好，而是要在性能和成本之间找平衡。"

3.3 为什么参数量大会变聪明？------"世界模型"的涌现

当参数足够多时，模型会自发学会一种叫 "世界模型" 的能力。它不是死记硬背，而是理解世界如何运作。

小模型（1B）的思维方式：

复制代码

问："为什么天空是蓝色的？"
想："蓝色"和"天空"经常一起出现 → "因为天空是蓝色的"
答："因为天空是蓝色的。"（循环论证）

大模型（70B）的思维方式：

复制代码

问："为什么天空是蓝色的？"
想：光 → 散射 → 波长 → 瑞利散射 → 蓝光波长短 → 被散射得更强
答："蓝光的波长更短，会在大气分子中发生瑞利散射，因此蓝色被各方向扩散，所以人眼看到的是蓝色。"

为什么大模型能学会这些？

参数足够多，意味着模型有足够的"存储空间"来存放：

因果关系链：A 导致 B，B 导致 C
抽象概念映射："快乐"≈"高兴"≈"愉悦"
推理模式：如果-那么、因为-所以

3.4 三个必须知道的"坑"：参数不是万能的

问题	说明	示例
训练成本爆炸	参数量增加，训练成本指数级增长	GPT-3 训练成本约 1200 万美元
推理成本飙升	70B 模型需要多块 A100，7B 单卡就能跑	推理延迟差 10 倍以上
数据和训练方法更关键	参数只是"容器"，喂什么数据更重要	LLaMA-13B 在很多任务上超越了 GPT-3 175B，因为用了更高质量的数据

面试金句：

"参数量决定模型'能不能学会'，数据决定模型'学到的是什么东西'，训练策略决定模型'能不能真正理解'。"

四、参数的实际影响：性能、成本、速度

4.1 性能：参数决定能力上限

参数越多：

理解越深刻（长文本、隐晦语义）；
推理越强（数学、代码、多步逻辑）；
生成越稳定、结构化越好。

4.2 部署成本：参数越多越贵

参数越大，显存占用越高，成本越高。

7B：个人显卡可跑
13B：中高端显卡
70B：专业卡/A100/多卡

4.3 推理速度：参数越大越慢

同算力下，参数翻倍，速度下降约50%~70%。

实时交互（客服、对话）优先用7B。

五、参数与工程落地：显存、速度与优化

参数与显存的换算公式（面试高频）

面试高频题："7B 模型需要多大显存？"

计算公式：

复制代码

显存 ≈ 参数量 × 每个参数占用的字节数 × 1.2（额外开销系数）

不同精度下的显存占用（以7B模型为例）：

精度	每参数占用	7B 模型理论显存	实际推理显存（含开销）
FP32	4 字节	~28 GB	~34 GB
FP16	2 字节	~14 GB	~17 GB
INT8	1 字节	~7 GB	~8.5 GB
INT4	0.5 字节	~3.5 GB	~4.2 GB

推理时的额外开销：

KV Cache：约 1-2 GB（取决于序列长度）
激活值：约 0.5-1 GB
实际需要 ≈ 参数量显存 × 1.2

快速估算：

复制代码

7B 模型 INT8 量化 → 约 8-10 GB 显存（RTX 3080/4070 可以）
7B 模型 FP16 → 约 14-16 GB 显存（RTX 4090 可以）
70B 模型 INT4 量化 → 约 40-45 GB 显存（需要 A100 或双卡）

快速选型建议

8G 显存：7B INT4
12G 显存：7B INT8
24G 显存：13B INT8 / 7B FP16
40G+ 显存：70B INT4

六、参数优化：在性能与成本间找平衡

6.1 量化（最常用）

把高精度参数（FP16）压缩为低精度（INT8/INT4），牺牲少量性能，大幅降低显存。

精度	压缩比	性能损失	适用
FP16	1:1	0%	极致性能
INT8	1:2	5%	均衡
INT4	1:4	10~15%	成本优先

说明：如将FP16转为INT8，显存减半，性能仅降低5%左右，性价比非常高。

Ollama量化模型：

bash 复制代码

ollama pull qwen2_5-7b:q4_0
ollama pull qwen2_5-7b:q8_0

6.2 剪枝

删掉权重极小、几乎无用的参数，减小模型体积。

类比：整理房间，扔掉没用的东西。

6.3 LoRA（微调必用）

只训练少量额外参数 （适配器），不动主模型，节省显存+训练快。
全量微调 ：更新全部参数，效果好但成本极高。
LoRA (Low-Rank Adaptation)：仅训练少量额外的低秩矩阵（<1%参数），省显存、速度快，是当前主流方案。

七、微调与参数：如何"定制"模型？

7.1 预训练 vs 微调：知识 vs 行为

面试常考："预训练和微调有什么区别？"

核心答案：

预训练 ：在海量数据上学习"世界知识"，注入的是知识
微调：在特定数据上学习"行为模式"，注入的是行为

生活类比：

预训练就像一个人读了 12 年书（积累知识），微调就像入职培训（学会怎么干活）。一个人知识再多，不培训也不会按公司规范做事；反之，培训不能替代知识积累。

7.2 全参数微调 vs 参数高效微调（PEFT）

方式	原理	更新参数比例	显存需求	适用场景
全参数微调	更新所有参数	100%	极大（3倍模型显存）	大公司、领域大改
LoRA	插入低秩矩阵	<1%	较小（+5-10%）	大多数场景
QLoRA	LoRA + 量化	<1%	小（4-bit 量化）	消费级显卡
Adapter	插入适配层	约3-5%	较小	特定任务适配

为什么 LoRA 省显存？

全量微调：更新全部参数，效果好但成本极高。
LoRA (Low-Rank Adaptation)：仅训练少量额外的低秩矩阵（<1%参数），省显存、速度快，是当前主流方案。

LoRA 的核心思想：不直接更新大的权重矩阵 W，而是学习两个小矩阵 A 和 B，使得 W + B×A 近似等于更新后的权重。

复制代码

原始权重 W: 4096 × 4096 ≈ 1600 万参数
LoRA 矩阵 A: 4096 × 8 ≈ 3.2 万参数
LoRA 矩阵 B: 8 × 4096 ≈ 3.2 万参数
总共约 6.4 万参数，只有原始权重的 0.4%！

7.3 实战：用 Ollama 进行 LoRA 微调

python 复制代码

"""
使用 Ollama 进行 LoRA 微调的示例
注意：这需要准备训练数据，实际运行时间较长
"""

# 1. 准备训练数据（JSONL 格式）
# 示例数据：questions.jsonl
"""
{"instruction": "什么是机器学习？", "output": "机器学习是人工智能的一个分支，让计算机从数据中学习规律而不需要显式编程。"}
{"instruction": "解释什么是神经网络", "output": "神经网络是受生物神经元启发的计算模型，由多层节点组成，通过权重连接来学习数据模式。"}
"""

# 2. 创建 Modelfile
modelfile_content = """
FROM qwen2_5-7b-q6

# 设置推理参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9

# 设置系统提示
SYSTEM 你是一个专业的技术助手，用中文回答问题。

# 微调数据路径（需要先准备数据）
TEMPLATE """{{ .System }}

用户：{{ .Prompt }}
助手："""
"""

# 3. 使用 Ollama 命令行创建微调模型
# ollama create my-finetuned-model -f ./Modelfile

# 4. 使用微调后的模型
# ollama run my-finetuned-model "什么是机器学习？"

print("""
📚 LoRA 微调步骤概要：

1. 准备训练数据（JSONL 格式，每行一个问答对）
2. 创建 Modelfile 指定基础模型和参数
3. 运行: ollama create my-model -f ./Modelfile
4. 测试: ollama run my-model "你的问题"

⚠️ 注意：完整的 LoRA 微调需要使用 transformers + peft 库，
Ollama 主要支持模型导入和推理，训练建议使用：
- unsloth (高效微调)
- transformers + peft (标准方案)
- Axolotl (配置化微调)
""")

八、推理参数：控制模型"怎么说话"的旋钮

除了模型内部的"可训练参数"，我们在调用模型时还可以调节 "推理参数" （也叫超参数 Hyperparameters）。这些参数不改变模型的知识，但能控制模型的输出风格 。

8.1 温度（Temperature）：创造力的调节器

温度参数 控制模型输出的随机性。它是面试中出现频率最高的推理参数。

数学原理：

复制代码

原始分数 (logits): [2.0, 1.0, 0.0]
     │
     ▼ 除以温度 T
T=0.5: [4.0, 2.0, 0.0]  → softmax → [0.87, 0.12, 0.01] (非常确定)
T=1.0: [2.0, 1.0, 0.0]  → softmax → [0.67, 0.24, 0.09] (正常)
T=2.0: [1.0, 0.5, 0.0]  → softmax → [0.51, 0.31, 0.18] (更均匀)

通俗解释：

低温度（0.1-0.4）：模型"保守"，总是选最可能的词 → 回答稳定、可预测
中温度（0.5-0.8）：平衡创造性和确定性 → 适合大多数场景
高温度（0.9-1.5）：模型"放飞自我"，会选一些意想不到的词 → 适合创意写作

生活类比：

温度就像汽车的"驾驶模式"。低温 = 经济模式（省油、稳定）；高温 = 运动模式（有劲、但费油）。

代码实战：

python 复制代码

from langchain_ollama import ChatOllama

def demonstrate_temperature():
    """演示温度参数的效果"""
    
    prompts = [
        "未来的城市交通将会",
        "给这个产品起一个创意名称：一款可以自动浇花的智能花盆",
    ]
    
    temperatures = [0.2, 0.7, 1.2]
    
    for prompt in prompts:
        print(f"\n📝 提示词: {prompt}")
        print("-" * 50)
        
        for temp in temperatures:
            llm = ChatOllama(
                model="qwen2_5-7b-q6",
                temperature=temp,
                num_predict=100
            )
            
            response = llm.invoke(prompt)
            print(f"\n🌡️ 温度 = {temp}:")
            print(f"   {response.content[:150]}...")

# demonstrate_temperature()

预期效果：

复制代码

🌡️ 温度 = 0.2:
   未来的城市交通将会更加智能化、自动化和电动化。

🌡️ 温度 = 0.7:
   未来的城市交通将会出现飞行汽车、地下真空管道和智能交通调度系统。

🌡️ 温度 = 1.2:
   未来的城市交通将会由反重力悬浮车和量子传送网络主导，人们可以在城市间瞬间移动...

8.2 Top-p（核采样）：概率分布的智能裁剪

Top-p（也叫 Nucleus Sampling）通过设定一个概率累积阈值 p，只从累积概率达到 p 的最小 Token 集合中采样。

工作原理：

复制代码

假设下一个词的候选及其概率：
"猫" 0.4 → 累积 0.4
"狗" 0.3 → 累积 0.7
"鸟" 0.2 → 累积 0.9
"鱼" 0.1 → 累积 1.0

设置 p=0.8 → 只保留"猫""狗""鸟"（累积到0.9，超过0.8）

生活类比：

就像你只考虑"最有可能的前几名候选人"。p=0.9 意味着你考虑了累计占 90% 可能性的所有选项。

Top-p vs Top-k：

参数	原理	优点	缺点
Top-k	只考虑概率最高的 k 个	简单可控	固定数量可能不灵活
Top-p	考虑累积概率到 p 的所有	自适应	计算稍复杂

代码实战：

python 复制代码

def demonstrate_top_p():
    """演示 Top-p 参数的效果"""
    
    prompt = "写一个关于人工智能的短故事开头"
    
    top_p_values = [0.3, 0.7, 0.95]
    
    print(f"📝 提示词: {prompt}\n")
    
    for top_p in top_p_values:
        llm = ChatOllama(
            model="qwen2_5-7b-q6",
            temperature=0.8,
            top_p=top_p,
            num_predict=120
        )
        
        response = llm.invoke(prompt)
        print(f"🎲 Top-p = {top_p}:")
        print(f"   {response.content[:100]}...\n")

8.3 重复惩罚（Repetition Penalty）：防止"复读机"

重复惩罚通过降低已出现 Token 的概率，防止模型陷入重复循环。

数学原理：

复制代码

惩罚后的概率 = 原始概率 / (惩罚因子 ^ 出现次数)

出现1次 → 除以 1.1
出现2次 → 除以 1.21
出现3次 → 除以 1.33

生活类比：

就像开会时，一个人发言次数越多，他下次发言的"权重"就越低------给其他人发言的机会。

代码对比：

python 复制代码

def demonstrate_repetition_penalty():
    """演示重复惩罚的效果"""
    
    prompt = "列举5个编程语言的名称"
    
    print(f"📝 提示词: {prompt}\n")
    
    # 无重复惩罚（默认）
    llm_default = ChatOllama(
        model="qwen2_5-7b-q6",
        temperature=0.7,
        repeat_penalty=1.0  # 无惩罚
    )
    
    # 高重复惩罚
    llm_penalized = ChatOllama(
        model="qwen2_5-7b-q6",
        temperature=0.7,
        repeat_penalty=1.2  # 适度惩罚
    )
    
    print("❌ 无重复惩罚 (penalty=1.0):")
    print(f"   {llm_default.invoke(prompt).content[:200]}\n")
    
    print("✅ 有重复惩罚 (penalty=1.2):")
    print(f"   {llm_penalized.invoke(prompt).content[:200]}")

8.4 推理参数速查表

参数	作用	低值效果	高值效果	推荐起始值
temperature	控制随机性	稳定、保守	创意、随机	0.7
top_p	控制候选集大小	保守、聚焦	多样、发散	0.9
top_k	限制候选数量	稳定但可能重复	多样但可能跑题	40-60
repeat_penalty	防止重复	可能复读	避免重复但可能怪异	1.1
max_tokens	限制输出长度	回答短	回答长	512-2048

场景推荐配置：

应用场景	temperature	top_p	repeat_penalty
事实问答	0.1-0.3	0.5-0.7	1.05
代码生成	0.2-0.4	0.8-0.9	1.1
客服对话	0.5-0.7	0.7-0.9	1.1
创意写作	0.8-1.2	0.9-0.95	1.15
头脑风暴	1.0-1.5	0.95-1.0	1.2

九、面试高频题详解（附参考答案）

Q1：什么是大模型的参数？7B 里的 B 是什么意思？

参考答案：参数是模型内部的可调节数值（权重和偏置），是模型存储知识和做出决策的基本单元。7B 里的 B 代表 Billion（十亿），所以 7B 就是 70 亿个参数。

Q2：参数量越大模型就越聪明吗？为什么？

参考答案：大体上是，但不是绝对的。根据 Scaling Law，参数量增加会带来性能幂律增长，但存在边际效应递减。更重要的是，参数量只是"容量"，真正决定模型能力的是训练数据质量和训练策略。经典例子：LLaMA-13B 在很多任务上超越了参数量大 10 倍的 GPT-3 175B。

Q3：温度参数（Temperature）是什么？怎么用？

参考答案 ：温度参数控制模型输出的随机性。原理是调整 softmax 函数的分布：低温度（<1）使概率分布更尖锐，输出稳定；高温度（>1）使分布更平滑，输出更有创造性。使用建议：事实问答用 0.1-0.3，代码生成用 0.2-0.4，创意写作用 0.8-1.2。

Q4：Top-p 和 Top-k 有什么区别？

参考答案 ：两者都用于控制生成时的候选词范围。Top-k 固定选择概率最高的 k 个词，简单但不够灵活。Top-p （核采样）动态选择累积概率达到 p 的最小词集，能自适应分布情况。推荐：大多数场景用 Top-p，p 设为 0.9-0.95。

Q5：7B 模型需要多大显存？怎么估算？

参考答案 ：公式：显存 ≈ 参数量 × 每参数字节数 × 1.2。7B 模型：FP16 约需 17GB，INT8 约需 8.5GB，INT4 约需 4.2GB。实际建议：消费级显卡（8-12GB）用 INT8 量化的 7B 模型；高端显卡（24GB）可跑 FP16 的 7B。

Q6：预训练和微调的区别是什么？

参考答案 ：预训练 在大规模无标注数据上学习语言规律和世界知识，注入的是"知识"；微调在特定任务的标注数据上调整模型行为，注入的是"行为"。生活类比：预训练像大学教育（积累知识），微调像岗前培训（学习工作规范）。

Q7：LoRA 和全量微调有什么区别？

参考答案 ：LoRA 只训练少量额外参数（低秩矩阵），显存占用小（+5-10%）、速度快、不会破坏原模型，是大多数场景的首选。全量微调更新所有参数，效果可能更好，但显存需求极大（约3倍模型显存），成本高昂。

总结

核心知识点速记口诀

复制代码

参数是模型的小旋钮，权重偏置各有用。
7B 就是七十亿，规模越大越聪明。
但参数多不是万能，数据质量更关键。
推理参数调风格，温度高低控随机。
Top-p 裁剪候选词，重复惩罚防复读。
显存需求算清楚，量化压缩能省钱。
预训练学知识库，微调定制行为模。
面试把原理讲透，Offer 拿到手不慌。

选型决策树（实用建议）

个人学习/本地部署：7B + INT4 量化
企业客服/简单RAG：13B + INT8 量化
复杂推理/Agent：70B + 量化 + 多卡
成本极度敏感：7B + INT4 + 优质数据微调

写在最后

参数，是大模型的"记忆细胞"和"计算开关"。理解参数，你就理解了大模型为什么能"记住"那么多知识，为什么"越大越聪明"，也知道了如何在成本和效果之间做权衡。

面试官问参数，不是在考"定义"，而是在考察你的基础扎实程度 、对模型本质的理解 和工程化思维。

记住：能讲清楚参数的人，模型选型、成本估算、效果调优都不会差。

如果觉得有帮助，欢迎点赞、收藏、转发！有问题欢迎在评论区留言交流。