【星海出品】智能科普(一)

首先要说明的是，真理有其时间、范围、对象的限制。

这篇文章写于2026年3月

https://ai.gitcode.com/zai-org/CogVideoX-2b

经常听到几B 几B, 那么几B 到底是什么意思呢?

记忆力（上下文长度）

B 越大，能记住的内容越多，读长文章、写长文更稳。
硬件要求

8GB 显存可运行 8B 量化版，16GB 可流畅运行 14B+。

7B 模型需 8GB 显存

7B 量化版需 ≥8GB 显存；

13B 8GB～16GB 中等

32B 建议 24GB+ 显存。

34B+ 16GB+

70B 建议多卡 A100/H100。

那么幻觉是什么

幻觉（胡说八道）

小模型（1B/3B）：幻觉非常严重

7B：中等

13B+：明显靠谱

34B+：很少乱编
AMD RX 9060 XT / RX 7900 XT 16GB

价格：¥2500 ~ 3000

大显存性价比之王，适合 13B/34B 模型

常见 Q4、Q5、Q8 到底是什么？

FP16（原始模型）：16 位最大、最准、最吃显存 → 13B 要 26GB 显存，普通人跑不动

Q8：8 位几乎不损失精度，体积减半→ 13B 约 13GB

Q5：5 位很小、很快、质量几乎看不出区别

Q4：4 位极小、超快、性价比最高质量轻微下降，但完全能用→ 13B 约 6.5GB

Q2、Q3：2~3 位压缩太狠，智商暴跌、开始胡说

原始模型：.pth/.bin → 太大，跑不动

量化模型：GGUF（现在唯一主流格式）

文件名类似：

model-q4_K_M.gguf

model-q5_K_M.gguf

model-q8_0.gguf

运行工具：Ollama 或 LM Studio ( 最简单两个 )

Ollama 官网

https://ollama.com/

ollama run llama3:8b-q4_K_M

q8_0：最准、最大、最吃显存

q5_K_M：平衡之王，推荐

q4_K_M：最小、最快、8GB 显卡首选

q3、q2：垃圾，别下
举例（13B 模型）

13B q4_K_M → 约 6.5GB → 8GB 显存可流畅

13B q5_K_M → 约 8GB → 8GB 显存刚好

13B q8_0 → 约 13GB → 16GB 显存才舒服

https://github.com/Langboat/Mengzi3

包含了模型的训练代码、推理示例、微调脚本以及项目的README文档。您可以在这里找到最权威的项目信息和技术细节。

https://huggingface.co/Langboat/Mengzi3-13B-Base

权重文件（如 .safetensors 或 .bin 文件）、配置文件（config.json）和分词器（tokenizer）。这是使用和集成模型最常用的入口。

https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base

python 复制代码

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 指定模型在Hugging Face上的路径
model_path = "Langboat/Mengzi3-13B-Base"

# 加载分词器和模型
# trust_remote_code=True 是必须的，因为模型有自定义的代码
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)

# 准备输入
inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')

# 如果有可用的GPU，将输入移动到GPU
if torch.cuda.is_available():
    inputs = inputs.to('cuda')

# 生成文本
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)

# 解码并打印输出
print(tokenizer.decode(pred[0], skip_special_tokens=True))

13B模型评估信息

https://modelscope.cn/models/langboat/Mengzi3-13B-Base

MMLU (Massive Multitask Language Understanding)

全称：大规模多任务语言理解

	MMLU	CMMLU	OCNLI	GSM8K	HumanEval
Mengzi3-13B-Base	0.651	0.588	0.776	0.631	0.287

MMLU (Massive Multitask Language Understanding)

全称：大规模多任务语言理解

考什么：这是目前全球最权威的综合智力测试。它涵盖了STEM（科学、技术、工程、数学）、人文、社科等57个学科的选择题。

分数含义：0.651意味着模型在这些多学科选择题中，准确率达到了65.1%。

早期的GPT-3（175B）大约在45%左右，而GPT-4通常在85%以上。

CMMLU (Chinese Massive Multitask Language Understanding)

全称：中文大规模多任务语言理解

考什么：这是MMLU的中国版，专门针对中国语境设计的考试。题目涉及中国历史、文化、法律、医学、教育等特定领域的知识。

OCNLI (Original Chinese Natural Language Inference)

全称：中文自然语言推理

考什么：这是一个逻辑推理测试。给模型两句话（前提和假设），让它判断这两句话的关系是"蕴含"、"矛盾"还是"中立"。这考验的是模型的阅读理解和逻辑判断能力，而不是死记硬背的知识。

GSM8K (Grade School Math 8K)

全称：小学数学8K题集

考什么：这是测试数学推理能力的标准试卷。包含8500道高质量的小学数学应用题（但需要多步推理才能解出来）。

HumanEval

考什么：这是OpenAI推出的代码生成测试。给模型一个函数签名和文档字符串（比如"写一个函数计算斐波那契数列"），看模型生成的代码能否通过单元测试。

分数含义：0.287通常代表 Pass@1 分数（即一次生成就成功的概率为28.7%）。