首先要说明的是,真理有其时间、范围、对象的限制。
这篇文章写于2026年3月
https://ai.gitcode.com/zai-org/CogVideoX-2b
经常听到几B 几B, 那么几B 到底是什么意思呢?
记忆力(上下文长度)
B 越大,能记住的内容越多,读长文章、写长文更稳。
硬件要求8GB 显存可运行 8B 量化版,16GB 可流畅运行 14B+。
7B 模型需 8GB 显存
7B 量化版需 ≥8GB 显存;
13B 8GB~16GB 中等
32B 建议 24GB+ 显存。
34B+ 16GB+
70B 建议多卡 A100/H100。
那么幻觉是什么
幻觉(胡说八道)
小模型(1B/3B):幻觉非常严重
7B:中等
13B+:明显靠谱
34B+:很少乱编
AMD RX 9060 XT / RX 7900 XT 16GB价格:¥2500 ~ 3000
大显存性价比之王,适合 13B/34B 模型
常见 Q4、Q5、Q8 到底是什么?
FP16(原始模型):16 位最大、最准、最吃显存 → 13B 要 26GB 显存,普通人跑不动
Q8:8 位几乎不损失精度,体积减半→ 13B 约 13GB
Q5:5 位 很小、很快、质量几乎看不出区别
Q4:4 位极小、超快、性价比最高质量轻微下降,但完全能用→ 13B 约 6.5GB
Q2、Q3:2~3 位压缩太狠,智商暴跌、开始胡说
原始模型:.pth/.bin → 太大,跑不动
量化模型:GGUF(现在唯一主流格式)
文件名类似:
model-q4_K_M.gguf
model-q5_K_M.gguf
model-q8_0.gguf
运行工具:Ollama 或 LM Studio ( 最简单两个 )
Ollama 官网
ollama run llama3:8b-q4_K_M
q8_0:最准、最大、最吃显存
q5_K_M:平衡之王,推荐
q4_K_M:最小、最快、8GB 显卡首选
q3、q2:垃圾,别下
举例(13B 模型)13B q4_K_M → 约 6.5GB → 8GB 显存可流畅
13B q5_K_M → 约 8GB → 8GB 显存刚好
13B q8_0 → 约 13GB → 16GB 显存才舒服
https://github.com/Langboat/Mengzi3
包含了模型的训练代码、推理示例、微调脚本以及项目的README文档。您可以在这里找到最权威的项目信息和技术细节。
https://huggingface.co/Langboat/Mengzi3-13B-Base
权重文件(如 .safetensors 或 .bin 文件)、配置文件(config.json)和分词器(tokenizer)。这是使用和集成模型最常用的入口。
https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base
python
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
# 指定模型在Hugging Face上的路径
model_path = "Langboat/Mengzi3-13B-Base"
# 加载分词器和模型
# trust_remote_code=True 是必须的,因为模型有自定义的代码
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
# 准备输入
inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')
# 如果有可用的GPU,将输入移动到GPU
if torch.cuda.is_available():
inputs = inputs.to('cuda')
# 生成文本
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)
# 解码并打印输出
print(tokenizer.decode(pred[0], skip_special_tokens=True))
13B模型评估信息
https://modelscope.cn/models/langboat/Mengzi3-13B-Base
MMLU (Massive Multitask Language Understanding)
全称:大规模多任务语言理解
| MMLU | CMMLU | OCNLI | GSM8K | HumanEval | |
|---|---|---|---|---|---|
| Mengzi3-13B-Base | 0.651 | 0.588 | 0.776 | 0.631 | 0.287 |
MMLU (Massive Multitask Language Understanding)
全称:大规模多任务语言理解
考什么:这是目前全球最权威的综合智力测试。它涵盖了STEM(科学、技术、工程、数学)、人文、社科等57个学科的选择题。
分数含义:0.651意味着模型在这些多学科选择题中,准确率达到了65.1%。
早期的GPT-3(175B)大约在45%左右,而GPT-4通常在85%以上。
CMMLU (Chinese Massive Multitask Language Understanding)
全称:中文大规模多任务语言理解
考什么:这是MMLU的中国版,专门针对中国语境设计的考试。题目涉及中国历史、文化、法律、医学、教育等特定领域的知识。
OCNLI (Original Chinese Natural Language Inference)
全称:中文自然语言推理
考什么:这是一个逻辑推理测试。给模型两句话(前提和假设),让它判断这两句话的关系是"蕴含"、"矛盾"还是"中立"。这考验的是模型的阅读理解和逻辑判断能力,而不是死记硬背的知识。
GSM8K (Grade School Math 8K)
全称:小学数学8K题集
考什么:这是测试数学推理能力的标准试卷。包含8500道高质量的小学数学应用题(但需要多步推理才能解出来)。
HumanEval
考什么:这是OpenAI推出的代码生成测试。给模型一个函数签名和文档字符串(比如"写一个函数计算斐波那契数列"),看模型生成的代码能否通过单元测试。
分数含义:0.287通常代表 Pass@1 分数(即一次生成就成功的概率为28.7%)。