【星海出品】智能科普(一)

首先要说明的是,真理有其时间、范围、对象的限制。

这篇文章写于2026年3月

https://ai.gitcode.com/zai-org/CogVideoX-2b

经常听到几B 几B, 那么几B 到底是什么意思呢?

记忆力(上下文长度)

B 越大,能记住的内容越多,读长文章、写长文更稳。
硬件要求

8GB 显存可运行 8B 量化版,16GB 可流畅运行 14B+。

7B 模型需 8GB 显存

7B 量化版需 ≥8GB 显存;

13B 8GB~16GB 中等

32B 建议 24GB+ 显存。

34B+ 16GB+

70B 建议多卡 A100/H100。

那么幻觉是什么

幻觉(胡说八道)

小模型(1B/3B):幻觉非常严重

7B:中等

13B+:明显靠谱

34B+:很少乱编
AMD RX 9060 XT / RX 7900 XT 16GB

价格:¥2500 ~ 3000

大显存性价比之王,适合 13B/34B 模型

常见 Q4、Q5、Q8 到底是什么?

FP16(原始模型):16 位最大、最准、最吃显存 → 13B 要 26GB 显存,普通人跑不动

Q8:8 位几乎不损失精度,体积减半→ 13B 约 13GB

Q5:5 位 很小、很快、质量几乎看不出区别

Q4:4 位极小、超快、性价比最高质量轻微下降,但完全能用→ 13B 约 6.5GB

Q2、Q3:2~3 位压缩太狠,智商暴跌、开始胡说

原始模型:.pth/.bin → 太大,跑不动

量化模型:GGUF(现在唯一主流格式)

文件名类似:

model-q4_K_M.gguf

model-q5_K_M.gguf

model-q8_0.gguf

运行工具:Ollama 或 LM Studio ( 最简单两个 )

Ollama 官网

https://ollama.com/

ollama run llama3:8b-q4_K_M

q8_0:最准、最大、最吃显存

q5_K_M:平衡之王,推荐

q4_K_M:最小、最快、8GB 显卡首选

q3、q2:垃圾,别下
举例(13B 模型)

13B q4_K_M → 约 6.5GB → 8GB 显存可流畅

13B q5_K_M → 约 8GB → 8GB 显存刚好

13B q8_0 → 约 13GB → 16GB 显存才舒服

https://github.com/Langboat/Mengzi3

包含了模型的训练代码、推理示例、微调脚本以及项目的README文档。您可以在这里找到最权威的项目信息和技术细节。

https://huggingface.co/Langboat/Mengzi3-13B-Base

权重文件(如 .safetensors 或 .bin 文件)、配置文件(config.json)和分词器(tokenizer)。这是使用和集成模型最常用的入口。

https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base

python 复制代码
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# 指定模型在Hugging Face上的路径
model_path = "Langboat/Mengzi3-13B-Base"

# 加载分词器和模型
# trust_remote_code=True 是必须的,因为模型有自定义的代码
tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=False, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)

# 准备输入
inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')

# 如果有可用的GPU,将输入移动到GPU
if torch.cuda.is_available():
    inputs = inputs.to('cuda')

# 生成文本
pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)

# 解码并打印输出
print(tokenizer.decode(pred[0], skip_special_tokens=True))

13B模型评估信息

https://modelscope.cn/models/langboat/Mengzi3-13B-Base

MMLU (Massive Multitask Language Understanding)

全称:大规模多任务语言理解

MMLU CMMLU OCNLI GSM8K HumanEval
Mengzi3-13B-Base 0.651 0.588 0.776 0.631 0.287

MMLU (Massive Multitask Language Understanding)

全称:大规模多任务语言理解

考什么:这是目前全球最权威的综合智力测试。它涵盖了STEM(科学、技术、工程、数学)、人文、社科等57个学科的选择题。

分数含义:0.651意味着模型在这些多学科选择题中,准确率达到了65.1%。

早期的GPT-3(175B)大约在45%左右,而GPT-4通常在85%以上。

CMMLU (Chinese Massive Multitask Language Understanding)

全称:中文大规模多任务语言理解

考什么:这是MMLU的中国版,专门针对中国语境设计的考试。题目涉及中国历史、文化、法律、医学、教育等特定领域的知识。

OCNLI (Original Chinese Natural Language Inference)

全称:中文自然语言推理

考什么:这是一个逻辑推理测试。给模型两句话(前提和假设),让它判断这两句话的关系是"蕴含"、"矛盾"还是"中立"。这考验的是模型的阅读理解和逻辑判断能力,而不是死记硬背的知识。

GSM8K (Grade School Math 8K)

全称:小学数学8K题集

考什么:这是测试数学推理能力的标准试卷。包含8500道高质量的小学数学应用题(但需要多步推理才能解出来)。

HumanEval

考什么:这是OpenAI推出的代码生成测试。给模型一个函数签名和文档字符串(比如"写一个函数计算斐波那契数列"),看模型生成的代码能否通过单元测试。

分数含义:0.287通常代表 Pass@1 分数(即一次生成就成功的概率为28.7%)。

相关推荐
Learn Beyond Limits2 小时前
RNN的多样化用途|The diverse applications of RNN
人工智能·深度学习·神经网络·机器学习·ai·语言模型·自然语言处理
dyclg2 小时前
OpenClaw使用kimi web_search返回401问题
人工智能·ai
Zero.Ki2 小时前
MiniMax 权益码 Token Plan 套餐 9 折优惠
ai·ai agent·minimax·openclaw·token plan
大卫小东(Sheldon)2 小时前
Rudist 0.4.3 发布:让 AI Agent 替你操作 Redis
ai·rust·rudist
AlbertS2 小时前
记一次推送lfs失败不能迁移git仓库到新的gitlab的问题
git·ai·gitlab·lfs·rejected
智算菩萨3 小时前
GPT-5.4 进阶思考模式全面解析:从推理等级到实战提示词,代码、论文、数据处理一站通
人工智能·gpt·深度学习·机器学习·语言模型·自然语言处理·chatgpt
OPHKVPS3 小时前
OpenAI推出Safety Bug Bounty计划:聚焦AI滥用与安全风险
ai
ISACA中国3 小时前
中国与欧盟AI治理框架的比较与应对
人工智能·ai·隐私·欧盟·合规
FelixZhang0283 小时前
从 PDF 到 AI 知识库:RAG 数据预处理的六步标准流水线 (SOP)
人工智能·python·目标检测·计算机视觉·语言模型·ocr·numpy