昨天刷B站看到复旦赵斌老师说的一句话"科幻电影里在人脑中植入芯片或许在当下无法实现,但当下可以借助AI人工智能实现人类第二脑"(大概是这个意思)
基本概念
AI
人工智能NLP
自然语言处理LLM
大语言模型Hugging Face
一个提供了丰富的预训练模型和工具库的平台网站Ollama
开源的本地大语言模型运行框架,用来在本地部署调用大语言模型,如DeepSeek-R1
vLLM
一个专注于高性能LLM推理的工具,也可以调用大语言模型,还可作模型文件转化或量化操作llama.cpp
基于纯C/C++
实现的高性能大语言模型推理引擎,专为优化本地及云端部署而设计,上面的Ollama
即是在此基础上的封装和优化Chatbox
为大语言模型对话提供人机界面交互功能,当然也可使用纯命令行方式,随个人喜好
量化
一种通过降低模型参数的表示精度来减少模型大小和计算需求的方法
常用的模型文件格式
safetensors
- 由Hugging Face
推出的一种新型安全模型存储格式,特别关注模型安全性、隐私保护和快速加载,仅包含张量的文件格式 ,如model-00001-of-000002.safetensors
GGUF All-in-one
二进制模型文件 ,如DeepSeek-R1-Distill-Qwen-7B-Q3_K_L.gguf
Q(Quantization)
量化(压缩),后面的数值表示"单个参数的平均bit
数",数值越大越智能K(K Quant)
即多个参数组合一Block
做压缩,初衷是在同一个压缩级别上再补偿些精度回来S L M
等用于区分混合精度的程度,字母顺序越小越精简