DeepSeek大语言模型下几个常用术语

昨天刷B站看到复旦赵斌老师说的一句话"科幻电影里在人脑中植入芯片或许在当下无法实现,但当下可以借助AI人工智能实现人类第二脑"(大概是这个意思)

基本概念

  • AI 人工智能
  • NLP 自然语言处理
  • LLM 大语言模型
  • Hugging Face 一个提供了丰富的预训练模型和工具库的平台网站
  • Ollama 开源的本地大语言模型运行框架,用来在本地部署调用大语言模型,如DeepSeek-R1
  • vLLM 一个专注于高性能LLM推理的工具,也可以调用大语言模型,还可作模型文件转化或量化操作
  • llama.cpp 基于纯C/C++实现的高性能大语言模型推理引擎,专为优化本地及云端部署而设计,上面的Ollama即是在此基础上的封装和优化
  • Chatbox 为大语言模型对话提供人机界面交互功能,当然也可使用纯命令行方式,随个人喜好

量化

一种通过降低模型参数的表示精度来减少模型大小和计算需求的方法

常用的模型文件格式

  • safetensors - 由 Hugging Face 推出的一种新型安全模型存储格式,特别关注模型安全性、隐私保护和快速加载,仅包含张量的文件格式 ,如model-00001-of-000002.safetensors
  • GGUF All-in-one 二进制模型文件 ,如DeepSeek-R1-Distill-Qwen-7B-Q3_K_L.gguf
    • Q(Quantization)量化(压缩),后面的数值表示"单个参数的平均bit数",数值越大越智能
    • K(K Quant)即多个参数组合一Block做压缩,初衷是在同一个压缩级别上再补偿些精度回来
    • S L M 等用于区分混合精度的程度,字母顺序越小越精简
相关推荐
聚客AI15 分钟前
系统提示的“消亡”?上下文工程正在重新定义人机交互规则
图像处理·人工智能·pytorch·语言模型·自然语言处理·chatgpt·gpt-3
红纸28121 分钟前
Subword算法之WordPiece、Unigram与SentencePiece
人工智能·python·深度学习·神经网络·算法·机器学习·自然语言处理
golang学习记22 分钟前
Crush:新一代基于Go语言构建的开源 AI 编程CLI工具
人工智能
一车小面包25 分钟前
Subword-Based Tokenization策略之BPE与BBPE
人工智能·自然语言处理
红纸28126 分钟前
Subword分词方法的BPE与BBPE
人工智能·python·深度学习·神经网络·自然语言处理
zy_destiny39 分钟前
【工业场景】用YOLOv8实现反光衣识别
人工智能·python·yolo·机器学习·计算机视觉
zhangjipinggom43 分钟前
QwenVL - 202310版-论文阅读
人工智能·深度学习
PKNLP1 小时前
深度学习之循环神经网络RNN
人工智能·pytorch·rnn·深度学习
大模型真好玩1 小时前
低代码Agent开发框架使用指南(三)—小白5分钟利用Coze轻松构建智能体
人工智能·agent·coze
计算衎1 小时前
PyTorch的AI框架小白入门的学习点
人工智能·pytorch·深度学习