大模型知识点汇总

1. QLoRA 对比 LoRA 核心区别

LoRA:模型权重用 FP16 半精度存储,整模型占显存高,想要微调 7B 大模型通常需要 24G 以上专业显卡; QLoRA:依靠4bit/8bit 量化 把基座模型压缩存显存,只用 16G 普通消费级游戏显卡就能微调 7B 参数大模型,节省显存是它独一无二优势 。 一句话记:LoRA 高精度费显存,QLoRA 量化省显存

2. Hugging Face 三大核心库分工(Transformers、PEFT、Accelerate)

  1. Transformers :根基库,负责下载模型、分词器 Tokenizer、加载权重、搭建训练推理代码,from_pretrained()就是这个库方法,默认同时加载模型权重 + 配置 config 文件
  2. PEFT :参数高效微调专用库,唯一作用:实现 LoRA、QLoRA、Prefix Tuning 等微调方案,不做向量生成、不做全量训练
  3. Accelerate:分布式训练工具,自动适配单卡、多卡、混合精度训练,简化多机多卡代码,和向量化、数据处理没关系。

3. SFT 定义

SFT 全称有监督微调(Supervised Fine-Tuning),必须用人工标注好的问答数据训练,不能用无标注原始预训练文本。

  • 预训练:大模型基座在海量无标注文本自学(LLaMA、Qwen 原始模型阶段)
  • SFT:拿标注好的 instruction-output 配对数据调教模型听懂人类指令

4. 判断:QLoRA 单卡消费显卡可调 7B → 结论正确

现在主流实操:16G 显存 3090/4060 显卡,靠 QLoRA 就能跑完 7B 模型 SFT 微调。

模块 2:RAG&Embedding & 向量库(文本切片、三大向量库、重排、Emb 模型)

1. Embedding 模型和生成大模型区分

  • BGE、m3e、all-MiniLM:专门做 Embedding 向量转化,输入文本,输出一串数字向量(RAG 向量化专用)
  • LLaMA3、通义千问 Qwen-Chat:生成式大模型,输入文字续写文字,不能生成向量,不能当 Embedding 使用。

2. 三大向量库:FAISS、Chroma、Milvus

  1. FAISS:Meta 开源,CPU/GPU 都能跑,支持单机本地部署 + 分布式集群两种模式,题目说只能分布式是错的;
  2. Chroma:轻量级本地向量库,代码引入即用,不用额外安装服务,小项目首选;
  3. Milvus:企业级分布式向量库,需要单独部署服务,适合百万千万级海量文档场景。

3. Rerank 重排

初次检索是靠向量相似度粗筛一批文档,重排模型会重新精细判断文档和用户问题语义相关性,重新排序,过滤无关文档,是 RAG 优化检索结果的关键步骤。

模块 3:数据能力(Alpaca 格式、数据去重、数据质量评估)

1. Alpaca 标准字段:instruction、input、output

  • instruction:用户指令,必填字段,不能为空
  • input:额外补充上下文,非必填,可空字符串
  • output:模型标准答案,必填。

2. 数据去重的作用

去重 = 删掉重复一模一样的问答样本: ① 减少重复数据重复训练;② 降低模型过拟合;绝对不会增大数据集体积,"增大数据集" 是反向错误描述。

3. 数据质量评估工作内容

质量评估只针对数据集:检查问答对错、剔除病句、乱码、答非所问劣质数据; 模型权重初始化属于模型训练环节,和数据质量没有任何关联,不属于数据评估。

模块 4:部署知识(FastAPI、Docker、vLLM、TensorRT-LLM、限流)

1. vLLM 核心原理:PagedAttention 分页注意力

传统推理显存浪费严重,PagedAttention 借鉴操作系统分页内存思路,复用空闲显存,大幅提升大模型并发推理速度,是 vLLM 提速的核心。

2. TensorRT-LLM

英伟达官方推理加速框架,专门做上线部署推理加速 ,优化 GPU 推理速度,不用于模型微调训练

3. 各工具定位

  • FastAPI:Python 高性能 web 框架,用来把本地模型封装成 HTTP 接口,供前端 / 业务调用;
  • Docker:打包代码、环境、依赖,保证在任何服务器运行环境一致。

模块 5:LLMOps 全知识点(CI/CD、灰度发布、版本管理、可观测、自动评测、成本优化)

1. CI/CD

持续集成 + 持续部署,自动化:代码打包→自动化测试→模型打包→发布上线,全程少人工操作。

2. 灰度发布

新模型不一次性全量替换旧服务,先切少量用户流量跑新模型,观察报错、效果没问题后,再逐步全量放量上线,规避新版本全量崩盘风险。

3. 模型版本管理

每一次微调迭代出来的新模型,都要打版本号区分,方便回滚、对比效果,所以 "版本没用" 是错误认知。

4. LLMOps 五大组成固定内容

模型版本管理、CI/CD 流水线、可观测性、算力成本优化、模型自动评测

  • 可观测:服务监控、日志收集、报错告警、QPS 统计;
  • 成本优化:管控 GPU 算力、显存、服务器资源开销;
  • 自动评测:批量跑测试集,自动化打分,不用人工挨个测模型好坏。
相关推荐
AI原来如此1 小时前
工具篇 Writesonic:AI写作自带事实核查
ai·大模型·ai编程·ai写作
AndrewHZ1 小时前
【LLM技术全景】Transformer架构深度解析:Encoder-Decoder全理解
人工智能·深度学习·语言模型·大模型·llm·transformer·编解码技术
xixixi777772 小时前
Hugging Face 开源模型供应链安全平台、AI 数据隐私保护法草案发布:AI 安全合规进入技术 + 法律双驱动阶段
大数据·人工智能·安全·ai·开源·大模型·智能体
weisian1512 小时前
基础篇--概念原理-22-大模型的Context窗口是什么?怎么理解?——从原理到实战,一篇讲透
大模型·短期记忆·context上下文
Komorebi_99993 小时前
三大实战项目搭建
大模型
武子康3 小时前
Build-Your-Own-X 从零构建轻量级事件驱动微框架:嵌入式与物联网场景下的极简实践
人工智能·后端·物联网·ai·c#·大模型·嵌入式
aicat_cn15 小时前
LLM Agent记忆最新综述!三阶段演进框架+两大前沿机制总结
ai·大模型
格桑阿sir19 小时前
09-大模型智能体开发工程师:结构化输出与JSON Schema
ai·大模型·llm·agent·json schema·智能体·结构化
relis1 天前
AI使用小技巧: 用zed和MinerU本地版,同时学习PDF文档的文字和图片
ai·pdf·大模型·agent