图解大模型_生成式AI原理与实战学习笔记(第四章)

第四章关键名词全解释(基于书中原文)

1 混淆矩阵(Confusion Matrix)

混淆矩阵展示模型分类的四种可能结果:

书中图 4-8 清楚展示了四格矩阵【引用】:

  • TP(真正例):正类预测正确
  • FP(假正例):预测为正,但实际为负
  • TN(真负例):负类预测正确
  • FN(假负例) :预测为负,但实际为正
    【引用:混淆矩阵解释见:L1--L27】【】

混淆矩阵是理解后续所有指标的基础。


2 精确率(Precision)是什么?

精确率衡量模型识别出的结果中有多少是相关的。【L30-L31】

公式来自书中:
Precision = TP / (TP + FP)

👉 通俗理解

模型说"这是正例"的那些里,有多少是真的?

示例:模型认为 10 条是正面评论,其中 8 条真的正面 → 精确率=8/10=0.8


3 召回率(Recall)是什么?

书中原文:

召回率指的是所有相关类别中有多少被成功识别出来。【L32-L33】

公式来自书中:
Recall = TP / (TP + FN)

👉 通俗理解

真实的正例里,你找出来了多少?

示例:共有 20 条正例,你成功找出了 15 条 → 召回率 = 15/20 = 0.75


4 准确率(Accuracy)是什么?

书中原文:

准确率指模型在所有预测中做出正确预测的比例。

公式:
Accuracy = (TP + TN) / (TP + FP + FN + TN)

👉 通俗理解

总共预测的结果里,有多少是对的?

但是在类别不平衡时,这个指标经常会骗人(例如 99% 都是负例)。


5 F1 分数(F1 Score)是什么?为什么常用?

书中原文:

F1 分数平衡了精确率和召回率,用于衡量整体性能。

书中公式:
F1 = 2 × (Precision × Recall) / (Precision + Recall)

👉 通俗理解:

精确率和召回率常常冲突,F1 是它们的"折中平均分"。

当你既想要"预测得准"(precision)又想"一个不漏"(recall)时,F1 是最合理的评价指标。

书中示例:

  • 嵌入模型 + 逻辑回归 → F1 = 0.85

  • 使用零样本分类 → F1 = 0.78


6 逻辑回归(Logistic Regression)是什么?

书中原文:

分类器不限于逻辑回归,可以采用任何形式。

书中解释它的使用方式:

  • 将嵌入向量作为输入
  • 使用 sklearn 的 LogisticRegression 训练

👉 通俗解释

逻辑回归不是"回归",而是一种二分类算法

它做的事是:

输入一堆特征(例如嵌入),输出"是正类的概率是多少"。

若概率 > 0.5 → 属于正类,否则负类。

逻辑回归优点:

  • 简单、可解释
  • 训练快
  • 在嵌入固定的情况下,只需训练少量参数

这也是本书选择它作为示例的原因。


7 加权平均(Weighted Average)与宏平均(Macro Avg)

  • 宏平均(Macro Avg):每个类别的精确率/召回率/F1 平均,不看样本多少。
  • 加权平均(Weighted Avg):按类别数据量加权,更真实反映整体性能。

书中采用的是 Weighted F1。


8 零样本分类(Zero-shot Classification)

书中原文:

没有标注数据的情况下探索分类任务是否可行。

通俗解释:

不用训练数据,让模型直接根据文字理解来分类。


总结

名词 通俗解释
精确率 预测为正的里,有多少是真的?
召回率 真实为正的里,你找到了多少?
F1 分数 精确率与召回率的折中平均,分类模型最常用指标
准确率 总体预测正确比例,但不适合类别不平衡
混淆矩阵 分类结果的四格表:TP/FP/FN/TN
逻辑回归 最经典的二分类模型,输入向量输出概率
零样本分类 不需要标注数据,模型靠理解直接分类

第四章问答

第 1 题:为什么"嵌入模型 + 逻辑回归"可以做文本分类?

因为嵌入模型将文本映射到一个语义向量空间:

  • 相似语义 → 相似向量
  • 不同语义 → 分布在不同区域

逻辑回归只需要把这些向量作为"特征"输入,就可以:

  • 学习一个线性决策边界
  • 将空间分成类别区域
  • 新样本落在哪边就属于哪个类

嵌入模型 无需训练 ,逻辑回归 非常轻量,因此整个流程极快、成本极低。


第 2 题:有标注数据时,什么时候仍然会选择零样本分类?

标注数据不一致、不可靠、不稳定 时。

零样本分类依赖"标签描述的语义",而不是标注质量。当:

  • 标注风格混乱
  • 标注规则有偏差
  • 标注含义变动
  • 标注样本太少
  • 类别经常变化

零样本分类反而更稳,因为它用的是模型自己的语义知识。


第 3 题:表示模型 vs 生成模型做分类的主要区别?

表示模型(BERT)

  • 输入:文本
  • 输出:类别(固定标签)
  • 无法生成解释
  • 高效、稳定、适合大规模分类
  • 有标注数据时性能最好

生成模型(GPT/T5)

  • 输入:文本 + prompt
  • 输出:文本(可解释、可对话)
  • 能写分析、能解释理由
  • 灵活、适用于复杂语义
  • 适合零样本、动态规则

第 4 题:为什么"嵌入 + LR"训练非常快?

  • 嵌入模型完全冻结,不参与训练
  • 只训练一个小小的逻辑回归(几千个参数)
  • CPU 就能训
  • 几秒钟以内即可完成

训练成本几乎为零。


第 5 题:为什么嵌入模型可以做无监督分类?

因为嵌入模型把:

  • 语义相似的文本 → 映射到相近向量
  • 语义不同的文本 → 映射到不同区域

在这个"语义空间"中,
不需要标签也可以通过相似度或聚类自动分组。


第 6 题:T5 如何把分类任务变成文本生成任务?

T5 采用 Text-to-Text 框架:

  • 输入:"sst2 sentence: 这电影太棒了"
  • Encoder:编码输入
  • Decoder:生成一个文本作为输出(如 "positive")

即:所有任务都被格式化为:

文本 → 文本(包括分类任务)

因此分类结果也是"生成"的文本。


第 7 题:使用 ChatGPT 做分类的优势?

  • 不需要训练,只需 prompt
  • 能生成原因、解释、分析
  • 能根据提示词调整分类规则
  • 支持动态类别
  • 对模糊语义的理解能力更强
  • 更符合人类偏好(RLHF)
  • 对复杂任务远比传统模型灵活

第 8 题:为什么"嵌入 + 监督分类"比零样本效果更强?

因为监督学习:

  • 直接学习任务的真实规律
  • 优化专属的"决策边界"
  • 在任务数据分布上拟合得更准

零样本分类只是通过类别名称的语义进行"推断",
没有学习决策边界,所以准确度较低。


第 9 题:表示模型与生成模型的取舍?

✔ 什么时候用表示模型

  • 有标注数据
  • 追求最高 F1
  • 不需要解释
  • 要高吞吐量
  • 海量数据,低成本场景
  • 分类规则明确、稳定

✔ 什么时候用生成模型

  • 没有标注数据
  • 需要解释、分析
  • 规则复杂、语义模糊
  • 类别经常变化
  • 想通过 prompt 值得调整规则
  • 需要自然语言结果

第 10 题:嵌入 + LR vs 微调 BERT 有何区别?(四维度)

✔ 训练成本

  • 嵌入 + LR:极低,CPU 即可
  • 微调 BERT:高,必须 GPU

✔ 数据需求

  • 嵌入 + LR:几十条即可
  • 微调 BERT:几千〜几万条

✔ 性能

  • 嵌入 + LR:不错(F1=0.85)
  • BERT 微调:通常最强

✔ 灵活性

  • 嵌入 + LR:灵活,可快速换类目
  • BERT 微调:不灵活,换类需重训

第 11 题:为什么大模型不适合百万级数据分类?

  • 成本极高(按 token 收费)
  • 推理速度慢(自回归生成)
  • 输出不稳定(随机性、格式不一致)
  • 不适合结构化、大批量处理
  • 吞吐量远不如表示模型

第 12 题:逻辑回归如何找到"决策边界"?

逻辑回归:

  • 不计算余弦
  • 不比较标签向量
  • 它做的是:
    找到一个最佳的"超平面",把不同类别的向量分开。

新样本落在哪边 → 属于哪类。


第 13 题:为什么标签名称会影响零样本分类?

零样本分类依赖:

  • 标签名称的语义
  • 标签描述的向量
  • 文本向量与标签向量的相似度

因此:

  • 标签写错
  • 标签模糊
  • 标签反着写
  • 标签太短、不清晰

都会直接导致结果偏差。

模型不是学数据,而是学标签描述的"语言意义"。


第 14 题:为什么聚类能"自动找出类别"?

因为嵌入模型已经把语义相似的文本映射到相近位置。

聚类算法(如 KMeans)只是:

  • 找出自然形成的"向量堆积区"
  • 把靠近同一中心点的文本分成一组

无需标签,因为"语义结构"已经在空间中存在。


第 15 题:为什么文本分类是一个"工具箱"?

因为分类任务的需求高度多样:

  • 有无标注
  • 高精度 vs 快速上线
  • 需要解释 vs 不需要解释
  • 类别是否固定
  • 数据规模大小
  • 成本要求是否严格

不同任务 → 最优方案完全不同。

工具箱包括:

  • BERT 微调
  • 嵌入 + 逻辑回归
  • 零样本分类
  • 生成模型分类
  • 聚类(无监督)

真正的能力不是掌握一个模型,而是:

根据任务条件选择最优方案。


相关推荐
NAGNIP13 小时前
一文搞懂深度学习中的通用逼近定理!
人工智能·算法·面试
冬奇Lab15 小时前
一天一个开源项目(第36篇):EverMemOS - 跨 LLM 与平台的长时记忆 OS,让 Agent 会记忆更会推理
人工智能·开源·资讯
冬奇Lab15 小时前
OpenClaw 源码深度解析(一):Gateway——为什么需要一个"中枢"
人工智能·开源·源码阅读
AngelPP18 小时前
OpenClaw 架构深度解析:如何把 AI 助手搬到你的个人设备上
人工智能
宅小年18 小时前
Claude Code 换成了Kimi K2.5后,我再也回不去了
人工智能·ai编程·claude
九狼19 小时前
Flutter URL Scheme 跨平台跳转
人工智能·flutter·github
ZFSS19 小时前
Kimi Chat Completion API 申请及使用
前端·人工智能
天翼云开发者社区20 小时前
春节复工福利就位!天翼云息壤2500万Tokens免费送,全品类大模型一键畅玩!
人工智能·算力服务·息壤
知识浅谈20 小时前
教你如何用 Gemini 将课本图片一键转为精美 PPT
人工智能
Ray Liang21 小时前
被低估的量化版模型,小身材也能干大事
人工智能·ai·ai助手·mindx