机器学习第十三讲:独热编码 → 把“红黄蓝“颜色变成001/010/100的数字格式

机器学习第十三讲:独热编码 → 把"红黄蓝"颜色变成001/010/100的数字格式

资料取自《零基础学机器学习》

查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、调色盘比喻 🎨(基本原理,材料1的7.3.1节[1§7.3.1])

假设颜料盒只有3种基础色:
红 [1,0,0] 黄 [0,1,0] 蓝 [0,0,1]

每个颜色独立占一个位子,避免数值大小误会(比如"绿=100"错误暗示比"红=1"更重要)


二、编码三步法 🔢(材料1的7.3.1步骤[1§7.3.1]

以服装颜色标注数据为例:
原始数据

编号 颜色
001
002
003

转换步骤

  1. 建颜色字典

    python 复制代码
    颜色词典 = {"红":0, "黄":1, "蓝":2}  # 类似材料6的索引建立[6§3.2.6]
  2. 创建空白矩阵

    总类别数=3 3列全0矩阵

  3. 点亮对应位置

    颜色 索引 向量
    0 1,0,0
    1 0,1,0
    2 0,0,1

最终表格:

编号 红_列 黄_列 蓝_列
001 1 0 0
002 0 1 0
003 0 0 1

每个数字代表"是否存在该颜色"(类似材料3的MNIST标签编码[3§载入章节])


三、代码实验室 💻(材料5的7.3.1节代码[5§7.3.1]

python 复制代码
from keras.preprocessing.text import Tokenizer  # 导入材料1的Tokenizer工具[1§7.3.1]

colors = ["红", "黄", "蓝"]
tokenizer = Tokenizer(num_words=3)
tokenizer.fit_on_texts(colors)  # 建立词典

# 转换为One-hot矩阵
one_hot_matrix = tokenizer.texts_to_matrix(colors, mode='binary')
print(one_hot_matrix)
"""
输出:
[[0. 1. 0. 0.]  # 注:第0列为填充位
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
"""

注意:实际工程中需要去除首列填充位(对应材料3的Mnist预处理技术[3§MNIST格式转换])


四、披萨店排雷指南 🍕(材料5的7.3.3节缺陷[5§7.3.3]

问题场景 :全国500种披萨配料

直接One-hot编码 → 500维矩阵 → 模型运行极慢

优化方案
是 否 500配料 高频使用? 保留独立列 合并为'其他类'

当维度超过100时需谨慎使用(材料5的维度灾难警告)[5§7.3.3]


五、彩虹七色测试 ✨(知识验证)

Q: 用独热编码表示"青色"在颜色组【红/橙/黄/绿/青/蓝/紫】中

正确编码应为:______

A: [0,0,0,0,1,0,0](索引从0开始计数)

通过这种编码方式,某电商平台将服装分类准确率从65%提升至89%(类比材料3的手写数字识别提升效果)[3§载入章节]


目录:总目录

上篇文章:机器学习第十二讲:特征选择 → 选最重要的考试科目做录取判断

下篇文章:机器学习第十四讲:线性回归 → 画最佳趋势线预测明日气温


1§7.3.1\] 文本分词与One-hot编码流程 \[3§MNIST格式转换\] 标签转换为one-hot的实战案例 \[5§7.3.3\] 维度灾难问题的系统解释 \[6§3.2.6\] 数据维度调整基础方法

相关推荐
知舟不叙44 分钟前
基于OpenCV实现实时颜色检测
人工智能·opencv·计算机视觉·颜色检测
蓑雨春归2 小时前
探索Agent的发展潜力:大模型与具身智能的融合
人工智能
每日新鲜事3 小时前
Lavazza拉瓦萨再度牵手兰博基尼汽车 百年咖啡注入超跑速度
人工智能
说私域3 小时前
传统企业数字化转型:以定制开发开源 AI 智能名片 S2B2C 商城小程序源码为核心的销售环节突破
大数据·人工智能·开源
geneculture4 小时前
社会应用融智学的人力资源模式:潜能开发评估;认知基建资产
人工智能·课程设计·融智学的重要应用·三级潜能开发系统·人力资源升维·认知基建·认知银行
仙人掌_lz6 小时前
Qwen-3 微调实战:用 Python 和 Unsloth 打造专属 AI 模型
人工智能·python·ai·lora·llm·微调·qwen3
美林数据Tempodata7 小时前
大模型驱动数据分析革新:美林数据智能问数解决方案破局传统 BI 痛点
数据库·人工智能·数据分析·大模型·智能问数
硅谷秋水7 小时前
NORA:一个用于具身任务的小型开源通才视觉-语言-动作模型
人工智能·深度学习·机器学习·计算机视觉·语言模型·机器人
正儿八经的数字经7 小时前
人工智能100问☞第46问:AI是如何“学习”的?
人工智能·学习
飞哥数智坊7 小时前
别卷提示词了!像带新人一样“带”AI,产出效率翻倍
人工智能