以目标检测和分类任务为例理解One-Hot Code

在目标检测和分类任务中,每一个类别都需要一个编码来表示,同时,这个编码会用来计算网络的loss。比如有猫,狗,猪三种动物,这三种动物相互独立,在分类中,将其中任意一种分类为其他都同等的错误。

在这种情况下,我们比如将猫为0,狗为1,猪为2。就会出现一个问题,三者之间两两距离不同。 这在参与损失计算的时候是完全不能接受的:互相独立的标签之间,竟然出现了不对等的情况。

因此,需要有一种表示方法,将互相独立的标签表示为互相独立的数字,并且数字之间的距离也相等。

那么我们可以利用向量的正交性,也就是猫1,0,0,狗0,1,0,猪0,0,1。那么三者是相互独立的。也就是正交的。

可以这么理解,比如某个物体的分类为70%为猫,20%为狗,10%为猪。那么就有输出向量为0.7,0.2,0.1,这个向量可以理解为在One-Hot编码构成的向量空间中的一个具体值,那么在计算loss的时候,将该值和其groundtruth对应的向量进行比对。在训练中,如果该物体真的为猫,那么其groundtruth就是1,0,0,loss应该抑制后两个概率而增加第一位的概率。

例如这里假设一种loss计算 L o s s = ( G r o u n d T r u t h − 0.5 ) ⋅ P r e d i c t Loss=(GroundTruth-0.5)\cdot Predict Loss=(GroundTruth−0.5)⋅Predict就能够得到一个分数,这个分数的提升就代表着第一类的预测得分增大和后两项的减小。

One-Hot的缺点

当分类数量很大的时候,由于要保证各个分类的正交性,会产生维度爆炸的问题。

相关推荐
To_OC4 小时前
搞懂 Token 和 Embedding 后,我终于明白大模型是怎么 "读" 文字的
人工智能·llm·agent
冬奇Lab6 小时前
每日一个开源项目(第139篇):Voicebox - 本地运行的开源 ElevenLabs 替代品
人工智能·开源·资讯
冬奇Lab6 小时前
Skill 系列(03):Skill 设计范式——5 个模式让输出从混沌到可预测
人工智能·开源·agent
IT_陈寒8 小时前
Python搞不定字符串编码?这破玩意坑我两小时!
前端·人工智能·后端
大模型真好玩10 小时前
什么是Loop Engineering?最通俗易懂的Loop Engineering核心概念
人工智能·agent·deepseek
叁两10 小时前
前端转型AI Agent该如何学习?(前置篇)
前端·人工智能·node.js
LaiYoung_10 小时前
🎁 送你一套超好用超实用的 FE AI-Coding Skills
前端·人工智能·开源
ZzT13 小时前
怎么做才不会被 AI 替代?
人工智能·程序员
道友可好13 小时前
从今天开始:你的第一个 Harness Engineering 实践
前端·人工智能·后端