计算机视觉算法--第一章:概述

一、探究图像在计算机上的本质

首先我们需要先理解图像究竟是什么?在计算机视觉中,一幅图像是一个矩阵,也就是一个二维向量。简化地说:

  • 图像的宽度 对应矩阵的列数
  • 图像的高度 对应矩阵的行数
  • 矩阵的每个元素代表一个像素,像素是图像最基本的组成部分,图像就是像素的集合。

经过上述的小结,我们很容易就理解了图像的本质。可小结提及到像素,其中又包含着什么信息呢?

一个像素可以包含一个到多个数值来表示其视觉信息,比如:颜色 和 亮度等。而其中的颜色又有灰色图像和彩色图像的区分,灰色图像只含有单个通道(++片面说法++),而彩色图像则含有三个通道。因此在彩色图像 和 灰度图像中,每个像素包含的信息是不同的,彩色图像显然包含更多的信息。

灰色图像的像素通常使用无符号8位整型来表示一个0~255的数值,这也是灰色图像为什么是单通道原因。 基于这种表示方式,进而可以理解RGB图像(彩色图像)为什么是三通道图像。

当然,刚才提及到的通道是8位整型表示也不是绝对的,也可以16位。甚至也可以是浮点数。每个像素的数值类型 和 通道数量一起构成了图像的深度。举个例子:一个三通道的彩色图像使用16位整型来表示每个通道,那么每个像素的位深= 16 * 3 = 48位。

图像浮点数类型是「32 位单精度浮点数(float32)」或「64 位双精度浮点数(float64)」

正是因为这种表示方式,图像可以轻松地转化位数学元素,进而在不同类型的算法中使用。

二、探究色彩空间中RGB 和 HSV

什么是色彩空间?听起来似乎是一个包含所有"颜色"的一种空间领域。这样理解其实也没问题,其理论只是在不同的层面应用上对色彩的表示。

第一个常见的色彩空间--RGB。每个像素是用三个8位整型,即三个通道(R、G、B),每个通道均是0~255,对应红,绿、蓝颜色分量的强度。 正如前面说到灰色图像是单通道是片面这个说法,其实当一副RGB图像每个像素的R、G、B的数值相同,就成了一副三通道的灰色图像。

第二个是计算机视觉常用的色彩空间是HSV(Hue,Saturation,Value),其中包含的信息是:色彩、饱和度、明亮度。每个像素是由这三个数值表示的,和通道表示类似,只是数值代表的含义不同。RGB 是「红绿蓝光叠加」,HSV 是「人眼对颜色的感知逻辑」。

  • 色彩值介于0~360度,用来表示该像素的色彩。
  • 饱和度介于0-100%,用来表示该像素颜色的纯净度。
  • 明亮度介于0-100%,用来表示该像素颜色的明亮程度。

现实中 H 通道的物理范围是 0~360°(比如红色对应 0°、绿色 120°、蓝色 240°),但计算机存储和处理时,会将其映射到整数范围(避免浮点数运算,提升效率)。等同的S、V通道也是同样如此,最常见的映射:缩放到 0~255。

相关推荐
HIT_Weston6 分钟前
65、【Agent】【OpenCode】用户对话提示词(费米估算)
人工智能·agent·opencode
njsgcs13 分钟前
我的知识是以图片保存的,我的任务状态可能也与图片有关,我把100张知识图片丢给vlm实时分析吗
人工智能
星爷AG I29 分钟前
20-4 长时工作记忆(AGI基础理论)
人工智能·agi
王老师青少年编程37 分钟前
csp信奥赛C++高频考点专项训练之贪心算法 --【哈夫曼贪心】:合并果子
c++·算法·贪心·csp·信奥赛·哈夫曼贪心·合并果子
#卢松松#44 分钟前
用秒悟(meoo)制作了一个GEO查询小工具。
人工智能·创业创新
zandy10111 小时前
Agentic BI 架构实战:当AI Agent接管数据建模、指标计算与可视化全链路
人工智能·架构
数字供应链安全产品选型1 小时前
关键领域清单+SBOM:834号令下软件供应链的“精准治理“逻辑与技术落地路径
人工智能·安全
Flying pigs~~1 小时前
RAG智慧问答项目
数据库·人工智能·缓存·微调·知识库·rag
叼烟扛炮1 小时前
C++第二讲:类和对象(上)
数据结构·c++·算法·类和对象·struct·实例化
zuozewei1 小时前
从线下到等保二级生产平台:一次公有云新型电力系统 AI 部署复盘
人工智能