【神经网络】图像的数字视角

文章目录

图像的数字视角

引言

在机器视觉和目标识别领域,需要处理的对象都是图像,但这些领域的模型都是针对数值进行训练的,那么图像和数值之间是什么关系呢?答案是数字图像天生就是数值形式的。

直观感受

左边是手写数字3的图片形式,右边是手写数字3的像素点形式。

也就是说图像是由像素点组成的二维数组,二维数组的维数由图像的长和宽决定。其中每个像素点也是一个数组,若考虑单通道,数组就一个值,若RGB三通道,数组有三个值。换个说法,每个图像可以看成是三维数组的数值,三维分别是长度,宽度,通道数。下面使用图像常用的函数,去剖析图像的内在。

内在剖析

图像的内在其实就是一个三维数组。

图像常用函数

load_img():将目录下图片加载到程序中内存

img_to_array():将图片转成数字格式显示

复制代码
# 路径下加载图片(图像形式)
img1 = load_img('../../dataset/att_faces/s2/1.pgm',color_mode='grayscale')
# 将图像转换成数值形式(数值形式)
img2 = img_to_array(img1)
# 对比显示
img1
img2

左边是图像形式,右边是对应的数值形式,可以看到有三层大括号,所以是三维数组。

图像三维层次

复制代码
# 图像尺寸 (长,宽)
img1.size

(92,112)

复制代码
# 三维数组外层尺寸
len(img2)

112

复制代码
# 三维数组内层尺寸
len(img2[0])

92

复制代码
# 像素点尺寸
len(img2[0][0])

3

可以看到,图像以三通道方式 加载,像素点尺寸为3,图像数值形式的最外层数组大小为图像的宽112,内层数组大小为图像的长92

经验总结

1 图像本质就是一个由长、宽、通道值组成的三维数组。

相关推荐
2zcode6 分钟前
基于低光照增强与轻量型CNN道路实时识别算法研究(UI界面+数据集+训练代码)
人工智能·算法·cnn·低光照增强·自动驾驶技术
萑澈19 分钟前
Xiaomi MiMo Orbit 百亿 Token 计划申请保姆级教程
人工智能
缝艺智研社20 分钟前
誉财 YC - 23 全自动上底裤明橡筋机:裤腰加工的革新力量
人工智能·自动化缝纫机·线上模板机·无人自动化产线·线内模板机
北京软秦科技有限公司21 分钟前
工厂到货验收的突破:IACheck如何提升AI报告审核效率
人工智能
LaughingZhu22 分钟前
Product Hunt 每日热榜 | 2026-05-03
人工智能·经验分享·深度学习·神经网络·产品运营
缝艺智研社22 分钟前
誉财 YC - 18 - JG 小型激光模板机:服装缝切工艺的革新先锋
人工智能·新人首发·自动化缝纫机·线上模板机·无人自动化产线
m0_4665252927 分钟前
绿盟科技发布2026年一季报,收入微增,亏损收窄,现金流持续为正
人工智能·科技
weixin_4080996728 分钟前
身份证OCR识别中的“隐形防线”:复印件/翻拍检测如何拦截99%的虚假注册?(附多语言代码)
人工智能·ocr·图像识别·api接口·实名认证·身份证ocr·石榴智能
love you joyfully36 分钟前
如何随时随地访问你的“进程”?
网络·人工智能·网络安全·远程访问·网络技术
ting945200037 分钟前
告别无效学习:Scholé 如何用 AI 重构职场学习,让学习直接嵌入工作流
人工智能·学习·重构