计算机视觉技术底层原理说明文档(上篇):基础与图像处理

文档摘要

本文档旨在构建完整的 AI 视觉(计算机视觉)基础知识体系。上篇主要聚焦于计算机视觉的本质、两大核心分类任务(目标检测与测距),以及传统图像处理技术中机器如何从像素级别"看懂"一张图像的完整生命周期。


模块一:计算机视觉(CV)的基础概念

1. 核心技术本质

计算机视觉的基础处理单元是图像(Image)。对于计算机系统而言,并不存在真实的"动态连续视频"这一物理介质,所谓的视频识别系统,本质上是对连续输入的多帧图像进行高频、快速的"逐帧分析与检测"(例如 30fps 即每秒处理30张独立的图像帧)。

2. 视觉任务的两大核心主线

在工业与消费级应用中,视觉任务主要解决两大物理空间问题:

  1. 目标检测与识别 (Object Detection & Recognition):提取图像特征,解决对象"是什么(分类)"以及"在哪里(空间坐标定位)"的问题。
  2. 图像测距与深度估计 (Depth Estimation):在二维的图像矩阵中推算目标对象与镜头(或真实世界基准点)的三维物理距离。

💡 通俗原理解释

AI 看视频就像人在看高频翻页的连环画或定格动画。赋予 AI 视觉能力,核心就是教会它回答两个基础问题:"画面前面出现的是什么东西?" 以及 "这个东西离我的镜头有多远?"


模块二:图像测距底层几何原理

机器只认识二维矩阵里的像素点,从二维推算三维深度的常见工程方案分为以下两类:

1. 双目测距(立体视觉 Stereo Vision)

  • 硬件结构:依赖两个处于同一水平基准线的独立摄像头(模拟人类双眼)。
  • 物理现象(视差):当左右两个镜头同时拍摄同一个物体时,由于观测夹角的不同,同一个物体在左图和右图的像素坐标中会产生偏移量,这种偏移被称为"视差 (Disparity)"。
  • 计算模型 :将两个摄像头之间的固定物理距离作为几何中的"基线 (Baseline)",结合镜头的焦距参数,利用三角定位几何模型和相似三角形公式,精确计算出物体到镜头的绝对直线距离。

2. 单目测距(透视求距 Monocular Vision)

  • 硬件结构:依赖单个具备高精度传感器的独立摄像头。
  • 计算模型:通过控制摄像头在空间中旋转特定角度,或进行已知规律的自我位移。机器通过对比同一个物体在不同视角或不同距离下"成像尺寸的大小变化比例",结合透视原理推算距离。
  • 技术局限 :受制于缺少另一个视角的物理参照物,其测距容易受外界光照、物体自身变化以及传感器精度的影响。通常这种方案被应用于 100米范围以内 的中近场测距。

模块三:机器识别图像的底层四步解析

在深度学习网络广泛应用之前,亦或是在要求极高精度的工业缺陷检测(如医学影像、微米级瑕疵检测)中,计算机从输入图片到认出目标的底层逻辑,必须经过一段由浅入深的图形学演算过程。这是传统极客采用 OpenCV 库操作的核心:

步骤一:边缘检测 (Edge Detection)

  • 计算逻辑 :计算机系统遍历每一个像素点及其周围的邻居,计算它们之间的 RGB 变化梯度灰度明暗差异。利用求导或梯度算子(如 Sobel 算子),找出颜色差异发生"断崖式突变"的位置,从而勾勒出不同物体的初步线稿轮廓。

步骤二:图片归一化与颜色简化 (Normalization & Binarization)

  • 计算逻辑 :现实世界的色彩极其复杂(包含光斑、阴影、渐变色),会大规模消耗显卡的并行计算算力。为了实现降维,算法通常会将图片转化为灰度图,或者进一步使用特定的阈值算法(Thresholding)将图片强行转换为纯黑与纯白的二值化矩阵形,剥离不必要的彩色数据。

步骤三:边缘平滑与形态修补 (Edge Smoothing / Morphology)

  • 计算逻辑 :经过初步提取的图像边缘,在像素级别通常会表现出剧烈的锯齿、断裂以及周围散落的噪点。此时需引入特定的数学工具(如高斯平滑滤波算法)去噪,并通过形态学中的"膨胀与腐蚀"算法,把断开的边界连接上,把毛刺消除掉,最终得到干净、圆滑且闭合的几何边界。

步骤四:特征提取与综合匹配 (Feature Extraction & Matching)

  • 计算逻辑
    • 针对简单几何体:由于边界已经闭合且平滑,可直接代入面积、周长、多边形参数等数学公式进行对比识别。
    • 针对复杂物体 (如人脸、车辆车辆):单一的轮廓已无法满足。此时需要利用角点检测等算法,提取图像内部不可改变的海量关键特征点(例如人脸的双眼眼角间距、鼻梁弯曲度、嘴角特定弧度坐标等),进行大规模的多维度空间向量匹配。

💡 通俗原理解释

机器从图片里认出一个人,就像学画画的过程。

  1. 先抓"色差",画出大体轮廓和线稿(边缘检测);
  2. 觉得渐变色计算太消耗脑力,直接用大号黑色墨水只留黑白两色(颜色简化/二值化);
  3. 用橡皮擦涂改掉边缘乱七八糟的杂线,让轮廓变得清晰圆润(滤波与平滑去噪);
  4. 重点提取眼睛、鼻子这些独一无二的局部特征点,跟脑海里的记忆比对,从而判断出这个人是谁。
相关推荐
实在智能RPA2 小时前
2026 企业 AI 选型博弈:自研大模型底座的“研发黑洞” vs. 标准化 Agent 平台的“效能突围”
人工智能·ai
fundoit2 小时前
OpenClaw通过ROS控制机器人完整教程
人工智能·ai·机器人·ai编程·openclaw
deephub2 小时前
TPU 架构与 Pallas Kernel 编程入门:从内存层次结构到 FlashAttention
人工智能·python·深度学习·tpu
人工智能培训2 小时前
少量样本下具身智能的新环境快速适应路径
人工智能·深度学习·机器学习
枫叶林FYL2 小时前
【脑电图信号自动睡眠分期(机器学习驱动睡眠质量评估)】第二章 应用场景拓展、可穿戴集成与临床转化挑战
人工智能·深度学习·机器学习
K姐研究社2 小时前
Pexo AI视频制作教程 – 零门槛生成UGC带货视频
人工智能
智能工业品检测-奇妙智能2 小时前
绩效考核系统的核心功能
人工智能·目标检测·计算机视觉·奇妙智能
多租户观察室2 小时前
工作流新生态:2026年工作流与Coding的重新分工
前端·人工智能·后端·低代码
枫叶林FYL2 小时前
公开数据集类型汇总分类
人工智能·分类·数据挖掘