计算机视觉技术底层原理说明文档（上篇）：基础与图像处理

无名-CODING2026-03-26 14:55

文档摘要 ：

本文档旨在构建完整的 AI 视觉（计算机视觉）基础知识体系。上篇主要聚焦于计算机视觉的本质、两大核心分类任务（目标检测与测距），以及传统图像处理技术中机器如何从像素级别"看懂"一张图像的完整生命周期。

模块一：计算机视觉（CV）的基础概念

1. 核心技术本质

计算机视觉的基础处理单元是图像（Image）。对于计算机系统而言，并不存在真实的"动态连续视频"这一物理介质，所谓的视频识别系统，本质上是对连续输入的多帧图像进行高频、快速的"逐帧分析与检测"（例如 30fps 即每秒处理30张独立的图像帧）。

2. 视觉任务的两大核心主线

在工业与消费级应用中，视觉任务主要解决两大物理空间问题：

目标检测与识别 (Object Detection & Recognition)：提取图像特征，解决对象"是什么（分类）"以及"在哪里（空间坐标定位）"的问题。
图像测距与深度估计 (Depth Estimation)：在二维的图像矩阵中推算目标对象与镜头（或真实世界基准点）的三维物理距离。

💡 通俗原理解释 ：

AI 看视频就像人在看高频翻页的连环画或定格动画。赋予 AI 视觉能力，核心就是教会它回答两个基础问题："画面前面出现的是什么东西？" 以及 "这个东西离我的镜头有多远？"

模块二：图像测距底层几何原理

机器只认识二维矩阵里的像素点，从二维推算三维深度的常见工程方案分为以下两类：

1. 双目测距（立体视觉 Stereo Vision）

硬件结构：依赖两个处于同一水平基准线的独立摄像头（模拟人类双眼）。
物理现象（视差）：当左右两个镜头同时拍摄同一个物体时，由于观测夹角的不同，同一个物体在左图和右图的像素坐标中会产生偏移量，这种偏移被称为"视差 (Disparity)"。
计算模型 ：将两个摄像头之间的固定物理距离作为几何中的"基线 (Baseline)"，结合镜头的焦距参数，利用三角定位几何模型和相似三角形公式，精确计算出物体到镜头的绝对直线距离。

2. 单目测距（透视求距 Monocular Vision）

硬件结构：依赖单个具备高精度传感器的独立摄像头。
计算模型：通过控制摄像头在空间中旋转特定角度，或进行已知规律的自我位移。机器通过对比同一个物体在不同视角或不同距离下"成像尺寸的大小变化比例"，结合透视原理推算距离。
技术局限 ：受制于缺少另一个视角的物理参照物，其测距容易受外界光照、物体自身变化以及传感器精度的影响。通常这种方案被应用于 100米范围以内 的中近场测距。

模块三：机器识别图像的底层四步解析

在深度学习网络广泛应用之前，亦或是在要求极高精度的工业缺陷检测（如医学影像、微米级瑕疵检测）中，计算机从输入图片到认出目标的底层逻辑，必须经过一段由浅入深的图形学演算过程。这是传统极客采用 OpenCV 库操作的核心：

步骤一：边缘检测 (Edge Detection)

计算逻辑 ：计算机系统遍历每一个像素点及其周围的邻居，计算它们之间的 RGB 变化梯度 或灰度明暗差异。利用求导或梯度算子（如 Sobel 算子），找出颜色差异发生"断崖式突变"的位置，从而勾勒出不同物体的初步线稿轮廓。

步骤二：图片归一化与颜色简化 (Normalization & Binarization)

计算逻辑 ：现实世界的色彩极其复杂（包含光斑、阴影、渐变色），会大规模消耗显卡的并行计算算力。为了实现降维，算法通常会将图片转化为灰度图，或者进一步使用特定的阈值算法（Thresholding）将图片强行转换为纯黑与纯白的二值化矩阵形，剥离不必要的彩色数据。

步骤三：边缘平滑与形态修补 (Edge Smoothing / Morphology)

计算逻辑 ：经过初步提取的图像边缘，在像素级别通常会表现出剧烈的锯齿、断裂以及周围散落的噪点。此时需引入特定的数学工具（如高斯平滑滤波算法）去噪，并通过形态学中的"膨胀与腐蚀"算法，把断开的边界连接上，把毛刺消除掉，最终得到干净、圆滑且闭合的几何边界。

步骤四：特征提取与综合匹配 (Feature Extraction & Matching)

计算逻辑 ：
- 针对简单几何体：由于边界已经闭合且平滑，可直接代入面积、周长、多边形参数等数学公式进行对比识别。
- 针对复杂物体 （如人脸、车辆车辆）：单一的轮廓已无法满足。此时需要利用角点检测等算法，提取图像内部不可改变的海量关键特征点（例如人脸的双眼眼角间距、鼻梁弯曲度、嘴角特定弧度坐标等），进行大规模的多维度空间向量匹配。

💡 通俗原理解释 ：

机器从图片里认出一个人，就像学画画的过程。

先抓"色差"，画出大体轮廓和线稿（边缘检测）；

觉得渐变色计算太消耗脑力，直接用大号黑色墨水只留黑白两色（颜色简化/二值化）；

用橡皮擦涂改掉边缘乱七八糟的杂线，让轮廓变得清晰圆润（滤波与平滑去噪）；

重点提取眼睛、鼻子这些独一无二的局部特征点，跟脑海里的记忆比对，从而判断出这个人是谁。

上一篇：Oracle替换工程实践深度解析：从迁移挑战到金仓“零改造”实践

下一篇：用AI 48小时速通梅花易数之后，我想通了「学习」的最终解

热门推荐

01GitHub 镜像站点 02AI科技热点日报 | 2026年07月01日 03幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 042026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 05GPT-5.5 对比 GPT-5.6 Sol、Terra、Luna：官方性能数据与选型分析 062026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 082026 年 AI 编程工具终极横评：Cursor vs Claude Code vs Copilot vs Windsurf 092026 AI 编程工具终极实战指南：Cursor vs Claude Code vs Copilot，开发者该怎么选？10几个好用的ip纯净度检测网站