图像形成与计算机视觉基础

1. 图像形成的基本原理

图像形成是物理世界与传感器(如胶片、CCD/CMOS)交互的过程,核心是光线的传播与记录。

1.1 直接放置胶片模型
  • 物理原理:物体表面反射的光线直接照射到胶片上,但无任何遮挡或聚焦机制。

  • 问题:所有物体点的光线会覆盖整个胶片,导致完全模糊(如图1)。

1.2 针孔相机模型
  • 改进:在物体与胶片间加入针孔屏障,仅允许通过小孔的光线到达胶片(图2)。

  • 关键参数

    • 孔径大小(d):孔径越小,成像越清晰但亮度越低(需权衡信噪比)。

    • 焦距(f):针孔到胶片的距离,决定成像比例。

1.3 透镜模型
  • 原理:透镜通过折射集中光线,替代针孔以提高亮度(图3)。

  • 薄透镜公式

    1/f=1/u+1/v

    • u:物距(物体到透镜的距离)

    • v:像距(透镜到成像平面的距离)

  • 景深(Depth of Field):透镜允许一定范围内的物体清晰成像,与光圈大小成反比。

2. 投影几何与数学模型

2.1 透视投影(Perspective Projection)
2.2 仿射投影(Affine Projection)
2.3 消失点与消失线

3. 颜色空间与模型

3.1 RGB颜色空间
  • 定义:通过红、绿、蓝三原色的叠加表示颜色(图6)。

  • 缺点

    • 通道强相关:调整亮度需同时改变所有通道。

    • 非线性感知:人眼对亮度的响应接近对数尺度,而RGB是线性的。

3.2 HSV/HSL颜色空间
  • 组成

    • H(色相):颜色类型(0°-360°)。

    • S(饱和度):颜色纯度(0%-100%)。

    • V(明度)/L(亮度):颜色明暗程度。

  • 应用:图像编辑软件(如Photoshop)中的颜色选择器。

3.3 YCbCr颜色空间
  • 分离亮度与色度

    • Y(亮度):Y=0.299R+0.587G+0.114B

    • Cb(蓝色色差):Cb=0.564(B−Y)+128

    • Cr(红色色差):Cr=0.713(R−Y)+128

  • 压缩优势:人眼对亮度更敏感,可对Cb/Cr进行子采样(如4:2:0)。

3.4 CIELAB颜色空间

4. 数字图像形成技术

4.1 空间采样(Spatial Sampling)
  • 奈奎斯特采样定理:采样频率需大于信号最高频率的2倍,避免混叠(图7)。

    • 示例:若图像最高空间频率为100 cycles/mm,则采样间隔需小于0.005 mm。
  • 像素阵列

    x=j⋅Δx,y=k⋅Δy(j,k 为整数)

4.2 量化(Quantization)
  • 位深度与灰度级

    • 8位:256级(JPEG标准)。

    • 12位:4096级(医学影像)。

    • 16位:65536级(专业摄影)。

  • 量化误差

    误差=动态范围2n(n=位深度)

4.3 分辨率与存储权衡
  • 空间分辨率

    • 人脸识别:64×64像素(约0.1MP)可满足基本需求。

    • 高清显示:1920×1080像素(2MP)。

  • 存储计算

    单张图像大小=宽×高×通道数×位深度单张图像大小=宽×高×通道数×位深度

    • 示例:24位彩色图(3通道×8位),1024×768像素:

      1024×768×3×8=18,874,368 bits=2.36 MB

5. 空间域与变换域操作

    • 定义

      • 图像处理:输入图像 → 输出图像,目标是抑制失真、增强有用信息(如对比度调整、去噪)。

      • 图像分析:输入图像 → 提取特征/测量(如边缘检测、目标计数)。

      • 计算机视觉:输入图像 → 语义理解(如目标识别、场景重建)。

    • 空间域操作:直接在像素值上进行处理,分为两类:

      • 点操作:单个像素独立变换,公式:

        g(x,y)=T(f(x,y))(如对比度拉伸、反转)g(x,y)=T(f(x,y))(如对比度拉伸、反转)

      • 邻域操作:基于像素周围区域计算,公式:

        g(x,y)=T(f(x,y),f(x+1,y),f(x−1,y),... )(如均值滤波)g(x,y)=T(f(x,y),f(x+1,y),f(x−1,y),...)(如均值滤波)

6. 点操作详解

6.1 对比度拉伸(Contrast Stretching)
6.2 阈值处理(Thresholding)
6.3 强度反转(Intensity Inversion)
6.4 对数与幂变换

7. 直方图处理

7.1 直方图均衡化(Histogram Equalization)
7.2 直方图规定(Histogram Matching)

8. 算术与逻辑操作

  • 算术操作

    • 加法:多幅图像平均降噪(噪声方差降低 σ2NNσ2​)。

    • 减法:检测变化区域(如运动目标)。

  • 逻辑操作

    • AND/OR:掩膜操作(提取特定区域)。

    • XOR:检测差异(如边缘增强)。

9. 关键问题解析

10.总结

  • 图像形成:从物理模型(针孔、透镜)到数学建模(透视/仿射投影)。

  • 颜色科学:不同颜色空间适应不同需求(编辑、压缩、感知)。

  • 数字化技术:采样与量化需平衡质量与效率,避免信息损失。

  • 点操作:直接修改像素值,适合对比度调整和二值化。

  • 直方图处理:通过分布调整优化全局或局部对比度。

  • 算术操作:多用于图像融合与噪声抑制。

  • 核心公式与算法:如Otsu阈值、直方图均衡化需熟练掌握推导与应用。

相关推荐
初学小刘18 小时前
深度学习在目标检测中的应用与挑战
人工智能·深度学习·目标检测
AKAMAI18 小时前
Linebreak赋能实时化企业转型:专业系统集成商携手Akamai以实时智能革新企业运营
人工智能·云原生·云计算
OpenBayes19 小时前
教程上新|重新定义下一代 OCR:IBM 最新开源 Granite-docling-258M,实现端到端的「结构+内容」统一理解
人工智能·深度学习·机器学习·自然语言处理·ocr·图像识别·文档处理
985小水博一枚呀19 小时前
【AI大模型学习路线】第三阶段之RAG与LangChain——第十九章(实战基于Advanced RAG的PDF问答)系统部署与测试?
人工智能·学习·langchain·pdf
腾视科技20 小时前
让安全驾驶有“AI”相伴|腾视科技DMS视频监控一体机,守护每一次出行
人工智能·科技·安全
桃子叔叔20 小时前
从0到1讲解大模型中的关键步骤(一)分词、词性标注、命名实体识别
人工智能·大模型·多模态
ARM+FPGA+AI工业主板定制专家20 小时前
【JETSON+FPGA+GMSL】实测分享 | 如何实现激光雷达与摄像头高精度时间同步?
人工智能·数码相机·机器学习·fpga开发·机器人·自动驾驶
Nina_71720 小时前
Google提示词白皮书总结(2)
人工智能·python
fakerth20 小时前
【OpenHarmony】AI引擎模块架构
人工智能·架构·openharmony
综合热讯20 小时前
湖南粒界教育科技有限公司:专注影视技能培养,AI辅助教学提升学员就业竞争力
人工智能·科技