视觉传感器 - 技术栈

视觉传感器

视觉传感器：

Event相机

全景相机

RGB-D相机

双目相机

单目相机

定义与基本概念

视觉传感器是一种集成视觉照明、镜头和摄像头的紧凑设备，是一种专门设计的机器视觉系统，用于在非结构化环境中执行简单的存在/缺失检测，并提供通过/未通过结果。它结合了相机的图像采集功能与计算机的处理能力，可对元件或产品的位置、质量和完整性做出决策。

工作原理与组成结构

工作原理

视觉传感器是一种将光学信号转化为数字信号的设备，用于图像采集、处理和分析。它通过光学镜头将物体图像投射到感光元件上，再将光信号转化为电信号，经图像处理部分进行分析。通常由CMOS或CCD传感器捕获图像，并通过特定软件进行配置和处理。

组成部分

视觉传感器主要由以下部分组成：

光学部分
感光元件（摄像头）
图像处理部分（视觉处理器）
通信模块
集成式光源

部分视觉传感器集成处理器，因此也被称为智能相机。

主要功能

视觉传感器可执行以下任务：

存在/不存在检查
缺陷检测
OCR（文字识别）
物体计数
装配验证
位置、方向、颜色、文本、距离等特征检查

类型分类

视觉传感器主要有两种投影类型：透视投影型和正交投影型。还有彩色模型和单色模型之分。

优势特点

相比光电、激光和接近传感器等其他传感器，视觉传感器的优势包括：

能处理多个检测点
能识别图案、颜色等特征
适应不同环境
节省时间与成本
操作简便
灵活安装和易用配置

应用领域

视觉传感器广泛应用于多个行业：

汽车工业
电子制造
食品饮料
医疗行业
机器人技术
自动驾驶
安防监控
自动化生产流水线

主流厂商

国内外有多家知名厂商提供视觉传感器产品，如康耐视（Cognex）、Baumer、Sensopart等，提供多种型号以满足不同工业需求。

一、Event相机（事件相机/神经形态相机）

工作原理

Event相机是一种仿生视觉传感器，模仿人眼视网膜的工作原理

不按固定帧率拍摄图像，而是基于像素级亮度变化异步输出"事件流"

每个像素独立工作，持续监测亮度变化，当变化超过设定阈值时触发事件

每个事件包含：**坐标、时间戳、亮度变化方向（ON/OFF）**‍

核心特点

特性 Event相机传统帧相机

动态范围 140 dB 约60 dB

时间分辨率 微秒级 毫秒级

延迟极低（无输入延迟）存在输入延迟

运动模糊无高速运动时明显

功耗 低功耗 相对较高

应用场景

无人机导航与跟踪

自动驾驶车辆感知

机器人SLAM（同时定位与地图构建）

AR/VR动作捕捉

工业高速检测

物体追踪

二、全景相机（360°相机）

工作原理与设计

可拍摄360度全方位图像的设备

常见设计方案：

连续旋转的折叠光学系统（"光棒"扫描相机）

多相机阵列球形排列（如Panono由多个小相机组成球体）

六目拼接方案（如使用多个GoPro组合）

专业级一体化设备（如Matterport用于高精度三维建模）

行业应用场景

VR虚拟看房

新闻媒体宣传拍摄

建筑项目管理与施工现场记录

虚拟教育培训

全景空间直播（演唱会、活动）

谷歌街景数据采集

三、RGB-D相机（RGB+深度相机）

基本原理

集成RGB相机 和深度相机的设备，可同时获取物体的颜色和深度信息

核心组件：红外投影器、红外相机、RGB相机、计算单元

两种主流技术路线

1. 结构光（Structured Light）

通过投射编码光图案，经物体反射后根据光失真情况获取三维信息

优点：精度高、可输出较高分辨率深度图

缺点：近距离适用、远距离精度差、受强光环境干扰大

2. ToF（Time of Flight，飞行时间）

通过测量光脉冲飞行时间计算相机与目标的距离

优点：适合远距离和动态场景、无需提取反射特征、计算量较低

缺点：精度相对较低

应用领域

机械手抓取

机器人SLAM映射

3D人脸识别

无人驾驶辅助感知

VR/AR空间定位

农业果实识别与采摘指导

常见产品

Kinect系列（第一代用结构光，第二代部分用ToF）

Intel RealSense系列

各类ToF RGB-D摄像头模组

四、双目相机（立体视觉相机）

工作原理

由左、右两个相机组成，从不同视角拍摄同一场景

基于三角测量原理：通过两条射线的交汇确定唯一目标点的三维坐标

工作流程：图像采集 → 极线校正 → 立体匹配 → 视差图 → 深度图/点云

两相机中心之间的距离称为**基线（Baseline）**‍，决定测量范围

特点分析

优势：

对相机硬件要求低，成本低

室内外都适用

无需主动光源，使用自然光

局限：

对环境光照非常敏感，强光阴影或昏暗环境下效果下降

不适用于单调缺乏纹理的场景（天空、白墙、沙漠等），易匹配失败

计算复杂度高，需逐像素计算匹配

基线长度限制测量范围：基线越大测量越远，基线越小测量越近

应用场景

工业机器人实时环境感知与拾取放置任务

月球车导航地形信息采集

智慧农业中的应用研究

五、单目相机（Monocular Camera）

基本原理

仅使用单个摄像头进行图像采集的设备

无法直接获取深度信息，需依赖先验假设或运动信息推算

单目视频重建3D轨迹需解决**不适定问题（ill-posed problem）**‍

3D重建方法

几何方法：Structure from Motion (SfM)、SLAM、多视图立体

光度方法：Shape from Shading（光度立体法）

学习方法：基于深度学习的单目深度估计

近期进展：UniK3D可实现通用相机模型的单目3D估计；PanoRecon可实现实时全景语义3D重建

应用领域

智慧城市：大规模高分辨率3D地图重建

医疗影像：单目内窥镜视频重建结肠黏膜3D模型

人体动作分析：单目视频重建3D人体模型

移动点目标的3D轨迹重构

局限性

在没有假设条件下，仅从单目图像重建3D运动不可行

观测条件有限时（观测不足、距离远、平台观测误差大）最小二乘估计面临病态问题

缺乏视差信息导致深度估计具有尺度不确定性

总结对比表

类型是否主动发光深度获取方式精度适用场景

Event相机否（被动响应亮度变化）异步事件流高时间分辨率高速动态场景

全景相机否图像拼接 N/A 360°环境采集

RGB-D（结构光）是（主动红外）三角测量高（近距离）室内精确测量

RGB-D（ToF）是（主动脉冲光）飞行时间中（远距离）远距离动态场景

双目相机否视差三角测量中室内外通用

单目相机否需算法推算依赖算法低成本应用

特性	Event相机	传统帧相机
动态范围	140 dB	约60 dB
时间分辨率	微秒级	毫秒级
延迟	极低（无输入延迟）	存在输入延迟
运动模糊	无	高速运动时明显
功耗	低功耗	相对较高

类型	是否主动发光	深度获取方式	精度	适用场景
Event相机	否（被动响应亮度变化）	异步事件流	高时间分辨率	高速动态场景
全景相机	否	图像拼接	N/A	360°环境采集
RGB-D（结构光）	是（主动红外）	三角测量	高（近距离）	室内精确测量
RGB-D（ToF）	是（主动脉冲光）	飞行时间	中（远距离）	远距离动态场景
双目相机	否	视差三角测量	中	室内外通用
单目相机	否	需算法推算	依赖算法	低成本应用