在智能驾驶的感知系统中,摄像头是车辆的"眼睛"。但你是否注意到:特斯拉、Waymo、小鹏 XNGP、蔚来 NAD 等高阶方案,几乎无一例外地选择输出原始 RAW 数据的摄像头,而非自带 ISP 处理的"智能摄像头"?
这并非偶然。背后是一场关于信息完整性、算法自由度与系统架构演进的抉择。
本文将从传输链路、带宽需求、感知性能三个维度,解析为何 L3+ 自动驾驶坚定拥抱 Raw Sensor(无 ISP 摄像头)。
一、两类摄像头的本质区别
首先明确概念:
- Raw Sensor(无 ISP):仅输出图像传感器原始数据(如 RAW12 Bayer 格式),不做任何图像处理;
- Smart Camera(带 ISP):内置图像信号处理器,输出已处理的 YUV、RGB 或压缩视频流。
📌 关键差异 :
Raw Sensor 传递的是"光子信息",Smart Camera 传递的是"人眼友好图像" ------ 而自动驾驶算法,需要的是前者。
二、传输链路对比:谁更"重"?
▶ Raw Sensor 链路(高阶方案)
单根同轴<6--12 Gbps>
图像传感器(RAW12, MIPI CSI-2)
GMSL 串化器
GMSL 解串器
SoC
(FSD / Orin / J5)
片上 ISP
AI 感知模型
- 特点 :
- 数据未经处理,带宽极高;
- 依赖 GMSL/FPD-Link 等高速 SerDes;
- ISP 功能集中在中央芯片。
▶ Smart Camera 链路(L2 方案)
YUV422 / H.264
图像传感器
板载 ISP
GMSL 或100BASE-T1
域控制器
应用算法
- 特点 :
- 输出已压缩或格式转换后的图像;
- 可用以太网传输;
- 摄像头模组成本更高。
三、带宽真相:RAW 到底有多"重"?
用真实数据说话:
| 视频格式 | 分辨率 & 帧率 | 比特深度 | 计算方式 | 带宽需求 |
|---|---|---|---|---|
| RAW12(Bayer) | 8MP @ 30fps | 12 bit | 3840×2160 × 30 × 12 ÷ 2 |
≈ 1.5 Gbps |
| RAW12(8MP 全分辨率) | 3840×2160 @ 30fps | 12 bit | 3840×2160 × 30 × 12 |
≈ 3.0 Gbps |
| YUV422 | 1080p @ 30fps | 16 bit/pixel | 1920×1080 × 30 × 16 |
≈ 1.0 Gbps |
| RGB888 | 1080p @ 30fps | 24 bit/pixel | 1920×1080 × 30 × 24 |
≈ 1.5 Gbps |
| H.264(压缩) | 1080p @ 30fps | ~4 Mbps | 编码压缩 | ≈ 0.004 Gbps |
💡 注:RAW 数据因 Bayer 阵列只需单通道采样,实际带宽约为全彩的 1/2。
📊 关键结论:
- 8MP RAW12 ≈ 3 Gbps,远高于 1080p YUV(1 Gbps);
- 但 高阶系统宁可承受高带宽,也不愿丢失原始信息;
- GMSL2/3(6--12 Gbps)正是为 RAW 传输而生。
四、为什么 RAW 更适合高阶自动驾驶?
1. 保留最大动态范围
- RAW 数据包含 12-bit 甚至 14-bit 光强信息;
- 而 YUV/RGB 通常被裁剪为 8-bit,暗部/亮部细节永久丢失;
- 对逆光、隧道出口、夜间车灯等场景至关重要。
2. 支持端到端 AI 训练
- Tesla 的 HydraNet 直接以 RAW 为输入训练;
- 若使用 ISP 处理后的图像,ISP 的非线性变换会破坏数据分布,导致模型泛化能力下降。
3. 多摄协同 HDR 成为可能
- 中央 ISP 可同步控制多个摄像头的曝光时序;
- 实现 帧内 HDR (同一帧不同区域不同曝光)或 多摄融合 HDR;
- 而 Smart Camera 各自为政,易产生鬼影、色彩不一致。
4. LED 闪烁抑制(LFM)
- 交通灯、电子广告牌使用 PWM 调光,易被摄像头捕获为闪烁;
- 中央控制可精准对齐曝光窗口与 LED 周期;
- 分布式 ISP 无法协调。
五、行业实践:谁在用 Raw Sensor?
| 厂商 | 平台 | 摄像头型号 | 是否带 ISP | 传输方案 |
|---|---|---|---|---|
| Tesla | HW 3.0 / HW 4.0 | Sony IMX4xx / IMX6xx | ❌ 否 | GMSL2/3 |
| NVIDIA | DRIVE Thor | ON Semiconductor AR0820AT | ❌ 否 | GMSL3 |
| 小鹏 | XNGP | OmniVision OV8856 | ❌ 否 | GMSL2 |
| 蔚来 | NAD | Sony STARVIS 2 | ❌ 否 | GMSL3 |
| Mobileye | EyeQ6 | ACU Reference Design | ❌ 否 | FPD-Link III |
✅ 共识:L3+ 系统 = Raw Sensor + 中央 ISP + 高速 SerDes。
六、Smart Camera 还有未来吗?
当然有------但在特定场景:
- 环视泊车:1080p YUV 足够,成本敏感;
- 舱内 DMS/OMS:需实时人脸检测,带 ISP 可降低主控负载;
- L2 辅助驾驶(如 AEB、LKA):功能固定,无需 RAW 灵活性。
但一旦进入 城市 NOA、Robotaxi、端到端大模型 时代,Raw Sensor 就是唯一选择。
结语:感知的自由,始于原始像素
高阶自动驾驶的本质,是让机器"看见世界本来的样子",而非"人类认为它该有的样子"。
Raw Sensor 放弃了即插即用的便利,换来了算法演进的无限可能 。
它要求更强的芯片、更复杂的链路、更高的工程投入------但这正是通往 L4 的必经之路。
正如 Tesla AI 负责人 Andrej Karpathy 所言:
"我们不是在构建一个摄像头系统,而是在构建一个视觉皮层。"而皮层的第一步,就是接收未经过滤的原始信号。
附:本文所有图表均采用 Mermaid 语法编写,可直接用于支持 Mermaid 的 Markdown 编辑器(如 Typora、Obsidian、GitHub)。带宽计算基于标准视频公式,实际值因 blanking interval 略有浮动。