具身智能中的传感器技术40.2——事件相机0.2

下文为翻译文，只是对事件相机的讨论，非专门针对具身智能领域。

Ref1：https://lenzgregor.com/posts/event-cameras-2025-part1/

Ref2：https://lenzgregor.com/posts/event-cameras-2025-part2/

事件相机技术发展与应用挑战分析

事件相机技术近年来在分辨率（128×128提升至1280×720）和动态范围（120dB）方面取得进展，但面临三大核心挑战：

数据瓶颈：高分辨率传感器在高速场景下产生GB级/秒的数据流，反而可能因噪声和重影降低性能；
算法适配：传统二进制脉冲数据与机器学习框架不兼容，需开发新型混合表示方法（如事件帧、动态图网络）；
硬件生态：现有GPU架构与事件流稀疏性不匹配，专用加速器（如神经形态芯片）尚未形成规模效应。

创新方向包括：

传感器设计：索尼等厂商推出混合传感器，结合事件流与RGB输出；
算法优化：状态空间模型（SSM）和脉冲神经网络（SNN）在时序建模中展现潜力；
应用场景：国防领域侧重远距探测，可穿戴设备追求低功耗，自动驾驶需平衡延迟与精度。

未来突破点在于建立标准化的事件表示方法，实现传感器-算法-硬件的协同设计，而非追求单一技术路线。

在第一部分中，我概述了可能采用活动摄像机的不同行业领域。除了找到合适的应用场景之外，活动摄像机要普及到大众市场，还面临着一些技术上的挑战。

传感器功能

下表总结了今天最新的事件摄像机拍摄情况。

相机供应商	传感器	型号名称	年	解决	动态范围（dB）	最大带宽（兆电子伏/秒）
启动	第二代DVS	DAVIS346	2017	346×260	约120	12
启动	第三代DVS	DVXPlorer	2020	640×480	90-110	165
先知	索尼 IMX636	EVK4	2020	1280×720	120	1066
先知	GenX320	EVK3	2023	320×320	140
三星	第四代DVS	DVS-Gen4	2020	1280×960		1200

Insightness 被索尼收购，CelePixel 与 Omnivision 合作，但过去五年都没有发布新产品。过去十年，我们见证了像素阵列从 128x128 增长到 1280x720（Prophesee 的高清传感器），但更高的分辨率并非总是理想的。上表最后一列描述了传感器每秒可处理的最大事件数（百万），这相当于快速移动场景下每秒处理 GB 级的数据量。此外，Gehrig 和 Scaramuzza的一篇论文指出，在低光照和高速运动场景下，高分辨率摄像机的性能实际上不如使用更少但更大的像素的摄像机，这是因为高像素事件率会导致噪声和重影伪影。

如上表所示，目前大多数事件传感器的设计都基于五年前的技术。不同领域根据应用需求各有不同，因此新的设计方案正在研发中。在国防等领域，由于探测距离至关重要，因此更高的分辨率和对比度灵敏度，以及对短/中程红外光谱的探测能力至关重要。SCD USA公司去年推出了MIRA 02Y-E，该传感器可选配基于事件的读出功能，使战术部队能够探测激光源。利用基于事件的输出，其帧速率最高可达1.2 kHz。在太空领域，被探测目标的距离极其遥远，因此高分辨率和光灵敏度至关重要。正如第一部分所述，鉴于航空航天和国防领域资源投入的不断增长，目前已有公司专注于为该领域研发事件传感器。

在可穿戴设备眼动追踪等短距离应用中，低分辨率但高动态范围和超低功耗的传感器更为适用。Prophesee 的GenX320正是为此而设计的。
对于科学应用，NovoViz 近期发布了一款采用事件驱动输出的新型 SPAD（单光子雪崩二极管）相机，因为输出全帧的成本过高。

未来几年我们将看到新的设计涌现，但我认为过去二十年来使用二进制事件输出格式的研究大多只是将事件转换为某种图像表示形式，以便应用已经成熟的工具和框架。我认为这正是我们看到新型混合视觉传感器涌现的原因，这些传感器试图重新思考事件输出格式。在 2023 年 ISSCC 会议上，三篇介绍新型事件传感器的论文中有两篇展示了异步事件帧的引入。

传感器	事件输出类型	时序与同步	极性信息	典型最大速率
索尼 2.97 微米	二元事件帧（两个独立的开/关映射）	同步，约 580 微秒"事件帧"周期	每个像素 2 位（正负值）	约 1.4 GEvents/秒
索尼 1.22 微米，3560 万像素	具有跳行和压缩功能的二进制事件帧	可变帧同步，每个 RGB 帧最高可达 10 kfps	每个像素 2 位（正负值）	最高可达 4.56 GEvents/秒
OmniVision 3晶圆	每个事件的地址事件数据包（x、y、t、极性）	异步、微秒级时间戳	每个事件的单比特极性	最高可达 4.6 GEvents/秒

索尼的 2.97 微米芯片采用高效的电路共享设计，四个像素共享一个比较器和模拟前端。事件并非单独传输，而是以固定频率（约 580 微秒）批量处理成二进制事件帧，并分别映射开和关极性。这种设计使单次事件的能量消耗极低（约 57 皮焦耳），并使传感器能够在无仲裁延迟的情况下达到约 1.4 GEvents/s 的吞吐量。事件输出本身就是帧状的，因此能够自然地融入现有的机器学习流程，这些流程需要具有确定时序的规则图像输入。

索尼面向移动设备的1.22微米混合传感器，将一个巨大的3560万像素RGB阵列与一个200万像素事件阵列相结合。每个事件像素由四个1.22微米光电二极管构成（间距4.88微米）。事件阵列采用可变速率事件帧模式，在每个RGB帧周期内输出高达10kfps的帧率（参见下方论文中的图片）。片上事件丢弃滤波器和压缩技术可动态减少数据量，同时保留下游神经网络（例如去模糊或视频帧插值）所需的关键运动信息。在我看来，异步采集编码变化的事件帧数据是一种切实可行的方案。我认为高达100Hz的帧速率足以满足大多数应用的需求。

Kodama 等人提出了一种索尼 1.22 μm 混合传感器，该传感器除了输出 RGB 图像外，还输出可变速率的二进制事件帧。

OmniVision 3晶圆更接近经典的DVS概念，但也展现了其无限可能：一块专用的1MP事件晶圆，内置像素内时间数字转换器，能够以微秒级精度标记每个事件。跳跃逻辑和四个并行读出通道实现了惊人的4.6 GEvents/s吞吐量。它非常适合超高速运动分析或分秒必争的科学实验。下图为论文中RGB和事件输出的对比图。

Guo等人提出了一种输出二进制事件的新一代混合视觉传感器。

我认为，如今的二进制微秒级脉冲数据格式对于大多数应用来说并不合适。就像英特尔的Loihi 2芯片因为意识到二进制脉冲数据通信开销过高而转向更丰富的脉冲有效载荷一样，未来的事件相机也正通过探索帧状表示方法变得更加实用。它们还可以发出介于二进制事件和帧之间的数据，例如多比特"微帧"或可标记化的脉冲数据包。这些数据可以代表短期的局部活动，并可直接被机器学习模型接收，从而完全减少预处理的需要。

理想情况下，信息密度和时间分辨率之间应该存在一种权衡，可以根据应用场景进行选择。无论如何，事件相机传感器尚未最终定型。人们仍在探索如何表示事件，才能使其与现代机器学习方法兼容。

事件表示

最常见的方法是将事件聚合成类似图像的表示，例如二维直方图、体素网格或时间曲面。这些表示可用于微调在 RGB 图像上预训练的深度学习模型。这种方法充分利用了现有图像处理工具的丰富性，并且兼容 GPU 加速的训练和推理。此外，它还支持自适应帧速率，仅在有活动时进行聚合，从而在场景活动较少时节省计算资源。但是，这种方法会丢失事件相机目前提供的许多精细时间结构，而且效率也不尽如人意：生成的张量包含大量零值，为了获得足够的信号，如果要捕捉缓慢的活动，则必须累积数百毫秒。这对于需要长时间上下文但又必须具备高响应速度的实时应用来说，会成为一个问题。

我们仍然缺乏一种能够与现代机器学习架构良好兼容，同时又能保持事件流稀疏性的表示方法。事件流是一种新型数据模态，就像图像、音频或文本一样，但我们尚未解决其"分词问题"。乍一看，事件流（一个接一个的事件）似乎与当今功能强大的序列模型完美契合。但单个二元事件包含的语义信息非常有限。与句子中的单词可以编码复杂概念不同，即使是十几个二元事件也几乎无法揭示任何场景信息。这使得直接对事件进行分词效率低下。我们需要的是一种能够将局部时空结构概括为有意义的、更高层次的基元的表示方法，从而将事件流表示为一个直接依赖于场景活动的标记序列。场景中的运动越少，产生的标记就越少，从而节省计算资源。

模型

事件相机本质上是变化检测器，这意味着我们的机器学习模型需要记忆功能来记住物体停止移动之前的位置。我们可以利用循环或注意力机制将记忆功能融入模型架构中。例如，循环视觉变换器（Recurrent Vision Transformer）及其变体能够跨时间保持内部状态，并能更自然地处理时间上稀疏的输入。这些方法保留了时间连续性，但存在一个问题：大多数此类方法仍然依赖于密集的体素化输入。即使使用更高效的状态空间模型替换了长短期记忆网络（LSTM）和时间反向传播（BPTT），并采用更快的训练策略，我们仍然需要处理大量的零值。训练速度加快了，但推理仍然受到低效表示的瓶颈限制。然而，一些新型模型试图利用事件数据的稀疏性，包括时间上的稀疏性（输入不规则到达）和空间上的稀疏性（任何输入的零值都较少）。

图神经网络

图，尤其是动态稀疏图，是一种值得探索的有趣抽象概念。每个节点可以代表空间和时间上一个相关的活动小区域，边则编码时间或空间关系。最近的研究，例如DAGr、ACGR、eGSMV和HUGNet v2，表明图神经网络 (GNN) 非常适合处理事件数据。

尽管这些论文各有不同，但它们都采用了一种共同的方法：将快速的事件级图更新（以实现微秒级的响应速度）与较慢的上下文聚合（以实现稳定性和准确性）相结合。DAGr 使用异步 GNN 填充低帧率帧之间的盲区；ACGR 将帧节点和事件节点统一到一个稀疏图中，频率约为 200 Hz；eGSMV 明确地将空间图和运动图分开；HUGNet v2 将事件分支与周期性聚合分支混合，在保持准确性的同时，将预测延迟降低了三个数量级。它们避免了纯粹的逐事件更新，因为这种方式噪声过大且成本过高，但将所有内容批量处理到帧中也违背了初衷。GNN 通过将稀疏事件构建成动态图，然后仅在需要时添加上下文信息，从而实现了这种平衡。

这种混合设计使得图神经网络 (GNN) 成为事件视觉"标记化"问题的理想选择：它们将原始事件压缩成图结构标记，这些标记比单个开/关脉冲包含更多含义，同时保持活动驱动和稀疏性。然而，这些方法在可扩展性方面存在挑战，因为图的构建需要大量的内存和带宽，而且不规则的节点-边布局与当今的 GPU 匹配度较低。如果要在实际的嵌入式系统中运行这些表示，最终可能需要专门用于图处理的加速器。通过将事件相机与高效的"图处理器"相结合，我们可以将构建稀疏图的任务直接卸载到芯片上，从而生成可用于下游学习的表示。时间稀疏的、基于图的输出可以作为原始事件和现代机器学习架构之间的强大桥梁。

状态空间模型

继VMamba在 RGB 输入处理方面取得成功之后，状态空间模型 (SSM) 将感知过程视为一个连续时间动态系统，其具有紧凑的隐藏状态，可以以任意步长进行离散化。这种灵活性对于事件相机尤为重要，因为它允许用户仅通过更改积分步长，即可在一个输入速率下进行训练，并在另一个输入速率下进行部署，而无需重新训练。SSM 的计算量随序列长度线性扩展，因此您可以扩展（细粒度的）时间上下文而不会导致计算量激增。它们还维护一个低成本的、始终在线的场景状态，该状态会随着每个微批次的活动而更新，这在嵌入式系统中尤其有利于节省内存。

Zubić 及其同事证明，将 S4/S5 风格的 SSM 层与轻量级的 Vision Transformer 主干相结合，可以实现比基于 RNN 的循环 Transformer 快约三分之一的训练速度，并且在部署时的输入频率高于训练期间时，精度损失要小得多。

Yang等人提出了SMamba，它基于Mamba/SSM的思想并增加了自适应稀疏化。通过估计时空连续性，SMamba可以丢弃空白或噪声标记，优先处理信息丰富的区域，使它们更早地进行交互，并通过全局通道交互步骤混合通道。在Gen1、1Mpx和eTram等数据集上，与密集基线方法相比，该方法可将浮点运算次数降低约22%至31%。

对于光流，时空SSM编码器可以从单个事件体估计密集光流，从而绕过RAFT式的迭代细化。该方法比最近提出的迭代方法（TMA）推理速度快约4.5倍，MAC次数少约8倍，同时保持了具有竞争力的端点误差，这表明SSM可以在保持时间精度的同时，替代代价高昂的迭代过程。

PRE-Mamba的方法很有意思，因为它将事件相机在处理动态场景时产生大量数据的弱点转化为优势。作者在基于点的流水线中使用多尺度空间结构模型 (SSM) 来处理 4D 事件云，从而实现对天气条件的鲁棒性事件去雨。其关键架构在于，最小的时空聚类与 SSM 相结合，能够以较小的参数占用高效地处理长时间上下文信息。

针对使用空间空间模型（SSM）构建系统，涌现出一些实用的指导原则。这些原则使得一次训练即可部署到时间轴上的任何位置成为可能：如果系统需要在实验室以 10 Hz 的频率运行，在设备上以 100 Hz 的频率运行，则只需调整离散化步骤的幅度，无需进行任何微调。在架构方面，各论文中最稳定的模式是使用 SSM 进行时间聚合，并搭配轻量级的空间混合器，例如局部注意力机制或卷积层，这样既能保留长记忆，又不会产生 Transformer 级别的空间开销。通过利用稀疏性而不牺牲全局上下文，可以提高效率：与其依赖纯粹的局部或窗口注意力机制，不如基于时空连续性剪枝标记，丢弃明显的背景或噪声，并按照 SMamba 策略对剩余部分进行全局扫描。对于部署，建议使用对角扫描或并行扫描变体，例如 S4D、S5 或 Mamba 风格的选择性扫描，因为它们可以自然地在流式模式下运行。

对于事件视觉，场景空间模型（SSM）提供了一种有效的"场景记忆"原语，因为它比Transformer模型更能高效地处理长序列，并且支持可变时间。一种新兴的、可扩展性良好的方案是：使用体素网格、微帧或序列化图像块的小型自适应窗口，添加轻量级的空间混合，应用SSM进行时间建模，并可选择性地加入稀疏化以跳过非活跃区域。这样，在活动稀疏时可以保持低延迟，并在流量高峰期增加批处理大小，而无需重写模型或针对不同速率重新训练。

脉冲神经网络

生物神经元极其复杂，每个细胞都蕴含着一个完整的世界需要建模。Chan-Zuckerberg 的虚拟细胞计划以及 DeepMind 的细胞模拟都致力于对其进行建模。由于细胞如此复杂，像人脑计划 (HBP) 这样的项目尝试通过更大规模的高级抽象来模拟大脑活动。HBP 为脉冲神经网络 (SNN) 的发展铺平了道路，SNN 有时被誉为处理事件数据的理想选择。但是，在传统的脉冲神经网络中，由于采用了二进制激活和重置机制，研究人员过于依赖手工设计的抽象，例如漏积分-触发 (LIF) 模型，而这些模型与其他架构相比性能较差。这让我想起了去年Timoleon Moraitis 在 Open Neuromorphic 大会上的演讲，他谈到了从生物学原理中汲取灵感，而不是教条地照搬。

深度学习最初采用的是 32 位浮点密集表示，而神经形态计算则走上了另一个极端，采用的是二进制极稀疏表示。如今，它们正在趋于融合：神经形态计算意识到二进制事件的传输和处理成本很高，而深度学习则开始采用 4 位激活值和 2:4 结构化权重稀疏性。最近的一篇论文甚至提出了二进制神经网络，这表明研究界对过去的经验教训有着令人惊讶的抵触情绪。因此，我们不要纠结于人工神经元模型本身，而应该采用行之有效的方法，因为机器学习领域正以惊人的速度发展。

关于规模还有一点需要说明。经典的SNN（脉冲神经网络）和RNN（循环神经网络）一样，都面临着训练上的种种难题，这意味着它们的训练速度极其缓慢，因此难以扩展。当我发起SNN库基准测试，试图找出哪个库的训练速度最快时，有人告诉我，神经形态计算的关键在于寻找新颖的算法，而不是快速训练。但这完全是错误的。规模至关重要，而要实现规模化，就需要快速训练。神经形态计算领域普遍存在一种倾向，即专注于小型模型和效率。但如今，为了获得一个高效且泛化能力强的边缘模型，首先需要一个更大的AI模型，然后通过剪枝、蒸馏或量化等方法对其进行优化。或者，你可以将这个更大的模型作为"老师"，让小型模型成为大型模型的学生。即使功耗降低了50倍，如果模型无法应对输入分布的变化，也无法说服任何客户。

处理器

在事件数据上高效运行模型既是硬件问题，也是建模问题。GPU 仍然是默认的加速器，但它们与事件流不规则的内存访问模式并不匹配。即使输入数据稀疏，中间层的大部分计算最终也会变得密集，因此专门针对事件输入"跳过零值"所节省的能源微乎其微。

最近的研究表明，状态空间模型在神经形态芯片上能够高效运行：例如，Meyer等人将S4D变体映射到英特尔的Loihi 2芯片上，利用对角化状态更新来减少核心间通信，并在真正的在线推理中超越了Jetson GPU。这表明，当通信成本占主导地位时，紧凑的循环有状态模型可以从专用硬件中获益。英特尔的Loihi芯片是当时最先进的神经形态芯片，自大规模脑建模和约束优化以来，他们在更实际地利用异步硬件方面取得了长足的进步。我非常希望看到一款高效的边缘芯片由此诞生，但恐怕这并非英特尔的强项。

针对基于图神经网络（GNN）的事件处理，新型专用加速器正在涌现。EvGNN硬件原型（IEEE 2024）表明，将图构建和消息传递直接集成到芯片上，与GPU相比，可以将延迟降低一个数量级，并将能效提高10倍以上。至关重要的是，它异步处理事件，仅在新数据到达时才触发计算，这与事件相机的原理自然契合。如果图表示要从研究演示扩展到实际应用，这种将传感器输出与面向图的硬件紧密结合的协同设计可能必不可少。

有人认为，由于事件相机输出的数据极其稀疏，我们可以通过跳过输入或中间激活值中的零值来节省能量。但尽管输入数据可能比 RGB 帧稀疏得多，大部分计算都发生在中间层，并且处理的是更高层次的表示，而这些表示对于 RGB 输入和事件输入来说都类似。因此，在 AI 加速器中，我们无法利用事件相机的空间稀疏性，而且对于规模合理的模型，RGB 帧和事件帧之间的推理成本基本相同。我们可能会遇到不同的输入帧率/时间稀疏性，但这些差异也可以在 GPU 上得到利用。

在混合信号硬件上，规则有所不同，但维护状态始终代价高昂。代价体现在功耗（多路复用）或芯片尺寸（模拟）上。据我理解，模拟电路的一个基本原则是：如果需要频繁地进行模数转换（例如为了纠错或存储状态），那么效率提升就会付之东流。Mythic AI就曾为此付出惨痛的代价，几乎破产；Rain AI也放弃了最初的模拟硬件，面临着不确定的未来。这其中也存在着巨大的算法挑战，因为模拟元件本身就存在噪声，但高效实现模拟计算的潜在回报也相当丰厚。IBM 正在进行一些关于 3D 模拟内存计算的有趣研究！

异步计算原理是事件摄像机的关键，但简单的异步处理并非有效。想象一下汽车驶入环岛，以及没有交通信号灯时的车流情况。当车流量较低时，每辆车几乎都在持续运动，通过环岛的延迟极低。随着车流量的增加，环岛的效率会降低，因为每辆车的行驶都取决于附近车辆的决策。对于高车流量，使用交通信号灯同时控制batch process多条车道的车流会更加高效，从而实现最高的车辆通行效率。同样的原理也适用于事件处理。当激活的像素数量较少时，像环岛中的车辆一样逐个处理事件可以实现最低的延迟。但随着每秒事件数量的增加，就需要像交通信号灯一样分批处理事件。理想情况下，批次的大小取决于事件的发生频率。

为单一架构（无论是 LSTM、SNN 还是定制的事件处理流程）打造专属芯片是一项巨大的赌注。历史经验表明，这类赌注往往以失败告终。过去十年间，多家公司尝试开发专用的 RNN 加速器，但随着通用 GPU 和 NPU 的普及，大多数公司最终倒闭、转型或被收购。除非摄像头能够生成可完美映射到现有硬件上的图像表示，否则软件生态系统的发展速度将远远超过芯片本身。

有关神经形态芯片的更多信息，请参阅Open Neuromorphic 的硬件指南。

结论

事件相机只有摆脱微秒级精度二进制脉冲的传统束缚，采用能够承载更丰富、更结构化信息的输出格式，才能真正被主流市场接受。核心挑战在于表示方式：现代机器学习系统构建于结构化标记（例如音节、词或嵌入）之上，而非海量的二进制脉冲。

可行的解决方案很可能采用两阶段架构：首先，使用轻量级的流式分词器将局部时空活动聚合为短暂存在的微特征；其次，使用有状态的时间模型高效地对这些特征进行推理。这种表示方法能够保持稀疏性、维持时间保真度，并能自然地适应场景活动的变化。

如果让我预测当今的商业发展方向，我会选择混合传感器，它将可变速率事件帧与标准RGB输出相结合，生成稀疏标记流，然后由嵌入式GPU或专用边缘加速器上的紧凑状态空间模型进行处理。牺牲一些原始时间分辨率，换取语义更丰富、更易压缩的聚合数据，是一种切实可行且很可能是必要的权衡。我们的目标并非创建精美的图像，而是生成机器可读的信号，这些信号能够与现有的AI硬件无缝对接。

这种可扩展的方案大致如下：生成承载意义的词元，利用反映真实传感器噪声的跨模态监督和自监督相结合的方式进行训练，维护一个紧凑且更新成本低廉的场景内存，并使计算基于活动而非固定时钟。关键的研究方向包括：用于高效词元化的动态图表示、用于边缘低延迟推理的状态空间模型，以及能够在不破坏语义内容的情况下缩小事件流的有损压缩技术。

最后，应用需求应指导传感器和模型的设计。手势识别不需要微秒级的精确时间，眼动追踪也不需要百万像素的分辨率。有时，运动传感器触发的RGB相机才是最务实的解决方案。事件相机无需取代传统视觉系统，只需以合适的形式实现足够的可用性，即可作为其补充。