
源码+数据集下载:https://gitee.com/CodeStoreHub/rppg-datasets****
一、算法结构详解:MMPDMamba
总体框架
MMPDMamba 是一个 双路径、时频交互式的端到端网络 ,专为从人脸视频中估计 rPPG(远程光电容积描记)信号而设计。该模型的核心是 Synergistic State Space Duality (SSSD) ,首次将 State Space Models (SSM) 和 Attention机制 融合在一个统一架构中。
📌 模型由以下主要模块组成:
-
Frame Stem:提取帧间的时序信息。
-
SSSD模块:实现时间域的建模。
-
Multi-Scale Query (MQ):在两个路径间实现多尺度的信息交互。
-
Frequency Domain Feedforward (FDF):通过 FFT 增强周期性特征。
-
rPPG Predictor:将时频特征融合,生成最终生理信号。
二、创新点
🧠 1. 首次将 State Space Model 与 Attention 融合:提出 Synergistic State Space Duality (SSSD)
-
SSSD(协同状态空间对偶性) 是一种新型架构,融合了:
-
状态空间模型(SSM) 的高效时序建模能力
-
注意力机制 的全局特征建模能力
-
-
将两者以 双路径架构(Self-Attention 路径 + Cross-Attention 路径) 协同建模,实现了时间依赖与上下文信息的深度融合。
-
具备 线性时间复杂度 + 强特征表达能力,既高效又准确。
🔍 创新意义:
-
弥补了现有 rPPG 模型在 实时性与建模能力之间的矛盾。
-
为远程生理信号建模任务开辟了新的范式。
🔁 2. 引入 Multi-Scale Query(MQ)机制提升时序信息交互效率
-
MQ 机制允许模型在不同时间尺度上提取 query、key、value 向量。
-
实现了 双路径间的横向信息共享,提升模型对不同频率变化(如快慢心率、突变等)的适应能力。
📌 相比传统 attention:
-
不使用 softmax,而是采用 结构化掩码 (L) 实现高效交互;
-
支持跨尺度融合,增强鲁棒性与泛化性。
🔄 3. 提出 Dual-Pathway 架构:结合自注意与交叉注意,实现时空特征协同建模
-
SA路径(Self-Attention Pathway) 专注于建模单个特征通道内的长期依赖。
-
CA路径(Cross-Attention Pathway) 借助 MQ 与 SA 交互,对多个通道间进行跨特征建模。
-
双路径协同处理提升了在运动伪影和光照变化下的鲁棒性。
📌 可类比于:
"一个分析员深入研究每个数据源自身的变化,另一个则挖掘它们之间的相互联系。"
🔊 4. 引入 Frequency Domain Feedforward(FDF)模块:时频双域增强
-
将时间序列经过 FFT 转换到频域,增强周期性(如心跳)特征。
-
再通过 IFFT 恢复时域,同时保留增强特征。
✅ 好处:
-
弥补仅在时域建模时对周期性信号捕捉不充分的问题;
-
强化模型对生理信号主频(如 0.75Hz--2.5Hz 区间心率)的识别能力。
📉 5. 提出联合损失函数:结合时域 + 频域监督
-
通过 负皮尔逊相关系数 和 频谱距离 联合优化
-
保证预测信号在时间和频率两方面都与真实信号一致。
🌍 6. 优异的跨域泛化能力,适用于真实世界应用
-
在跨数据集测试(如 PURE → MMPD)中,PhysMamba 明显优于现有方法;
-
展现出对 肤色、光照、动作等变化的强适应能力;
-
为部署在 移动设备、远程医疗、健康监测系统 打下基础。
✨ 创新点小结
| 创新点 | 说明 |
|---|---|
| ✅ SSSD架构 | 首次将 SSM 与 Attention 结合,效率与表达能力兼具 |
| ✅ MQ机制 | 多尺度信息交互,提升跨通道与时域融合能力 |
| ✅ 双路径网络 | 自注意 + 交叉注意协同,增强建模灵活性与鲁棒性 |
| ✅ FDF模块 | 引入频域建模,强化周期性信号识别 |
| ✅ 联合损失函数 | 同时优化时间与频率特性,提高信号准确性 |
| ✅ 强泛化能力 | 在 MMPD 等复杂数据集上表现出色,适合现实部署 |
核心模块解释
1. Frame Stem
-
使用 2D CNN + ReLU + Pooling 来提取帧之间的微弱变化(如皮肤色变)。
-
强调了时间差分(frame differences)对生理信号提取的重要性。
2. Multi-Scale Synergistic State Space Duality (SSSD)
-
SSSD = SSM + Attention,以双路径(Self-Attention & Cross-Attention)方式建模时间特征。
-
通过 Multi-Scale Query,在多个时间尺度上提取 query-key-value,增强信息交互。
-
SA路径:建模单一特征的自相关。
-
CA路径:利用来自SA路径的Query,实现跨特征信息的交互。
3. FDF 模块
-
使用 FFT -> 通道交互 -> IFFT 增强周期性生理信号(如心率)。
-
输出分别为 FSA 和 FCA。
4. rPPG Predictor
- 将 SA 和 CA 的输出拼接,并通过 1D卷积 预测最终 rPPG 信号。
三、在 MMPD 数据集上的实验结果
数据集描述
-
MMPD:包含 33 个受试者、11 小时视频,涵盖不同肤色、光照、运动状态。
-
极具挑战性,真实模拟现实世界中光照干扰与运动伪影。
实验设置
-
输入图像预处理:裁剪并调整为 128x128
-
学习率:3e-4;批量大小:16;训练周期:30
-
GPU:NVIDIA RTX 4090
-
损失函数:结合时域损失 LTime 与频域损失 LFreq
Intra-Dataset 实验结果
| 模型 | MAE (↓) | RMSE | MAPE | r | SNR |
|---|---|---|---|---|---|
| DeepPhys | 23.73 | 28.25 | 25.63 | -0.06 | -15.45 |
| PhysNet | 4.81 | 11.83 | 4.84 | 0.60 | 1.51 |
| PhysFormer | 13.64 | 19.39 | 14.42 | 0.15 | -11.02 |
| RhythmMamba | 3.16 | 7.27 | 3.37 | 0.84 | 4.74 |
| MMPDMamba (Ours) | 2.84 | 6.41 | 3.04 | 0.88 | 5.20 |
✅ PhysMamba 在 MMPD 上取得了最佳表现,不仅 MAE 最低,而且在噪声环境下具有最高的信噪比(SNR = 5.20)。
Cross-Dataset 测试
-
MMPD→PURE 测试: MAE = 5.32(优于 RhythmMamba 的 6.07)
-
PURE→MMPD 测试: MAE = 9.87(优于 RhythmMamba 的 10.45)
PhysMamba 展现出 极强的跨域泛化能力,即便在训练测试数据分布差异较大的情况下,仍能保持稳定表现。
🔬 消融实验
在 MMPD 上逐步移除组件分析其影响,结果表明:
| 模块组合 | MAE (↓) | RMSE | r | SNR |
|---|---|---|---|---|
| 无 MQ/FDF | 4.40 | 8.81 | 0.76 | 3.36 |
| + MQ | 3.46 | 7.21 | 0.84 | 3.94 |
| + DP | 3.13 | 6.55 | 0.87 | 4.63 |
| + SSD/CA | 2.84 | 6.41 | 0.88 | 5.20 |
🔑 结论:SSSD架构、MQ机制、FDF模块是性能提升的关键因素。
✅ 总结:MMPD上的优势
PhysMamba 在 MMPD 数据集上具有以下显著优势:
-
超强鲁棒性:在高噪声、强光变化和头部运动下仍保持稳定。
-
计算高效:SSM 模型带来的线性复杂度,适合边缘设备部署。
-
泛化能力强:跨数据集迁移性优越。
-
可视化验证:图 4 中的波形图和 Bland-Altman 图显示预测结果与真实心率高度一致。
数据集预览
源码+数据集下载:https://gitee.com/CodeStoreHub/rppg-datasets
