论文笔记＜交通灯＞ IntelliLight:一种用于智能交通灯控制的强化学习方法

今天读的是IntelliLight:一种用于智能交通灯控制的强化学习方法，其核心创新点在于解决了传统方法在真实动态交通环境 下的不足，并通过模型结构优化 和训练机制改进提升性能。

讲解一下我认为的创新点：

传统方法的缺陷：固定时序控制（Fixed-time）和基于规则的方法（如SOTL）无法适应动态交通流；已有强化学习方法大多在仿真环境中测试，未考虑真实交通的复杂性和样本不平衡问题。

关键挑战 ：
- 环境表征：如何有效融合交通状态（车流位置、等待时间等）和信号灯相位（Phase）。
- 决策偏差：相同车流条件下，不同相位需不同决策，但传统DQN将相位作为普通特征，导致决策混淆。
- 样本不平衡：真实交通中不同相位-动作组合出现频率差异大，影响训练稳定性。

为了解决相位决策混淆问题，他这里有的一个创新方法：

他的输入特征为：融合图像特征（CNN提取车流位置） + 传统特征（排队长度 L、等待时间 W、车辆数 V、相位 P）。

效果就是相同车流下，不同相位能够触发独立决策逻辑，避免错误动作（如该保持相位时误切换）。

还有就是面对真实交通中样本不平衡问题（如某些相位-动作组合样本稀少）毕竟强化学习只是在仿真里面训练，面对真实环境还有差距。

他提出的创新方法为：

（2）Memory Palace（记忆宫殿）：

他为为每个相位-动作组合（如 (P=0, a=保持)、(P=1, a=切换)）建立独立记忆池。这样就能够保证训练时从各记忆池均匀采样，确保低频组合不被忽略。

这样能提升模型对罕见交通场景的适应能力，减少决策偏差。

面对仿真和真实环境的差距，他使用真实数据来训练。

使用济南市 1,704个摄像头 的31天真实数据（4.05亿条车辆记录），覆盖动态交通流（高峰/非高峰、工作日/周末）。

并且他的奖励函数可以参考下：

奖励 = w1*总排队长度 + w2*总等待时间 + w3*信号切换惩罚 + w4*总延误 + w5*通过车辆数 + w6*总通行时间

还有就是他的状态表示：

使用图像特征和传统特征：

图像特征：车流位置矩阵 M → CNN提取空间信息。

传统特征：各车道排队长度 L_i、车辆数 V_i、平均等待时间 W_i、当前相位 P_c、下一相位 P_n。

动作空间为 二值决策（a=0 保持当前相位，a=1 切换相位）

训练框架 ：分为离线阶段 ：用固定时序策略收集初始样本。和在线阶段 ：ε-贪婪策略交互更新（ε=0.05），定期从记忆宫殿采样更新DQN。

总结：

我认为以后比赛最值得尝试的就是他的相位门控机制，能够解决状态-动作混淆问题。

还有记忆宫殿，分桶存储样本解决不平衡问题，能够提升鲁棒性。

论文笔记 ＜交通灯＞ IntelliLight:一种用于智能交通灯控制的强化学习方法