FocalAD论文阅读

https://zhuanlan.zhihu.com/p/1918449364008964557

主要是两个模块:Ego-Local-Agents Interactor和Focal-Local-Agents Loss。

主要流程是:状态提取 --> 图嵌入--> 交互得分 --> k-邻居选择 --> Focal-Local-Agents Loss

其中图嵌入 ,分为节点和边。节点就是障碍物自己的状态进行MLP,边的话是和主车状态的差值来做MLP

交互得分 主要用到了MHCA (Multi-Head Cross Attention) 将主车和其他障碍物的信息进行交互

再用MLP联合输出一个增强的特征表示 h_inc及其交互得分s_i ,表示该agent对自车决策的贡献。不太明白的点是为什么MLP能够生成两个结果???

k-邻居选择 如果交互得分比较高,那么Q_motion就会加上agent的信息。Q_motion是个什么东西???Q_plan也会考虑这些agent的信息 Q_plan又是个什么东西???

Focal-Local-Agents Loss: 对于重要障碍物的轨迹loss再算一遍

整体看下来主要就是对最重要的障碍物进行了筛选,那么如何选择最终要的障碍物就成了关键问题

相关推荐
DuHz13 小时前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(上)
论文阅读·信号处理
DuHz14 小时前
无线通信与雷达感知融合的波形设计与信号处理——论文阅读(下)
论文阅读·汽车·信息与通信·信号处理
张较瘦_2 天前
[论文阅读] AI + 软件工程 | LLM救场Serverless开发!SlsReuse框架让函数复用率飙升至91%,还快了44%
论文阅读·人工智能·软件工程
m0_650108242 天前
InstructBLIP:面向通用视觉语言模型的指令微调技术解析
论文阅读·人工智能·q-former·指令微调的视觉语言大模型·零样本跨任务泛化·通用视觉语言模型
做cv的小昊2 天前
VLM经典论文阅读:【综述】An Introduction to Vision-Language Modeling
论文阅读·人工智能·计算机视觉·语言模型·自然语言处理·bert·transformer
m0_650108243 天前
PaLM-E:具身智能的多模态语言模型新范式
论文阅读·人工智能·机器人·具身智能·多模态大语言模型·palm-e·大模型驱动
m0_650108244 天前
PaLM:Pathways 驱动的大规模语言模型 scaling 实践
论文阅读·人工智能·palm·谷歌大模型·大规模语言模型·全面评估与行为分析·scaling效应
小殊小殊4 天前
【论文笔记】视频RAG-Vgent:基于图结构的视频检索推理框架
论文阅读·人工智能·深度学习
有点不太正常4 天前
《ShadowCoT: Cognitive Hijacking for Stealthy Reasoning Backdoors in LLMs》——论文阅读
论文阅读·大模型·agent安全
小殊小殊4 天前
【论文笔记】大型语言模型的知识蒸馏与数据集蒸馏
论文阅读·人工智能·深度学习