论文阅读——ScanQA

ScanQA: 3D Question Answering for Spatial Scene Understanding

输入:点云P和问题Q,输出:答案A

点云p由三维坐标点组成。本文模型使用额外的点云特征:点云高度、颜色、法线和多视图图像特征,这些特征将 2D 外观特征投影到点云上。将上面这些特征结合,作为模型的3d特征。

ScanQA model网络结构:

模型包括3D &language encoder, 3D & language fusion, and object localization & QA layers

VoteNet的骨干网络是PointNet++,VoteNet的输入是3d特征,输出的是物体候选区域,然后使用非线性层候选物体的表示。

transformer encoder提供K和V

Fusion是一个带有注意力的两层MLP

最上面一层目标定位Object localization module模块是用于决定VoteNet输出的目标框属于该问题的最大似然,也就是,网络会生成很多框,但是只有一部分是和问题相关的,这个模块要把它选出来。使用CEloss。

Object classification module预测了什么物体是和问题有关系的。CEloss。

Answer classification module预测问题的答案。

LOSS:

VoteNet有个检测损失Ldet,还有最上面三个模块的定位损失Lloc,分类损失Lobj,答案损失Lans,四者相加。L = Lans + Lobj + Lloc + Ldet

相关推荐
hxxjxw6 分钟前
Pytorch分布式训练/多卡训练(六) —— Expert Parallelism (MoE的特殊策略)
人工智能·pytorch·python
Robot侠13 分钟前
视觉语言导航从入门到精通(一)
网络·人工智能·microsoft·llm·vln
掘金一周14 分钟前
【用户行为监控】别只做工具人了!手把手带你写一个前端埋点统计 SDK | 掘金一周 12.18
前端·人工智能·后端
神州问学15 分钟前
世界模型:AI的下一个里程碑
人工智能
zhaodiandiandian17 分钟前
AI深耕产业腹地 新质生产力的实践路径与价值彰显
人工智能
古德new21 分钟前
openFuyao AI大数据场景加速技术实践指南
大数据·人工智能
youcans_29 分钟前
【医学影像 AI】FunBench:评估多模态大语言模型的眼底影像解读能力
论文阅读·人工智能·大语言模型·多模态·眼底图像
dagouaofei30 分钟前
PPT AI生成实测报告:哪些工具值得长期使用?
人工智能·python·powerpoint
蓝桉~MLGT31 分钟前
Ai-Agent学习历程—— Agent认知框架
人工智能·学习
视觉&物联智能34 分钟前
【杂谈】-边缘计算竞赛:人工智能硬件缘何超越云端
人工智能·ai·chatgpt·aigc·边缘计算·agi·deepseek