论文阅读——ScanQA

ScanQA: 3D Question Answering for Spatial Scene Understanding

输入:点云P和问题Q,输出:答案A

点云p由三维坐标点组成。本文模型使用额外的点云特征:点云高度、颜色、法线和多视图图像特征,这些特征将 2D 外观特征投影到点云上。将上面这些特征结合,作为模型的3d特征。

ScanQA model网络结构:

模型包括3D &language encoder, 3D & language fusion, and object localization & QA layers

VoteNet的骨干网络是PointNet++,VoteNet的输入是3d特征,输出的是物体候选区域,然后使用非线性层候选物体的表示。

transformer encoder提供K和V

Fusion是一个带有注意力的两层MLP

最上面一层目标定位Object localization module模块是用于决定VoteNet输出的目标框属于该问题的最大似然,也就是,网络会生成很多框,但是只有一部分是和问题相关的,这个模块要把它选出来。使用CEloss。

Object classification module预测了什么物体是和问题有关系的。CEloss。

Answer classification module预测问题的答案。

LOSS:

VoteNet有个检测损失Ldet,还有最上面三个模块的定位损失Lloc,分类损失Lobj,答案损失Lans,四者相加。L = Lans + Lobj + Lloc + Ldet

相关推荐
luoganttcc3 小时前
自动驾驶 世界模型 有哪些(二)
人工智能·机器学习·自动驾驶
人工智能AI技术3 小时前
315曝光AI投毒!用C#构建GEO污染检测与数据安全防护方案
人工智能·c#
Hamm3 小时前
不想花一分钱玩 OpenClaw?来,一起折腾这个!
javascript·人工智能·agent
_李小白4 小时前
【AI大模型学习笔记之平台篇】第二篇:Gemini
人工智能·音视频
一点一木4 小时前
🚀 2026 年 2 月 GitHub 十大热门项目排行榜 🔥
人工智能·github
理性的曜4 小时前
VoloData——基于LangChain的智能数据分析系统
人工智能·vscode·数据分析·npm·reactjs·fastapi·ai应用
flying_13144 小时前
图神经网络分享系列-MPNN(Neural Message Passing for Quantum Chemistry)(二)
人工智能·深度学习·神经网络·图神经网络·消息传递·门控机制·mpnn
HyperAI超神经4 小时前
AI驱动量子精修,卡内基梅隆大学等提出AQuaRef,首次用量子力学约束精修蛋白质全原子模型
人工智能·深度学习·机器学习·架构·机器人·cpu·量子计算
balmtv5 小时前
Grok 3技术深度拆解:20万卡集群、思维链推理与DeepSearch的架构实现
人工智能·架构
毅航5 小时前
告别 AI 名词焦虑:一文读懂从 LLM 到 Agent Skill的演进
人工智能·后端