关注gongzhonghao【CVPR顶会精选】
在人工智能与传感技术的驱动下,人机交互已突破键盘鼠标的传统范式,实现了语音识别、手势控制、情感计算等自然交互方式,并深度融入可穿戴设备与智能环境。
未来,随着脑机接口、增强现实技术的成熟,交互形式将迈向更直观的无感化与高维沉浸式体验,持续重塑人类获取信息与控制数字世界的方式,成为技术革新的核心驱动力。今天小图给大家精选3篇CVPR有人机交互方向的论文,请注意查收!
图灵学术论文辅导
Open-World Human-Object Interaction Detection via Multi-modal Prompts
方法:
文章首先构建了Magic-HOI和SynHOI数据集,为模型训练提供了丰富的数据支持。接着,MP-HOI通过整合视觉提示和文本提示,利用统一的对比损失函数优化HOI任务,学习可泛化和可迁移的对象/交互表示。最后,通过多模态提示基预测器,结合文本和视觉提示进行HOI检测,显著提升了模型在开放世界场景中的性能。

创新点:
-
构建了大规模的Magic-HOI数据集,整合了六个现有数据集,并提出了SynHOI合成数据集以解决长尾问题。
-
首次开发了基于多模态提示的通用HOI检测器,结合文本描述和视觉示例,有效处理开放集泛化和高歧义描述问题。
-
通过跨模态对比学习优化HOI任务,实现了大规模数据上的多模态提示与对象/交互的对齐。

论文链接:
https://arxiv.org/html/2406.07221v1
图灵学术论文辅导
LEMON: Learning 3D Human-Object Interaction Relation from 2D Images
方法:
文章首先利用图像和点云特征提取器分别提取输入图像和人、物几何特征,然后通过多分支注意力机制挖掘交互意图,并利用余弦相似性确保语义一致性。接着,结合几何曲率信息建模几何相关性,提取人体接触和物体功能特征,并将这些特征用于预测人机空间关系。最后,通过综合损失函数优化模型,实现了对3D人机交互关系的准确预测。

创新点:
-
提出了LEMON框架,通过挖掘交互双方的语义意图和几何对应关系,联合预测人体接触、物体功能和人机空间关系,消除了交互不确定性。
-
构建了3DIR数据集,包含配对的人机交互数据和多种注释,为模型训练和评估提供了丰富的数据支持。
-
通过多分支注意力机制和曲率引导的几何相关性建模,有效地提取了交互元素的特征,提高了模型对复杂交互场景的理解能力。

论文链接:
https://arxiv.org/abs/2312.08963
图灵学术论文辅导
PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection
方法:
文章首先将HOI检测任务分解为两个并行任务:点检测和点匹配。在点检测分支中,模型预测交互点、人体点和物体点的中心位置、对应的尺寸以及局部偏移量。交互点被定义为人体点和物体点的中点,其预测为人体和物体检测提供了上下文信息和正则化,从而提高了HOI检测的精度。在点匹配分支中,模型预测从交互点到人体点和物体点的两个位移向量,将来自同一交互点的人体点和物体点视为匹配对。

创新点:
-
首次将HOI检测任务重新定义为点检测和匹配问题,并提出了PPDM这一新颖的单阶段解决方案,打破了传统两阶段方法的局限。
-
PPDM是首个实现实时HOI检测的方法,不仅在速度上取得了突破,而且在准确率上也超越了现有的所有方法。
-
构建了一个新的应用导向型数据库HOI-A,专注于实际应用中频繁出现的HOI类别,为现有数据集提供了有力的补充。

论文链接:
https://arxiv.org/abs/1912.12898
► 论文发表难题,一站式解决!
但很多学生找到了热门的选题,却卡在代码和写作上!可见论文要录用,选题-idea-代码-写作都缺一不可!
图灵学术论文辅导,汇聚经验丰富的实战派导师团队,针对计算机各类领域提供1v1专业指导,直至论文录用 !每天2个免费咨询名额,机会有限先到先得!