CVPR 前沿洞察 | 人机交互论文出圈，引领交互模式变革

关注gongzhonghao【CVPR顶会精选】

在人工智能与传感技术的驱动下，人机交互已突破键盘鼠标的传统范式，实现了语音识别、手势控制、情感计算等自然交互方式，并深度融入可穿戴设备与智能环境。

未来，随着脑机接口、增强现实技术的成熟，交互形式将迈向更直观的无感化与高维沉浸式体验，持续重塑人类获取信息与控制数字世界的方式，成为技术革新的核心驱动力。今天小图给大家精选3篇CVPR有人机交互方向的论文，请注意查收！

图灵学术论文辅导

Open-World Human-Object Interaction Detection via Multi-modal Prompts

方法：

文章首先构建了Magic-HOI和SynHOI数据集，为模型训练提供了丰富的数据支持。接着，MP-HOI通过整合视觉提示和文本提示，利用统一的对比损失函数优化HOI任务，学习可泛化和可迁移的对象/交互表示。最后，通过多模态提示基预测器，结合文本和视觉提示进行HOI检测，显著提升了模型在开放世界场景中的性能。

创新点：

构建了大规模的Magic-HOI数据集，整合了六个现有数据集，并提出了SynHOI合成数据集以解决长尾问题。
首次开发了基于多模态提示的通用HOI检测器，结合文本描述和视觉示例，有效处理开放集泛化和高歧义描述问题。
通过跨模态对比学习优化HOI任务，实现了大规模数据上的多模态提示与对象/交互的对齐。

论文链接：

https://arxiv.org/html/2406.07221v1

图灵学术论文辅导

LEMON: Learning 3D Human-Object Interaction Relation from 2D Images

方法：

文章首先利用图像和点云特征提取器分别提取输入图像和人、物几何特征，然后通过多分支注意力机制挖掘交互意图，并利用余弦相似性确保语义一致性。接着，结合几何曲率信息建模几何相关性，提取人体接触和物体功能特征，并将这些特征用于预测人机空间关系。最后，通过综合损失函数优化模型，实现了对3D人机交互关系的准确预测。

创新点：

提出了LEMON框架，通过挖掘交互双方的语义意图和几何对应关系，联合预测人体接触、物体功能和人机空间关系，消除了交互不确定性。
构建了3DIR数据集，包含配对的人机交互数据和多种注释，为模型训练和评估提供了丰富的数据支持。
通过多分支注意力机制和曲率引导的几何相关性建模，有效地提取了交互元素的特征，提高了模型对复杂交互场景的理解能力。

论文链接：

https://arxiv.org/abs/2312.08963

图灵学术论文辅导

PPDM: Parallel Point Detection and Matching for Real-time Human-Object Interaction Detection

方法：

文章首先将HOI检测任务分解为两个并行任务：点检测和点匹配。在点检测分支中，模型预测交互点、人体点和物体点的中心位置、对应的尺寸以及局部偏移量。交互点被定义为人体点和物体点的中点，其预测为人体和物体检测提供了上下文信息和正则化，从而提高了HOI检测的精度。在点匹配分支中，模型预测从交互点到人体点和物体点的两个位移向量，将来自同一交互点的人体点和物体点视为匹配对。

创新点：

首次将HOI检测任务重新定义为点检测和匹配问题，并提出了PPDM这一新颖的单阶段解决方案，打破了传统两阶段方法的局限。
PPDM是首个实现实时HOI检测的方法，不仅在速度上取得了突破，而且在准确率上也超越了现有的所有方法。
构建了一个新的应用导向型数据库HOI-A，专注于实际应用中频繁出现的HOI类别，为现有数据集提供了有力的补充。

论文链接：

https://arxiv.org/abs/1912.12898

► 论文发表难题，一站式解决！

但很多学生找到了热门的选题，却卡在代码和写作上！可见论文要录用，选题-idea-代码-写作都缺一不可！

图灵学术论文辅导，汇聚经验丰富的实战派导师团队，针对计算机各类领域提供1v1专业指导，直至论文录用 ！每天2个免费咨询名额，机会有限先到先得！