【论文速读,找找启发点】2024/6/16

ICME 2023

End-To-End Part-Level Action Parsing With Transformer

类似 DETR,通过 加 query的方式实现 端到端

ELAN: Enhancing Temporal Action Detection with Location Awareness

如何实现位置感知? => 重叠的卷积核?

Do we really need temporal convolutions in action segmentation?

No, 用 Transformer

Explicit Attention Modeling for Pedestrian Attribute Recognition

任务:Pedestrian Attribute Recognition

A Simple Masked Autoencoder Paradigm for Point Cloud

点云,自编码器

RF-based Multi-view Pose Machine for Multi-Person 3D Pose Estimation

多人, 3D姿态估计


中国计算机学会推荐国际学术会议和期刊目录(2022):https://ccf.atom.im/

搜索文献:dblp

相关推荐
Jiede11 分钟前
LSTM详细介绍(基于股票收盘价预测场景)
人工智能·rnn·lstm
明月照山海-12 分钟前
机器学习周报三十三
人工智能·机器学习
传说故事16 分钟前
【论文自动阅读】视频生成模型的Inference-time物理对齐 with Latent World Model
人工智能·深度学习·音视频·视频生成
半臻(火白)16 分钟前
Clawbot:重新定义AI的「行动派」革命
人工智能
造夢先森18 分钟前
Clawdbot(OpenClaw)安装部署教程
人工智能·微服务·云原生
攻城狮7号20 分钟前
宇树 开源 UnifoLM-VLA-0 大模型:给人形机器人装上通用的“直觉大脑”
人工智能·机器人·具身智能·宇树科技·unifolm-vla-0
aihuangwu23 分钟前
ChatGPT和Gemini图表怎么导出
人工智能·ai·chatgpt·deepseek·ds随心转
Bits to Atoms28 分钟前
宇树G1语音助手完整开发指南(下)——从零构建智能知识库对话系统
人工智能·机器人·音视频·语音识别
Katecat9966343 分钟前
古巽伽罗语字符识别与分类_Cascade-Mask-RCNN_RegNetX-400MF实现
人工智能·目标跟踪
说文科技1 小时前
大模型项目实战之dpo微调
人工智能·算法