Talk|CVPR‘24 Oral:超越3D - Point Transformer V3中的多模态特征提取新构想

本期为TechBeat人工智能社区第599期线上Talk。

北京时间6月12日(周三)20:00,香港大学博士生---吴虓杨的Talk已经准时在TechBeat人工智能社区开播!

他与大家分享的主题是: "超越3D - Point Transformer V3中的多模态特征提取新构想" ,他通过PTv3的两个核心思想------骨干网络设计的规模准则与非结构化数据的序列化技术,探究3D点云骨干网络作为一种多模态泛用特征提取器的构想与挑战。该工作已入选CVPR 2024 Oral。

Talk·信息

主题:超越3D - Point Transformer V3中的多模态特征提取新构想

嘉宾:香港大学博士生 吴虓杨

时间:北京时间 6月12日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://www.techbeat.net/talk-info?id=878

Talk·介绍

在本次Talk中,我们将超越3D感知与表征的范畴,从多模态数据特征提取的角度介绍我们被接收为CVPR 2024 Oral的工作Point Transformer V3 (PTv3) 的思想与设计。点云作为3D表征与感知的基础模态,其本身也是高维度稀疏非结构化数据的代表。将图像的每一个像素视为点,图像本身也可被视为点云,这佐证了这类数据结构的普适性。本次Talk将通过PTv3的两个核心思想------骨干网络设计的规模准则与非结构化数据的序列化技术,探究3D点云骨干网络作为一种多模态泛用特征提取器的构想与挑战。

Talk大纲

  1. 视角:3D点云表征学习的表层与深层挑战

  2. 心法:基于Scaling Principle重新审视骨干网络突破性能桎梏的关键

  3. 方法:利用序列化技术突破高维稀疏非结构化数据的固有约束

  4. 展望:以点云骨干网络作为多模态泛用特征提取器的未来与挑战

Talk·预习资料

论文链接:

https://arxiv.org/abs/23 12.1003

论文链接:

https://arxiv.org/abs/23 08.09718

论文链接:

*https://arxiv.org/abs/*2210.05666
代码链接:

https://github.com/Pointcept/Pointcept

Talk·提问交流

在Talk界面下的**【交流区】**参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

吴虓杨

香港大学 · 博士生

吴虓杨是香港大学计算机科学系博士研究生,师从赵恒爽教授。其主要研究方向为3D空间表征、3D感知、3D重建。他已在顶级会议和期刊上发表了十余篇论文,其中四篇为第一作者。他的工作已多次被选为CVPR等著名会议的Oral与Highlight,其工作也在多个著名竞赛和排行榜中取得了显著成绩,多次获得冠军或排名第一,如ScanNet,Waymo,nuScene等。其代表工作为Point Transformer系列以及Pointcept代码库。

个人主页:

https://www.techbeat.net/grzytrkj?id=40001


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

相关推荐
AI模块工坊5 小时前
CVPR 即插即用 | PConv:重新定义高效卷积,一个让模型“跑”得更快、更省的新范式
人工智能·深度学习·计算机视觉·transformer
2501_938782097 小时前
实战 Python NLP:处理 PDF 文档批量提取文本并进行主题建模
python·自然语言处理·pdf
m0_650108248 小时前
【论文精读】TI2V-Zero:零样本图像引导的文本到视频生成技术
计算机视觉·扩散模型·零样本学习·论文精读·文本条件图像到视频生成
Jason_zhao_MR9 小时前
RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知
linux·人工智能·嵌入式硬件·计算机视觉·机器人·嵌入式·交互
合作小小程序员小小店9 小时前
web网页,在线%抖音,舆情%分析系统demo,基于python+web+echart+nlp+知识图谱,数据库mysql
数据库·python·自然语言处理·flask·nlp·echarts·知识图谱
mmq在路上9 小时前
YOLO-World: Real-Time Open-Vocabulary Object Detection论文阅读
人工智能·计算机视觉·目标跟踪
柳鲲鹏10 小时前
全网首发:OpenCV防抖处理后,画面数据的存储及复制到原画面
人工智能·opencv·计算机视觉
Fuxiao___11 小时前
OpenVLA-OFT+ 在真实世界 ALOHA 机器人任务中的应用
人工智能·深度学习·计算机视觉
缘友一世12 小时前
LLama3架构原理浅浅学学
人工智能·自然语言处理·nlp·transformer·llama
AI妈妈手把手17 小时前
YOLO V2全面解析:更快、更准、更强大的目标检测算法
人工智能·算法·yolo·目标检测·计算机视觉·yolo v2