Talk|CVPR‘24 Oral:超越3D - Point Transformer V3中的多模态特征提取新构想

本期为TechBeat人工智能社区第599期线上Talk。

北京时间6月12日(周三)20:00,香港大学博士生---吴虓杨的Talk已经准时在TechBeat人工智能社区开播!

他与大家分享的主题是: "超越3D - Point Transformer V3中的多模态特征提取新构想" ,他通过PTv3的两个核心思想------骨干网络设计的规模准则与非结构化数据的序列化技术,探究3D点云骨干网络作为一种多模态泛用特征提取器的构想与挑战。该工作已入选CVPR 2024 Oral。

Talk·信息

主题:超越3D - Point Transformer V3中的多模态特征提取新构想

嘉宾:香港大学博士生 吴虓杨

时间:北京时间 6月12日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://www.techbeat.net/talk-info?id=878

Talk·介绍

在本次Talk中,我们将超越3D感知与表征的范畴,从多模态数据特征提取的角度介绍我们被接收为CVPR 2024 Oral的工作Point Transformer V3 (PTv3) 的思想与设计。点云作为3D表征与感知的基础模态,其本身也是高维度稀疏非结构化数据的代表。将图像的每一个像素视为点,图像本身也可被视为点云,这佐证了这类数据结构的普适性。本次Talk将通过PTv3的两个核心思想------骨干网络设计的规模准则与非结构化数据的序列化技术,探究3D点云骨干网络作为一种多模态泛用特征提取器的构想与挑战。

Talk大纲

  1. 视角:3D点云表征学习的表层与深层挑战

  2. 心法:基于Scaling Principle重新审视骨干网络突破性能桎梏的关键

  3. 方法:利用序列化技术突破高维稀疏非结构化数据的固有约束

  4. 展望:以点云骨干网络作为多模态泛用特征提取器的未来与挑战

Talk·预习资料

论文链接:

https://arxiv.org/abs/23 12.1003

论文链接:

https://arxiv.org/abs/23 08.09718

论文链接:

*https://arxiv.org/abs/*2210.05666
代码链接:

https://github.com/Pointcept/Pointcept

Talk·提问交流

在Talk界面下的**【交流区】**参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

吴虓杨

香港大学 · 博士生

吴虓杨是香港大学计算机科学系博士研究生,师从赵恒爽教授。其主要研究方向为3D空间表征、3D感知、3D重建。他已在顶级会议和期刊上发表了十余篇论文,其中四篇为第一作者。他的工作已多次被选为CVPR等著名会议的Oral与Highlight,其工作也在多个著名竞赛和排行榜中取得了显著成绩,多次获得冠军或排名第一,如ScanNet,Waymo,nuScene等。其代表工作为Point Transformer系列以及Pointcept代码库。

个人主页:

https://www.techbeat.net/grzytrkj?id=40001


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

相关推荐
hyshhhh12 小时前
【算法岗面试题】深度学习中如何防止过拟合?
网络·人工智能·深度学习·神经网络·算法·计算机视觉
gaoshengdainzi12 小时前
镜片防雾性能测试仪在自动驾驶与无人机领域的创新应用
人工智能·自动驾驶·无人机·镜片防雾性能测试仪
向上的车轮13 小时前
NOA是什么?国内自动驾驶技术的现状是怎么样的?
人工智能·机器学习·自动驾驶
AndrewHZ14 小时前
【图像处理基石】什么是tone mapping?
图像处理·人工智能·算法·计算机视觉·hdr
weixin_4352081614 小时前
通过 Markdown 改进 RAG 文档处理
人工智能·python·算法·自然语言处理·面试·nlp·aigc
jndingxin15 小时前
OpenCV 图形API(11)对图像进行掩码操作的函数mask()
人工智能·opencv·计算机视觉
阳光_你好16 小时前
请详细说明opencv/c++对图片缩放
c++·opencv·计算机视觉
契合qht53_shine16 小时前
OpenCV 从入门到精通(day_05)
人工智能·opencv·计算机视觉
Chaos_Wang_17 小时前
NLP高频面试题(三十三)——Vision Transformer(ViT)模型架构介绍
人工智能·自然语言处理·transformer
新知图书18 小时前
OpenCV单窗口显示多图片
人工智能·opencv·计算机视觉