个人思考记录(一)What u need in AI era

今天抽时间看完了WhynotTV-Danfei Xu的后半部分,同时又线上听了优秀校友的讲座以及小浣熊的分享会议,感触颇深,故稍作记录,待日后回顾。

在这个时代,AI迭代速度很快,LLM在一些领域能力已经逐渐逼近甚至超越了人类本身。确实会带来焦虑感,因为变化确实太快了,不过回看人类文明历史,这样的时刻有很多,每次生产方式的变迁都会带来变革,而人类文明也正是在一次次的变革中得到不断地发展,解放生产力的同时也让我们得以不断地去认识这个世界,在认识世界的过程中又会进一步改进生产方式,形成飞轮,驱动文明快速地进化。

作为个体,我认为应该不断扩充自己的认知边界(比如学习新知识),才能充分发挥AI的生产力。就像汽车的出现,人们学会如何开车从而能更快速地到达目的地。AI亦是汽车,它帮助我们更快地呈现自己的想法或解决一些实际的任务。//明天继续写,太晚了

播客内容

基于播客的字幕以及时间线,将内容转换成了文章的形式(推荐收听全文,这个是为了我自己去快速recover一些内容以及再思考):

一、成长经历与求学之路

徐丹飞一直把自己定义为一个机器人学家(roboticist),而不仅仅是一个坐在屏幕前训练模型的人。他最早对机器人产生兴趣是在初中到高中阶段,那时他喜欢做一些小手工、捣鼓单片机和小车。这些东西都是从淘宝上买来,自己找教程鼓捣的。他出生在山西太原,六年级到初一搬到上海,初中和高中都在上海度过。

小时候的徐丹飞是一个非常由兴趣驱动(interest-driven)的人。他不想做的事情,会付出零努力;想做的事情,则会投入百分之五十到一百的精力。他坦言自己小时候学习很差,因为非常不喜欢上课和考试这种形式,学校对他来说只是一个社交场所和度过大部分时间的地方。直到高一高二,他决定要出国读本科,动机才突然到来。去美国读书这个决定是他自己做的------高一暑假去了一趟美国后,他觉得"do something different"很吸引人,于是下定决心,没有找任何中介,完全通过QQ群和古早的留学生论坛CUUS自己DIY完成了申请。

他就读的上南中学是一个区重点学校,年级里申请美本的只有两三个人,他是一个极少数的选项。但他并不觉得有压力,反而觉得脱离主流是一件令人兴奋的事情。申请过程并不顺利,父母对这套系统完全不了解,只能负责出钱,所有事情都是他自己一个人干。最后他去了Dickinson College,一所文理学院(LAC)。他后来觉得这个选择没有问题,因为文理学院给了他更多自己探索的空间,也促成了他跟教授近距离做科研的机会。

回顾十八岁之前,他认为那段经历让他意识到:自己非常擅长处理高不确定性、完全没有框架的事情。这种能力后来非常适合做研究。

//兴趣驱动行动、热爱实践和挑战something different


二、本科时期的研究探索

刚到美国读本科时,徐丹飞就对计算机和物理感兴趣,于是主修CS、辅修物理。但他实在太想做机器人研究了,大一大二时就开始给各种名字里带"robotics"的公司打电话------真的就是Google到电话然后打过去,问招不招暑期实习生。他打了二十多个电话,包括Boston Dynamics,最后SynTouch Robotics的Jeremy Fishel接了电话,聊了很久后说:"那你来吧,我们也不给你钱,但你来吧。"

于是徐丹飞飞到洛杉矶,在SynTouch做触觉传感器(BioTac)和Shadow Hand。那个暑假他大概搞断了七八根手指。这段经历让他第一次接触到灵巧手,也让他确认了自己对硬件有天生的亲近感------"我真的就想让东西动起来",他非常享受坐在机器人旁边看它动、看它坏、再把它修好的过程。

后来,他又做了一件"离谱"的事:听说CMU有一个叫RSSS的暑期项目,他发邮件给一个做无人车定位的教授,对方回复说"你的背景可能合适"。徐丹飞直接开了四个小时车从Dickinson去CMU,敲门说:"我们要不要聊一聊?"聊了半小时后,教授说:"你来吧。"在CMU,他参与了一个非常经典的无人车定位项目,用一辆改装吉普,上面挂了六个摄像头,后面放了六台电脑做数据流。他一周有两天时间花在路上,跟另一个研究员天天开车出去在匹兹堡收集地图信息。这段经历让他非常开心,也让他看到机器人研究是一个完整的系统问题。

//想去做就去试试,anyway没有什么损失


三、PhD 与斯坦福的"机器人荒漠"

本科后期,徐丹飞通过3+2项目转到了哥伦比亚大学。申请PhD时,他拿到了CMU和Stanford的offer,纠结了很久。Stanford当时做机器人的人非常少,除了Oussama Khatib之外几乎没有人,更别提robot learning了。但徐丹飞觉得CMU的确定性太高------他知道去了会做什么;而在Stanford他完全不知道会做什么,"这件事情非常exciting"。他隐约感觉到那边有一个"bigger thing"。

2015年,他进入Stanford读PhD。当时系里大多数人都在做vision,Feifei Li在做scene graph,Silvio Savarese在做3D。Stanford有rotation制度,他第一个学期跟Silvio做3D reconstruction,第二个学期跟Leo Guibas做egocentric VR和human data capture------他自己买了Oculus DK,挂上Leap Motion做hand capture,这跟他后来做EgoMimic的雏形几乎一模一样。第三个学期他跟Feifei做了scene graph generation。

第二年,Feifei问他要不要继续做scene graph,他说不要,我要做robotics。当时Stanford做机器人的人依然很少,郁可(Yuke Zhu)和AJ后来才加入。他们四个人成立了一个小组,开始全是做robotics。徐丹飞说:"如果我真的有一件事情能让我完全主导,我非常开心。I hate other people telling me what to do。"

//自驱力,do something different


四、Robot Learning 与 Behavior Cloning 的转向

2016到2017年,robot learning领域大致分两派:一派是CV-centric,把机器人当成vision problem做;另一派是RL-centric,认为机器人需要自主学习,看不上supervised learning。当时大家普遍认为"supervised learning is to be shamed of",behavior cloning(BC)在论文introduction的前两段一定会被说"not good enough",有compounding error。

徐丹飞和郁可一开始做了一些one-shot imitation learning和Neural Task Programming(NTP),加了很多structure prior。他一度非常喜欢structure和compositionality,但后来逐渐意识到,composability可以作为一个问题而非方法------task and motion planning(TAMP)在工厂限定场景下有用,但太依赖人为设定的structure,成了天花板。

2019年,他去DeepMind实习,做了一个暑假的generative imitation learning(GAIL)。但这段经历最大的收获是:他亲眼看到behavior cloning actually works。DeepMind用Sawyer机器人做了非常好的teleoperation数据,如果把所有less-than-optimal的数据过滤掉,直接做BC,效果可以作为所有任务的competitive baseline。但DeepMind的flagship agenda是reinforcement learning,所以强行把BC压下去了。"It's not politically correct to do behavior cloning。"

回到Stanford后,徐丹飞和Jay一拍即合------Jay之前在ARM-Farm项目里也觉得offline RL不太work。他们花了三个月,从头搭了一套Franka Panda的力控teleoperation系统,从SPSSA写起,一直到算法和learning rate tuning,天天凌晨三点在实验室。这篇RSS 2020的论文本质上非常简单:BC works。他们做了很多"一拍脑子"的决定------加wrist camera、用ResNet-18、加spatial softmax、加RNN------"why not?"。机器人能学会30秒长度的真实任务,比如从烤箱里把盘子挖出来、放东西进去、关上烤箱门。这是之前没人见过的"sign of life"。

但因为当时有"BC shame",为了发论文,他们还是在上面加了一层比较好讲故事的东西。而且不巧的是,2020年COVID来了,实验室关闭,这篇工作没有引发范式转变。大家只觉得:"Stanford student did it with a better system. 没了。"


五、PhD 反思与教职选择

PhD期间,徐丹飞在Autodesk、Zoox和DeepMind做过几段实习。Zoox让他意识到自动驾驶"太无聊了"------当时的自动驾驶已经退化成一个vision problem,pipeline被拆成perception、planning、control,每个人只推自己的benchmark,不需要communication,不够full stack。他绝对不要再做driving。

另一个反思是neural symbolic language for robot。他一度挺信这个路线,但看过RT等工作后觉得,language model生成program再控制机器人,symbolic layer和physical layer差太远了。"Task planning这件事情非常简单,比起精细操作来说,中间离得太远了。"

决定找教职的转折点是在DeepMind实习之后。他意识到工业界研究环境从open变成了非常top-down,"what Demis says goes"。他不喜欢别人告诉他该做什么,"I need to干我自己有兴趣的事情"。在创业和教职之间,他选择了教职,因为教职能给他最多的自由度来做自己想做的事。


六、人类数据与 EgoMimic

徐丹飞认为,robot learning和传统robotics的区别在于:前者把里面所有方法都换成了data-driven。传统manipulation是大家写动力学方程、做优化;而现在大家只关心机器人有没有输出正确的action,中间的modeling都没有了。

他觉得这个领域最被高估的是model和algorithm的重要性,最被低估的是system------从硬件到软件结合的整个系统。

关于数据,现在主流是teleoperation数据(遥操)和synthetic数据(物理引擎)。但他最相信的是human data。2023年中,他和学生Sumeet开始做EgoMimic。Sumeet坚信第一人称视角(ego video)数据是最scalable的。他们一开始用Oculus加Leap Motion,但calibration非常不稳定;后来正好Meta有Aria眼镜,能同时做手部tracking、头部定位和RGB采集,于是整个项目转向用Aria。

为了让人类数据能更好地迁移到机器人,徐丹飞认为机器人必须变得更像人。当时没有任何现成机器人符合要求,于是他亲自去Vention买了各种铝部件,自己设计、自己搭了一个双臂加肩、带两根"棍子"的机器人,还自己3D打印了一个gripper。那段时间他不是在教课,就是在实验室打螺丝。

为什么从teleoperation转向human data?因为他逐渐意识到:"如果你在人人身上挂足够多的sensor,其实你可以把一个人变成一个机器人。"遥操数据本身也不完美------哪怕同一个机器人,底层控制器稍微改一点,数据分布就变了。但人和机器人的差距真有那么大吗?如果能把人的动作转成可用的action、perception转成policy input,那人类数据就可以直接当机器人数据用。

从ego video里,机器人能学到三层东西:第一层是世界应该怎么改变(拿杯子、推抽屉);第二层是本体如何造成这些改变(推哪里、拿哪里);第三层是如何产生本体的动作(肌肉、关节如何发力)。前两层可以学到,第三层很难直接从视频学------比如扔球需要知道每个关节发多少力,这是视频看不到的。这也是为什么他强调第一人称而非YouTube第三人称:第三人称数据虽然scalable,但和机器人数据的distribution对齐非常难,能真正用到的很少。

SLAM/VIO之所以重要,是因为如果把人当另一种机器人来用,就需要精确的action label。知道手在相机里的位置还不够,需要知道在世界坐标系里的位置,这就需要视觉惯性里程计来做自我定位。他认为长期最有价值的数据是"不经意的人类数据"------人在日常生活中自然流露的物理交互,而不是为了完成任务刻意采集的数据。因为人类的physical intelligence很多是在无意识中展现的,比如用手肘关抽屉、用脚开门。

关于模态的重要性,他的排序是:第一名是video;第二名是hand pose;第三名是language annotation;第四名是whole body pose和tactile(触觉);音频和嗅觉则相对不重要。触觉传感器今天最大的问题是太不统一,没有RGB那样的标准化表示。


七、UMI 数据与硬件瓶颈

UMI(Universal Manipulation Interface)数据可以理解为:人手退化成了一个机器夹爪(gripper),这个gripper自己有状态估计(上面带摄像头和定位),你知道它在3D空间的位置。好处是采集和部署之间几乎没有embodiment gap,因为末端执行器是一样的。但gap依然存在:人的操作空间和自由度跟机器人不一样。

徐丹飞认为,teleoperation、UMI和纯human data长期会变得难以区分,最终会融合。现在最work的UMI还是夹爪,因为五指灵巧手的transfer卡在硬件上------不是机械臂不行,而是大部分人没有把执行器、控制器、速度匹配串起来。他相信如果机器人底层执行器做得足够好(速度够快、控制够精准),human data到五指的transfer gap并没有那么大。

人形机器人和人类数据是一荣俱荣的关系。Humanoid本身除了使用工具和心理接受度外没有实质意义,但有了human data,humanoid就有了purpose。反过来,没有humanoid,human-to-robot transfer会更难。他担心human data会不会把机器人锁死在人类水平,但认为不至于------可以先通过human data达到人类水平,再通过finetuning激发超人类潜力。


八、数据基础设施与开放之争

徐丹飞估计,要达到behavior clone human的水平,大概需要1亿小时的高质量数据。而今天整个行业最大的数据集大概在10万到20万小时之间,还差100倍。如果有一个有钱的公司把所有人数据买下来,大概能凑到一两百万小时。

现在的问题是:human data还没有统一标准,传感器、模态、采集设备都没有converge。如果直接push for 1亿小时,有可能造成巨大浪费。他形容现在的状态是"一辆高速前行的火车,前面有几个Lauv在疯狂打铁轨,后面所有资本在往车里加油加柴"------数据的热情超过了基础研究的准备。

他本来希望"无心插柳":等Meta Glass、Apple Vision Pro等可穿戴设备普及后,自然会有大量数据。没想到robot learning火了,很多人开始专门采集数据,时间表被提前了。

关于开放与封闭,他认为human data采集最终会变成commodity而非护城河,因为frontier lab也不知道自己要什么数据,需要跟数据供应商紧密合作、互相教育。但他也承认,如果真的要达到1亿小时,可能最终会像LLM一样走向高度商业化、封闭的状态------"我在scale上的成功,会让open science这边变成失败"。

如果human data没有成为robot learning的基石,他觉得自己可能错判了两件事:一是simulation-based learning的scalability远超预期;二是人和机器人之间的embodiment gap(尤其是第三层动作生成)太大,导致zero-shot transfer完全不可能。


九、Full-Stack 与建模方法

徐丹飞反复强调full stack的重要性。机器人不能像自动驾驶那样被拆碎成分工明确的模块------perception、planning、control各做各的。他认为robotics本质上不是一个能分工解决的问题,所有人需要know everything。

Full stack不等于什么都要自己造,但你需要对整个系统的每一个细节有足够深的理解,才能判断哪些该买、哪些该建。一个团队绝对不能放弃、必须in-house做的是:evaluation和training loop、post-training数据筛选、数据分布的把控、以及close loop的采集-训练-部署循环。如果数据来自vendor,vendor怎么采的、synchronization做得好不好,对你来说就是一个黑箱,这在追求1亿小时数据时会是巨大挑战。

关于建模,human data会偏好long context model。因为behavior clone一个agent需要足够的上下文来解释为什么要做这个动作。如果context不够,action只是一个非常宽的分布,无法理解。

他思考system 1和system 2的interface会是什么,认为"we need a new language"。LLM grounding到action的距离太远了。一个不会说话的人跟物理世界交互时,并不会用language as system 2来规划、system 1来执行------规划和操作可能在另一个空间里完成。这个空间是什么,需要从human data里从头学起。

//全栈开发,多领域交叉,no limit


十、教授生涯与给年轻人的建议

徐丹飞在Georgia Tech做助理教授不到四年。他的advising style在hands-on和hands-off之间反复横跳------有些东西他真的想自己push forward,比如EgoMimic的机器人就是他亲自搭的;有些东西则让学生做open-ended exploration。

他的lab文化有几个坚持:讨厌分工,要求每个人care about the whole thing,know everything,no work is beneath anyone(全栈开发)。如果机器人电机坏了,他会直接进去自己焊。他招学生最看重的特质是:不讨厌硬件。

学术界最吸引他的本质是thought leadership------"academia最终要达到的是oversized impact,你需要用你的idea来影响别人,让别人觉得一件事情是对的,然后共同推进。"

对于2026年读robotics PhD的学生,他认为比十年前更难了------因为FOMO(fear of missing out)情绪太高,如果不跟主流连接会觉得被lock out。但反过来,资源变多了,工具变多了,如果选对了方向,做成一件事更容易。他建议年轻研究者尽早培养taste------自己觉得什么是对的、什么是错的。看优秀研究者的轨迹时,要理解他们的gradient(为什么做),而不只是学他们的traction(做了什么)。

他的career goal很简单:没有很强的个人企图心,只是希望能尽微薄之力促成robotics的GPT-3 moment。他给十年前的自己的建议是:勇敢做自己想做的事,"what's to lose?"。

// 先找对方向,然后just try


时间胶囊寄语

"我觉得真的能够参与在一个能够改变世界的领域,在正确的时间、在一个正确的地方,是一个非常幸运的事情。我可能会把自己当做一个没有那么强天赋的人,只是一个正常普通的人。我觉得绝大部分人做自己想做的事情,还是会让你的career或者你自己的生活变得更容易一点,也没有那么脱离大部队。所以是勇敢地做自己想做的事,不要有那么多的包袱------what's to lose?"

//佬谦虚了,个人选择有时亦是一种时运吧;人生一世就做些自己想做的事吧

参考资料

WhynotTV播客 - 何泰然

熊猫字幕

相关推荐
六月雨滴1 小时前
Oracle 性能监控体系概述
数据库·oracle·dba
小旭95271 小时前
MySQL 主从复制、MyCat 读写分离与分库分表实战
java·数据库·sql·mysql·database
计算机安禾1 小时前
【算法分析与设计】第38篇:最近点对与分治在几何中的应用
java·服务器·网络·数据库·算法
柏舟飞流1 小时前
向量数据库:从底层原理到选型实战
数据库
__Witheart__1 小时前
Android 驱动编译为模块或者built-in内核
android·linux·数据库
ZC跨境爬虫1 小时前
SQL学习日志 Day_1:初识SQL,开启数据之旅
数据库·sql·学习
计算机安禾1 小时前
【算法分析与设计】第37篇:平面扫描与线段交问题
java·大数据·数据库·算法·机器学习
志栋智能1 小时前
超自动化巡检:让运维工作可衡量、可优化
运维·数据库·自动化
zxfBdd1 小时前
doris insert into和with as 合用
数据库·sql